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内 容 拓 要 


本 书 是 介绍 Linux 与 UNIX 编 程 接口 的 权威 著作 。Linux 编 程 资深 专家 
Michael Kerrisk 在 书 中 详细 描述 了 Linux/UNIX 系 统 编程 所 涉及 的 系统 调 
用 和 库 函 数 ， 并 辅 之 以 全 面 而 清晰 的 代码 示例 。 本 书 涵盖 了 逾 500 个 系 
a eee 函数 ， 并 给 出 逾 200 个 程序 示例 ， 另 含 88 张 表格 和 115 幅 示意 





本 书 总 共 分 为 64 章 ， 主 要 讲解 了 高 效 读 写 文件 ， 对 信号 、 时 钟 和 定时 堪 
的 运用 ， 创 建 进程 、 执 行程 序 ， 编 号 安 全 的 应 用 程序 ， 运用 POSIX 线 和 

拉 术 编写 多 线程 程序 ， 创建 和 使 用 共享 库 ， 运 用 管道 、 消 息 队 列 、 共 部 

人 量 技术 来 进行 进程 间 通 信 ， 以 及 运用 套 接 字 API 编 写 网 络 应 
等 内 容 。 


本 书 在 汇聚 大 批 Linux 专 有 特性 (epoll、inotify、/proc〉 的 同时 ， 还 特 
意 强化 了 对 UNIX 标 准 (POSIX, SUS) 的 论述 ， 彻 底 达 到 了 “ 鱼 与 能 
掌 ， 二 者 得 兼 ” 的 效果 ， 这 也 堪 称 本 书 的 最 大 亮点 。 


本 书 布局 合理 ， 论 述 清晰 ， 说 理 透 彻 ， 尤 其 是 作者 对 示例 代码 的 构思 巧 
wb, METO, FARES MRS. APIA MS Linux/UNIX AKA 
开发 、 运 维 工作 的 技术 人 员 阅 读 ， 同 时 也 可 作为 高 校 计 算 机 专业 学 生 的 
参考 研习 资料 。 
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语 将 本 书 献 给 Cecilia， 你 照 亮 了 我 的 世界 ! 
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编写 Linux 软 件 时 如 果 只 能 选择 一 本 参考 书 ， 则 非 本 书 莫 属 。 
一 MARTIN LANDERS，Google 公 司 软件 工程 师 


本 书 描述 精 到 ， 示 例 周 详 ， 涵 盖 了 Linux 底 层 API 编 程 的 详尽 内 容 及 个 中 
fiz 论 读者 水 平 如 何 ， 都 能 从 本 书 中 受益 。 


—MEL GORMAN, Understanding the Linux Virtual Memory Manager 
作者 


Michael Kerrisk 的 这 本 Linux 编 程 巨著 ， 不 但 论 及 Linux 编 程 、 其 与 各 种 
标准 之 间 的 联系 ， 而 且 还 就 作者 所 知 ， 重 点 介绍 了 已 获 修正 的 Linux 内 
核 bug 以 及 改进 颇 多 的 Linux 手 册页 。 赁 此 三 点 ， 足 可 让 Linux 编 程 更 易 
EF. 本 书 对 各 项 主题 的 深入 探讨 使 其 成 为 必 备 的 参考 书籍 “无 论 读 
者 在 Linux 编 程 方面 造 讶 如 何 。 








— ANDREAS JAEGER，NOVELL 公 司 OPENSUSE 项 目 经 理 


Michael 用 他 坚忍 不 拔 的 毅力 为 Linux 程 序 员 奉献 了 这 本 论述 严谨 、 表 述 
清晰 、 简 洁 的 权威 参考 书 。 虽 然 本 书 针对 Linux 程 序 员 而 著 ， 但 对 任何 
在 UNIX/POSIX 环 境 中 编程 的 程序 员 来 说 都 极 具 价值 。 


—— DAVID BUTENHOF, Programming with POSIX Threads 作 者 、 
POSIX /UNIX 标 准 撰写 者 


本 书 在 重点 关注 Linux 系 统 的 同时 ， 对 于 UNIX 系 统 和 网 络 编程 也 阐述 透 
彻 ， 浅 显 易 懂 。 无 论 是 初 涉 UNIX 编 程 的 新 十 ， 还 是 编程 经 验 丰富 的 
UNIX 老 手 ( 想 要 了 解 大 行 其 道 的 GNU/Linux 系 统 有 何 新 意 ) ， 我 都 向 
他 们 力荐 此 书 。 


— FERNANDO GONT， 网 络 安 全 研究 员 、IETF 参 与 者 、IETF RFC 作 
者 

















本 书 以 百科 全 书 般 的 叙述 风格 对 Linux 接 口 编程 做 了 既 深 且 广 的 覆盖 





还 提供 了 大 量 教 科 书 风格 的 编程 示例 和 练习 。 本 书 所 包含 的 各 项 主题 
从 原理 到 可 以 实际 运行 的 代码 一 一 都 已 描述 清晰 且 易 于 理解 。 本 书 
正 是 专业 人 士 、 学 生 以 及 教育 工作 者 所 期 盼 的 Linux/UNIX 参 考 书 。 


——ANTHONY ROBINS ， 奥 塔 哥 大 学 计算 机 科学 副教授 
无 论 从 精确 性 、 质 量 ， 还 是 详细 程度 来 说 ， 本 书 都 令 我 印象 深刻 。 身 为 
Linux 系 统 调 用 的 行家 ，Michael Kerrisk 与 我 们 分 享 了 他 对 Linux API 的 认 
知 和 理解 。 


——CHRISTOPHE BLAESS, Programmation système en C sous Linux 作 
者 





对 于 治学 严谨 的 专业 Linux/UNIX 系 统 程序 员 而 言 ， 本 书 实 为 必 备 的 参考 
书籍 。 本 书 涵盖 了 所 有 关键 API 的 使 用 ， 同 时 兼顾 Linux 和 UNIX 系 统 接 
口 ， 挡 述 清晰 ， 示 例 具 体 ， 除 此 之 外 ， 还 强调 了 遵从 诸如 SUS 和 POSIX 
1003.1 等 标准 的 重要 性 和 益处 。 


ANDREW JOSEY, The Open Group 标准 部 总 监 、POSIX 1003.1 工 
作 组 主席 


由 手册 页 的 维护 者 杀 目 操 刀 ， 以 系统 程序 员 视角 写 出 一 本 百科 全 书 式 的 
Linux 系 统 编程 巨 善 ， 还 有 比 这 更 完美 的 吗 ? 本 书 全 面 而 又 详实 。 我 坚 
信 本 书 将 在 我 的 书架 上 牢 牢 占据 一 席 之 地 。 


— BILL GALLMEISTER, POSIX.4 Programmer’s Guide: Programming 
for the Real World 作 者 


本 书 是 最 新 最 全 的 Linux/UNIX 系 统 编程 参考 书 。 无 论 读者 是 Linux 系 统 

编程 新 兵 ， 还 是 关注 Linux 编 程 和 程序 移植 性 的 UNIX 系 统 编程 老将 ， 又 
或 者 只 是 在 寻找 一 本 Linux 编 程 接 口 方 面 的 优秀 参考 书 的 读者 ，Michael 
Kerrisk 的 这 本 大 作 都 特定 是 其 案头 良 伴 。 


——LOIC DOMAIGNE，CORPULS.COM 首 席 软件 架构 师 Cir Ash) 
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主题 


本 书 将 描述 Linux 编 程 接 口 : 由 UNIX 操 作 系 统 的 开源 实现 
Linux 上 所 提供 的 系统 调用 、 库 函数 以 及 其 他 底层 接口 。 运 行 于 Linux 之 上 
的 每 一 个 程序 都 会 直接 或 间接 地 使 用 这 些 接口 。 这 些 接口 允许 应 用 程序 
去 执行 诸多 任务 ;文件 WO、 创 建 /删除 文件 和 目录 、 创 建新 进程 、 执 行 
程序 、 设 置 定时 器 、 在 同一 台 计 算 机 上 发 起 进程 或 线程 间 通 信 ， 以 及 为 
联网 计算 机 间 的 进程 建立 通信 等 等 。 有 时， 人 们 也 将 这 一 系列 的 底层 接 
口 称 为 系统 编程 接口 。 


尽管 本 书 着 眼 于 Linux， 但 对 于 标准 和 可 移植 性 问题 也 倍加 关注 。 
对 于 Linux 所 特有 的 技术 细节 ， 以 及 已 由 POSIX 和 和 SUS 标准化 的 UNIX 普 
遍 特 性 ， 本 书 会 在 论述 中 清晰 地 加 以 区 分 。 因 此 ， 本 书 也 提供 了 对 
UNIX/POSIX 编 程 接口 的 全 面 描述 。 对 于 那些 在 其 他 UNIX 系 统 环境 中 编 
E E 














本 书 的 读者 
本 书 主要 针对 以 下 读者 : 


。 为 Linux 系 统 、 其 他 UNIX 系 统 ， 或 兼容 于 POSIX 的 操作 系统 编写 应 
用 程序 的 程序 员 和 软件 设计 人 员 。 

。 在 Linuxz 和 其 他 UNIX 实 现 之 间 ， 以 及 Linux 和 其 他 操作 系统 之 间 进 
行 应 用 程序 移植 的 程序 员 。 

。 教 /学 Linux 和 UNIX 系 统 编程 的 高 校 师 生 。 

。 意欲 深入 理解 Linux/UNIX 编 程 接口 以 及 系统 软件 各 模块 实现 细节 的 
系统 管理 人 员 和 高 级 用 户 (power users) 。 


作者 假定 读者 之 前 有 些许 编程 经 验 ， 但 不 必 是 在 系统 编程 领域 。 此 
外 ， 作 者 还 假定 读者 具备 阅读 C 语 言 源码 的 能 力 ， 并 了 解 如 何 使 用 shell 
和 UNIX 或 Linux 的 常用 命令 。 对 于 不 熟悉 UNIX 和 Linux 的 读者 来 说 ， 阅 
i a 
AS BY 。 














提示 : [Kernighan & Ritchie, 1988] 是 最 具 权 威 性 的 C 语 
言 参 考 书籍 。[Harbison& Steele, 2002] 一 书 对 C 语 言 的 介绍 
则 更 为 详细 ， 并 涵盖 了 由 C99 标 准 所 带 来 的 变化 。[van der 
Linden, 1994] 也 是 一 本 不 错 的 C 语 言 书籍 ， 寓 教 于 乐 。[Peek 
et al., 2001] 则 对 UNIX 的 使 用 做 了 简洁 而 完整 的 介绍 。 


贯穿 本 书 ， 会 以 这 种 缩 进 小 字体 的 文字 形式 用 于 旁 
注 ， 其 内 容 包括 基本 原理 、 实 现 细节 、 背 景 信 息 、 史 上 软 
闻 以 及 与 正文 相关 的 其 他 辅助 主题 。 








Linux 和 UNIX 


其 他 UNIX 实 现 的 大 多 数 特 性 同样 见 诸 于 Linux， 反 之 亦 然 。 有 鉴于 
此 ， 本 书本 可 只 关注 于 标准 UNIX ( 即 POSIX) 的 系统 编程 。 编 写 可 移 
植 的 应 用 程序 固然 是 值得 追求 的 目标 ， 但 描述 Linux 对 标准 UNIX 编 程 接 
口 的 扩展 也 同样 重要 。Linux 的 广 受 欢迎 只 是 原因 之 一 ， 而 有 时 出 于 性 
能 方面 的 考虑 ， 或 是 需要 访问 标准 UNIX 编 程 接口 所 不 支持 的 功能 时 ， 
使 用 非 标 准 扩 展 ( 正 因 如 此 ， 所 有 UNIX 实 现 都 提供 有 非 标 准 扩展 ) 就 
显得 至 为 重要 ， 此 为 原因 之 二 。 


综 上 所 述 ， 在 构思 本 书 时 ， 作 者 不 但 力图 使 其 对 在 各 种 UNIX 实 现 
| 还 全 面 介绍 了 Linux 专 有 的 编程 特性 ， 如 下 
ZN o 


epoll， 获 取 文 件 O 事 件 通知 的 一 种 机 制 。 

inotify， 监 控 文 件 和 目录 变化 的 一 种 机 制 。 

capabilities， 为 进程 赋予 超级 用 户 的 部 分 权限 的 一 种 机 制 。 

扩展 属性 。 

i-node 标 记 。 

clone() 系 统 调用 。 

/proc 文 件 系 统 。 

在 文件 VO、 信号 、 定 时 器 、 线 程 、 共 享 库 、 进 程 间 通信 以 及 套 接 
字 方 面 ，Linux 所 专 有 的 实现 细节 。 

















本 书 的 用 途 和 组 织 结构 
本 书 主要 有 以 下 两 方面 的 用 途 ; 


。 作为 Linux/UNIX 编 程 接口 的 入 门 教程 ， 读 者 可 循序 阅读 本 书 。 后 续 
re ee 伴 之 以 尽 可 能 简短 的 
前 向 引用 。 

e 作为 Linux/UNIX 编 程 接口 的 参考 大 全 ， 读 者 可 以 根据 书后 的 详细 索 
引 和 频 现 于 正文 中 的 交叉 引用 ， 随 机 选择 阅读 主题 。 


本 书 各 章 可 分 为 以 下 几 个 部 分 。 


1. 背景 知识 及 概念 : UNIX、C 语 言 以 及 Linux 的 历史 回顾 ， 以 及 对 
UNIX 标 准 的 概述 〈 第 1 章 ) ; 以 程序 员 为 对 象 ， 对 Linuxz 和 UNIX 的 概念 
进行 介绍 (第 2 章 ) ; Linux 和 UNIX 系 统 编 程 的 基本 概念 (第 3 音 ) 。 


2. 系统 编程 接口 的 基本 特性 : 文件 VO 第 4 章 、 第 5 章 ) ， 进 程 
(em) ， 内 存 分 配 ( 第 7 章 ) ， 用 户 和 组 (第 8 章 ) ， 进 程 凭 证 
(process credential) 《第 9 章 ) ， 时 间 (281082) ， 系 统 限制 和 选项 
第 11 章 ) ， 以 及 获取 系统 和 进程 信息 (第 12 革 ) 。 


3. 系统 编程 接口 的 高 级 特性 : 文件 UO 绥 冲 〈 第 13 章 ) ， 文 件 系 统 
(14) ， 文 件 属 性 (第 15 章 ) ， 扩 展 属性 (第 16 章 ) ， 访 问 控制 列 
表 ( 第 17 章 ) ， 目 录 和 链接 (第 18 章 ) ， 监 控 文 件 事 件 (第 19 章 ) ， 信 
+5 (signals) 〈 第 20 一 22 章 ) ， 以 及 定时 器 (第 23 章 ) 。 


4. 进程 、 程 序 及 线程 : 进程 的 创建 、 终 止 ， 监 控 子 进程 ， 执 行程 
序 〈 第 24~28 章 ) ， 以 及 POSIX 线 程 〈 第 29~33 章 ) 。 


5. 进程 及 程序 的 高 级 主题 : 进程 组 、 会 话 以 及 任务 控制 〈 第 34 
章 ) ， 进 程 优先 级 和 进程 调度 〈 第 35 章 ) ， 进 程 资 源 (第 36 章 ) ， 和 守护 
进程 《第 37 章 ) ， 编 写 安全 的 特权 程序 (第 38 章 ) ， 能 力 (capability) 
(第 39 章 ) ， 登 录 记 账 (第 40 章 ) ， 以 及 共享 库 〈 第 41 章 和 第 42 章 ) 。 

















6. 进程 间 通 信 CPC) : IPC 概 览 〈 第 43 章 ) ， 管 道 和 FIFO (2844 
章 ) ， 系 统 V IPC 消 息 队 列 、 信 和 号 量 (semaphore) 及 共享 内 存 〈 第 45 一 
48 章 ) ， 内 存 映 射 〈 第 49 章 ) ， 虚 拟 内 存 操 作 (第 50 章 ) , POSIXYAN 


队列 、 信 和 号 量 及 共享 内 存 〈 第 51 一 54 章 ) ， 以 及 文件 锁定 《第 55 章 ) 。 


7. 套 接 字 和 网 络 编程 : 使 用 套 接 字 的 IPC 和 网 络 编程 〈 第 56 一 61 
=) 

8. 高 级 MO 主题 : 终端 〈 第 62 章 ) ， 其 他 WO 模型 (63%) , WR 
伪 终 端 〈 第 64 章 ) 。 


程序 示例 


本 书 会 以 简短 而 完整 的 程序 示例 来 描述 大 部 分 编程 接口 ， 以 期 读者 
通过 命令 行 方便 地 体验 这 些 程序 ， 从 而 了 解 各 种 不 同系 统 调用 和 库 函 数 
的 运作 方式 。 因 此 ， 本 书包 含 了 大 量 代 码 示例 约 15 000 行 C 语 言 代 
码 和 shell 会 话 记 录 。 


里 然 阅读 并 执行 上 述 示例 代码 是 学 习 Linux 编 程 接 口 的 一 个 不 错 的 
起 点 ， 但 巩固 本 书 所 述 概 念 最 为 有 效 的 方式 还 是 动手 编写 代码 一 一 无 论 
是 修改 示例 程序 以 验证 自己 的 编程 思路 ， 还 是 编写 全 新 的 程序 。 


书 中 所 有 源 代码 均 可 从 本 书 网 站 上 下 载 。 网 站 所 发 布 的 源码 中 还 包 
含 了 不 少 未 见 诸 于 本 书 的 其 他 程序 。 这 些 程序 的 用 途 和 详细 信息 在 源码 
注释 中 均 有 描述 。 源 码 中 还 提供 了 Makefile， 用 来 构建 相应 的 程序 ， 附 
带 的 README 文 件 则 提供 了 相应 程序 的 具体 细节 。 


在 GNU Affero 通 用 公共 许可 证 (Affero GPL) 版 本 3 条 款 的 约束 
站， 可 自行 重新 发 布 和 修改 本 书 源码 ， 源 码 中 也 提供 了 一 份 GNU Affero 
GPL 版 本 3 的 文件 副本 。 





























习题 

本 书 各 章 大 都 会 在 结尾 处 附 有 一 组 习题 ， 其 中 一 部 分 会 利用 书 中 的 
程序 示例 进行 各 种 试验 ， 另 一 些 则 与 本 章 所 讨论 的 概念 相交， 而 其 他 习 
题 则 是 引导 读者 亲自 动手 编程 ， 意 在 巩固 读者 对 所 学 内 容 的 理解 。 附 录 
F 会 有 选择 地 给 出 部 分 习题 的 答案 。 


标准 和 可 移植 性 


本 书 自始至终 都 对 可 移植 性 问题 予以 了 特殊 关注 。 对 相关 标准 的 引 
用 在 书 中 会 反复 出 现 ， 尤 其 是 POSIX.1-2001 和 SUSv3 的 联合 标准 中 。 此 
外 ， 本 书 还 包括 了 该 标准 最 新 版 本 (POSIX.1- 2008 与 SUSv4 联 合 标准 ) 
的 变更 细节 。 (由 于 SUSv3 较 之 于 之 前 的 版 本 做 了 大 范围 的 修订 ， 并 且 
在 写作 本 书 之 际 ，SUSv3 依 然 是 影响 最 为 广泛 的 UNIX 标 准 ， 故 而 本 书 
对 标准 的 讨论 一 般 都 以 SUSv3 为 框架 ， 并 会 注 明 其 与 SUSv4 之 间 的 差 
别 。 然 而 ， 对 读者 来 说 ， 除 非 另 有 说 明 ， 与 SUSv3 规 范 有 关 的 论述 同样 
适用 于 SUSv4。 ) 


对 于 那些 尚未 标准 化 的 特性 ， 本 书 会 列 出 与 其 他 UNIX 实现 间 的 差 
异 范 围 。 此 外 ， 本 书 也 会 强调 那些 独 具 Linux 实 现 特色 的 主要 特性 ， 以 
及 Linuxz 和 其 他 UNIX 实 现 之 间 在 系统 调用 和 库 函 数 方面 的 细微 差别 。 任 
何 特性 ， 凡 未 注 明 为 Linux 所 专 有 ， 读 者 通常 可 将 其 视 为 大 部 分 或 所 有 
UNIX 实 现 的 标准 特性 。 


书 中 的 编程 示例 (除了 注 明 为 Linux 所 专 有 的 特性 ) 大 多 已 在 
Solaris. FreeBSD. Mac OS X, Tru64 UNIX 以 及 HP-UX 中 的 所 有 或 部 分 
系统 上 进行 了 测试 。 为 了 改进 针对 其 中 某 些 系统 的 可 移植 性 ， 本 书 的 
o 
列 出 。 








Linux 内 核 和 C 语 言 函 数 库 版 本 


本 书 主要 着 眼 于 Linux 2.6.x， 撰 写本 书 之 际 ， 这 一 内 核 版 本 的 使 用 
也 最 为 广泛 。 本 书 同样 涵盖 了 Linux 2.4 内 核 的 详细 信息 ， 也 会 适时 指明 
Linux 2.4 和 2.6 内 核 间 的 特性 差异 。 几 是 见 诸 于 Linux 2.6.x 系 列 中 的 新 特 
性 ， 作 者 均 会 标 出 其 〈 首 度 ) 出 现 的 确切 内 核 版 本 号 〈 例 如 ， 
2.6.34) 。 


至 于 C 语 言 函 数 库 ， 本 书 会 重点 关注 GNU CHF JE (glibc) 版 本 
2。 本 书 也 会 适时 指出 glibc 2.x 版 本 之 间 所 存在 的 差异 。 


本 书 付 梓 之 际 ，Linux 内 核 版 本 2.6.35 刚 刚 问 世 ， 不 和 久 又 发 布 了 glibc 
版 本 2.12。 本 书目 前 的 论述 涵盖 了 以 上 两 种 软件 的 这 两 个 版 本 。 本 书 出 
版 后 ，Linuxz 和 glibc 接 口 所 发 生 的 变化 会 在 本 书 的 Web 站 点 上 公布 。 





在 其 他 语言 中 调用 编程 接口 


虽然 本 书 的 程序 示例 都 是 以 C 语 言 编写 而 成 的 ， 但 读者 也 能 使 用 其 
他 编程 语言 来 调用 本 书 所 描述 的 编程 接口 。 这 些 语言 既 包 括 编译 语言 ， 
例如 : C++、Pascal、Modula、Ada、FORTRAN 和 D 话 言 ， 也 包括 脚本 
语言 ， 例 如 : Perl、Python 和 Ruby《〈 如 要 使 用 Java， 则 需 另辟蹊径 ， 可 
参阅 [Rochkind, 2004]) 。 这 需要 运用 不 同 的 技术 以 获取 必要 的 常量 定义 
和 函数 申明 〈C++ 除 外 ) ， 而 按 C 语 言 链接 惯例 所 约定 的 方式 来 传递 函 
数 参 数 可 能 也 需要 额外 的 工作 投入 。 虽 然 实现 起 来 有 差异 ， 但 基本 原理 
sl 即便 读者 在 使 用 其 他 语言 进行 编程 ， 本 书 所 含 信 息 对 他 们 也 
H 1a a 











天 于 作者 


本 人 于 1987 年 开始 使 用 UNIX 和 C 语 言 。 当 时， 作者 连续 几 个 礼拜 都 
泡 在 一 台 HP Bobcat TEW, ERIR A Marc Rochkind 所 
3% Advanced UNIX Programming〈 第 1 厂 ) 一 书 ， 以 及 一 本 最 终 被 翻 得 卷 
了 边 的 C shell 手 册 的 印刷 本 。 投 入 时 间 阅 读 文 档 (如 果 有 的 话 )， 并 编 
写 一 些小 型 的 (规模 可 逐渐 变 大 ) 测试 程序 进行 试验 ， 直 至 自己 对 软件 
的 理解 感到 信心 满 满 这 是 作者 当时 所 采用 的 编程 学 习 方法 ， 并 一 直 
沿用 至 今 作者 也 回 任 何 试 水 新 型 软件 技术 的 人 们 推荐 这 一 做 法 。 依 
作者 拙 见 ， 从 长 远 来 看 ， 这 种 上 自学 方法 能 够 大 大 节约 时 间 。 本 书 所 载 的 
许多 编程 示例 正 是 在 这 一 学 习 方 法 的 激励 之 下 设计 而 成 。 


作者 的 主要 身份 是 软件 工程 师 和 设计 师 。 然 而 ， 作 者 同样 好 为 人 
师 ， 并 在 学 术 或 商业 领域 有 过 数 年 的 教学 经 验 。 作 者 还 开设 过 多 门 为 期 
一 周 的 UNIX 系统 编程 课程 ， 这 一 经 验 对 本 书 的 写作 也 颇 有 影响 。 


作者 使 用 Linux 的 时 间 大 约 只 有 与 UNIX 打 交道 的 时 间 一 半 长 ， 在 这 
段 时 间 里 ， 作 者 的 兴趣 也 逐渐 集中 在 了 内 核 和 用 户 空间 的 “分 水 岭 ” 
Linux 编 程 接 口上 。 这 一 兴趣 也 使 作者 投身 于 一 系列 紧密 相 联 的 活动 
中 。 作 者 会 时 不 时 地 对 POSIX/SUS 标 准 提 出 自己 的 意见 并 提供 BUG 报 
T: 对 新 加 入 Linux 内 核 中 的 用 户 空 间接 口 进 行 测试 和 设计 评审 (还 能 
帮助 发 现 并 修复 那些 接口 中 的 诸多 代码 和 设计 缺陷 ) ; 作者 还 经 常 在 关 
于 编程 接口 及 其 文档 的 主题 会 议 上 发 言 ， 并 受 邀 多 次 出 席 Linux 内 核 开 
发 者 年 度 峰 会 。 将 上 述 所 有 活动 串 接 在 一 起 的 主线 是 作者 对 Linux 和 领域 
最 突出 的 贡献 : 作者 为 Linux man-pages 项 目 

Chttp://www.kernel.org/doc/man-pages/) 所 做 的 工作 。 


Linux 手 册页 中 的 第 2、3、4、5 以 及 7 部 分 都 属于 man-pages 项 目 。 
这 几 部 分 也 是 手册 页 中 描述 编程 接口 的 内 容 ， 这 些 编程 接口 由 Linux 内 
核 及 GNU C 语 言 库 提 供 ， 本 书 所 要 介绍 的 正 是 这 方面 的 内 容 。 作 者 参与 
man-pages 项 目 已 逾 十 载 。 自 2004 年 起 ， 作 者 成 为 了 该 项 目的 主要 维护 
人 ， 所 承担 的 任务 大 致 包括 : 撰写 文档 、 阅 读 内 核 和 C 语 言 库 源码 ， 以 
及 通过 编程 来 验证 文档 细节 〈 通 过 为 接口 撰写 文档 来 发 现 相 关 接 口中 的 
BUG, KRMNE) 。 此 外 ， 作 者 对 man-pages 项 目的 贡献 也 最 多 
一 一 在 约 900 页 的 手册 页 中 ， 作 者 独自 编写 了 其 中 的 140 页 ， 并 与 他 人 合 
著 了 男 外 的 125 页 。 因 此 ， 在 购买 本 书 之 前 ， 读 者 想必 已 经 阅读 过 本 人 


























人 作者 希望 这 些 成 果 能 对 读者 有 所 帮助 ， 和 希望 本 书 更 是 如 
此 。 


致谢 


没有 一 干 人 等 的 文 持 ， 本 书 的 质量 绝 不 会 如 此 之 高 。 我 要 问 他 们 致 


以 最 诚挚 的 谢意 。 
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序 ， 


来 自 世 界 各 地 的 多 位 技术 审 稿 人 都 参与 了 本 书 初 稿 的 阅读 ， 找 出 错 
指出 含糊 不 清 的 解释 ， 对 措辞 、 插 图 以 及 习题 提出 建议 ， 测 试 程 
发 现 不 为 作者 所 知 的 Linux 和 其 他 UNIX 实 现 间 的 行为 差异 ， 并 不 时 


为 作者 打气 助威 。 在 本 书 中 ， 作 者 将 许多 审 稿 人 无 私 奉献 的 真知 灼 见 一 
并 收纳 ， 实 则 作者 的 知识 并 非 如 此 渊博 。 当 然 ， 书 中 的 任何 错误 都 是 作 


者 一 


不 
Hi» 


AZT. 


无 论 以 下 技术 审 稳 人 按 姓 氏 字 母 排 序 ) 对 本 书 手 稿 的 审 校 巨 细 与 
篇 幅 多 少 ， 作 者 都 要 回 他 们 致 以 由 衷 的 谢意 。 


Christophe Blaesss 是 一 名 软件 咨询 工程 师 和 塔 训 专家 ， 专 长 是 
Linux 在 工业 (实时 和 髓 入 ) 方面 的 应 用 。Christophe 

是 Programmation système en C sous Linux 一 书 的 作者 ， 这 本 法 文 杰 
作 涵 羔 了 与 本 书 相 同 的 多 项 主题 。 他 不 音 审 阅 了 本 书 的 众多 章节 。 
David Butenhof (HP 公司 ) 是 原 POSIX 线 程 工作 组 和 SUS 线 程 扩 展 
工作 组 的 成 员 之 一 ， 也 是 Programrming with POSIX Threads 一 书 的 作 
者 。 他 曾 为 开放 软件 基金 会 编写 了 最 初 的 DCE 线 程 参考 实现 ， 并 
担任 OpenVMS 和 Digital UNIX 线 程 实现 的 首席 架构 师 。David 审 校 
了 本 书 与 线程 相关 的 音节， 提出 了 诸多 改进 意见 ， 还 耐心 地 纠正 了 
几 处 作者 对 POSIX 线 程 API 的 理解 错误 。 

Geoff Clare 目 前 在 为 The Open Group 开发 UNIX 一 致 性 测试 包 ， 从 
事 UNIX 标 准 化 工作 已 逾 20 年 ， 是 Austin Group 的 6 位 关键 参与 者 之 
一 ， 该 组 的 宗旨 是 开发 出 构成 POSIX.1 和 Single UNIX Specification 
基础 卷 的 共同 标准 。Geoff 仔 细 审 校 了 手稿 中 与 UNIX 编 程 接口 相关 
的 内 容 ， 耐 心细 致 地 提出 了 众多 修正 和 改进 意见 ， 发 现 了 诸多 潜藏 
ais 中 的 错误 ， 在 突出 标准 对 可 移植 编程 的 重要 性 方面 助 益 民 

















Loic Domaigné (当时 供职 于 德国 空中 交通 管制 中 心 [German Air 
Traffic Control]) 是 一 名 系统 软件 工程 师 ， 主 要 从 事 分 布 式 、 多 并 
发 、 容 错 型 从 入 式 系 统 的 设计 和 开发 ， 此 类 系统 对 实时 性 有 着 严 奇 
的 要 求 。 他 针对 SUSv3 中 与 线程 规范 有 关 的 内 容 发 表 过 评论 和 建 





议 ， 在 多 个 网 上 技术 论坛 中 古道 热 肠 ， 诲 人 不 倦 ， 无 私 地 分 享 自 己 
的 编程 心得 。Loic 细 致 地 审 校 了 本 书 与 线程 相关 各 和 章节， 以 及 多 处 
其 他 内 容 。 除 了 编写 各 干 精巧 的 程序 来 验证 Linux 线 程 实现 的 细节 
以 外 ， 他 还 倾注 了 巨大 的 热情 并 辟 励 作者 ， 提 出 了 许多 建议 以 改进 
本 书 整体 的 表现 形式 。 

Gert Döring mgetty 和 sendfax 程 序 的 开发 者 ， 这 一 “双子 星座 ”也 是 
Linux/UNIX 系 统 上 使 用 最 为 广泛 的 开源 传真 软件 包 。 最 近 ， 他 主要 
忙于 搭建 并 维护 基于 IPv4 和 IPv6 的 大 型 网 络 ， 其 肩负 的 主要 任务 
Fe: 与 全 欧洲 的 同事 一 起 定义 有 效 的 网 络 策略 ， 以 确保 Internet 基 
础 设施 顺畅 运行 。Gert 审 校 了 本 书 与 终端 、 登 录 记 账 、 进 程 组 、 会 
话 以 及 任务 控制 相关 各 章节 ， 并 反馈 了 大 量 的 有 用 信息 。 
Wolfram Gloger 是 一 名 IT 顾问 ， 过 去 15 年 ， 他 参与 过 许多 自由 和 开 
源 软 件 项 目 (Free and Open Source Software, FOSS) 。 除 此 之 外 ， 
Wolfram 还 是 GNU C 语 言 库 中 malloc 软 件 包 的 实现 者 。 目 前 ， 他 主 
要 从 事 于 Web 服 务 的 开发 ， 尤 其 专注 于 网 上 教学 ， 当 然 ， 在 内 核 和 
系统 库 方面 ， 他 仍 会 偶 露 峥 嵘 。Wolfram 审 校 了 本 书 诸多 章节 ， 尤 
其 是 侧重 于 内 存 方面 的 内 容 。 

Fernando Gont 是 阿根廷 国家 科技 大 学 《Universidad Tecnológica 
Nacional, Argentina) 电子 信息 中 心 (Centro de Estudios de 
Informatica, CEDI) 成 员 。Internet 工 程 技 术 〈Internet engineering ) 
是 其 兴趣 所 在 ， 在 Internet 工 程 任务 组 〈IETF) 也 能 见 到 其 活跃 的 
吴 影 ， 他 还 是 多 个 RFC 文 档 的 作者 。 此 外 ，Fernando 还 为 英国 
CPNI《〈 国 家 基础 设施 保护 机 构 ) 中 心 效 力 ， 以 提供 对 通信 协议 安 
全 方面 的 评估 ， 而 首 个 完整 的 TCP 和 IP 协 议 安全 评估 报告 也 正 是 由 
他 提出 的 。Fernando 仔 细 审 校 了 本 书 涉及 网 络 编程 的 相关 音节， 不 
大 其 烦 地 向 作者 解释 了 TCP/IP 协 议 的 诸多 细节 ， 并 对 相关 内 容 提 出 
了 不 少 改进 意见 。 

Andreas Griinbacher (SUSE 实 验 室 ) 是 位 内 核 高 手 ， 还 是 Linux 扩 
展 属性 和 POSIX 访 问 控制 列表 的 实现 者 。Andreas 除了 仔细 审 校 了 
ABZ RAW, IVE AI, BIN, HEA ie he 
有 可 能 改变 这 部 书 的 整体 结构 。 

Christoph Hellwig 是 Linux 存 储 和 文件 系统 咨询 师 ， 也 是 内 核 方 面 
公认 的 行家 ， 参 与 过 Linux 内 核 中 多 个 部 分 的 开发 工作 。 在 忙于 编 
写 及 审查 Linux 内 核 补 本 代码 之 余 ，Christoph 抽 空 审 校 了 本 书 和 若干 
音节， 并 提出 了 诸多 有 益 的 改进 和 修正 意见 。 

Andreas Jaeger 曾 领导 过 Linux 向 x86-64 架 构 的 移植 开发 工作 。 身 为 
GNU C 语 言 库 的 开发 者 ， 他 不 但 将 该 库 移 植 到 了 x86-64 平台 ， 而 


























且 还 促成 该 库 符 合 多 个 领域 的 标准 ， 尤 其 是 在 数学 库 方面 。 他 当前 
效力 于 Novell 公 司 ， 是 openSUSE 的 程序 经 理 。Andreas 审 校 的 章节 
之 多 ， 超 乎 作者 预期 。 在 本 书 的 写作 过 程 中 ， 他 除了 提出 诸多 改进 
意见 之 外 ， 也 给 予 作者 热情 的 鼓励 。 

Rick Jones? "5 “Mr. Netperf” (HP 公司 联网 系统 的 性 能 偏执 狂 ) ， 

对 本 书 的 网 络 编程 相关 章节 提出 了 宝贵 意见 。 

Andi Kleen (当时 效力 于 SUSE 实 验 室 ) 长 期 以 来 ， 一 直 是 内 核 方 
面 公认 的 行家 里 手 ， 对 Linux 内 核 诸 多 不 同 领域 贡献 频 多 ， 包 括 : 
网 络 、 错 误 处 理 以 及 底层 架构 代码 等 方面 。Andi 对 网 络 编程 相关 内 
容 做 了 全 面 审 校 ， 使 作者 在 Linux TCP/IP 实 现 方面 大 开 了 眼界 ， 此 
外 ， 他 还 提供 了 许多 建议 ， 用 以 改善 本 书 主题 的 展现 形式 。 
Martin Landers (Google) 在 我 有 垃 与 他 共事 时 ， 他 还 是 一 名 学 
生 。 其 后 ， 他 在 短期 内 便 集 诸多 技能 于 一 和 映 ， 且 形象 百 变 一 一 软件 
架构 师 、 开 培训 师 以 及 职业 黑客 。 劳 Martin 大 芍 审 校本 书 ， 实 为 作 
者 之 笠 。 他 对 本 书 的 评论 和 更 正 往往 一 针 见 血 ， 对 多 章 内 容 质量 的 
BET SER I o 

Jamie Lokier 是 公认 的 内 核 高 手 ， 投 身 于 Linux 开 发 已 达 15 年 之 久 。 
如 今 ， 他 自封 为 “专家 ， 长 于 解决 潜伏 于 Linux 系 统 中 的 疑难 杂 
症 ”"。Jamie 极 其 全 面 地 审 校 了 本 书 涉及 内 存 映 射 、POSIX 共 享 内 存 
以 及 虚拟 内 存 操作 等 方面 的 章节 。 他 的 审 校 工作 不 但 纠正 了 作者 对 
相关 主题 细节 方面 的 许多 误解 ， 相 应 各 章 的 结构 也 得 以 大 为 改观 。 
Barry Margolin 在 其 25 年 职业 生涯 中 ， 从 事 过 系统 程序 员 、 系 统管 
理 员 以 及 技术 文 持 工程 师 。 当 前 ， 他 作为 一 名 系统 性 能 工程 师 ， 供 
职 于 Akamai 技 术 公 司 。 在 各 种 讨论 UNIX 和 TInternet 技 术 主 题 的 网 上 
论坛 中 ， 他 频频 现 身 ， 威 名 素 善 。 他 还 是 多 本 相关 技术 主题 书籍 的 
BOR ATLA - Barry 审 校 了 本 书 洛 干草 市 ， 并 提出 了 诸多 改进 意 
Kise 

Paul Pluzhnikov (Google) 之 前 曾 是 Insure++ 内 存 调试 工具 的 技术 
带头 人 和 主要 开发 者 。 有 时 ， 他 也 会 以 GDB 黑 客 的 身份 现 届 ， 在 网 
上 论坛 里 积极 地 回复 有 关 调 试 、 内 存 分 配 、 共 享 库 以 及 运行 时 环境 
方面 的 问题 。Paul 审 校 了 本 书 多 章 内 容 ， 提 出 了 许多 宝贵 意见 。 
John Reiser (与 Tom London) 实现 了 UNIX 向 32 位 架构 移植 的 早期 
版 本 之 一 VAX- 11/780。 他 还 是 mmapO 系 统 调用 的 编写 者 。John 审 
校 了 本 书 多 章 内 容 ， 自 然 也 包括 mmapO 所 在 的 章节 。 他 所 提供 的 大 
量 历史 洞 见 ， 及 其 对 技术 透彻 地 阐释 为 本 书 增色 不 少 。 

Anthony Robins【〈 新 西 兰 Otago 大 学 计算 机 科学 副教授 ) 笔者 30 年 
的 密友 ， 本 书 某 些 章节 的 第 一 个 读者 ， 也 是 最 早 提出 宝 贯 意见 的 技 





























术 审 校 者 ， 在 本 书 的 写作 过 程 中 ， 一 直 给 予 作者 以 激励 。 

Michael Schréder (Novell) GNU screen 程 序 的 主要 开发 者 之 一 ， 这 

项 编程 工作 已 令 Michael 在 终端 驱动 程序 的 实现 方面 达到 了 “巨细 靡 

遗 ， 了 如 指 党 ”的 境界 。Michael 除 了 审 校本 书 与 终端 和 伪 终 端 相关 

以 外 ， 还 针对 进程 组 、 会 话 以 及 任务 控制 等 音节 反馈 了 极为 
益 的 意见 。 

Manfred Spraul 曾 从 事 过 Linux 内 核 中 (包括 但 不 限于 〉 IPC 的 开发 

e. 不 音 审 校 了 本 书 与 IPC 相 关 的 奋 干 章节 ， 并 提出 了 许多 改进 

意见 o 

Tom Swigg， 作 者 在 DEC 从 事 培 训 工作 时 曾 与 他 共事 ， 作 为 本 书 最 

早 的 技术 审 校 者 之 一 ， 他 对 许多 章节 都 反馈 了 极其 重要 的 意见 。 

Tom 从 事 软 件 工程 师 和 IT 增 训 师 的 工作 已 逾 25 年 ， 目 前 就 职 于 伦敦 

南岸 大 学 (London South Bank University) ， 在 Vmware 环 境 下 从 事 

Linux 编 程 和 技术 支持 工作 。 

e Jens Thoms Tirring 继 承 了 物理 学 家 改 学 编程 的 优良 传统 ， 大 批 开 
源 的 设备 驱动 程序 和 其 他 软件 都 出 自 他 手 。Jens 审 校 的 章节 之 多 ， 
在 技术 方面 跨度 之 大 ， 痢 实 令 人 睹 目 ， 他 对 各 章 内 容 的 改进 都 提出 
了 独特 而 又 弥 足 珍贵 的 见解 。 


还 有 许多 其 他 技术 审 稿 人 也 审 校 了 本 书 的 不 同 内 容 ， 并 提出 了 诸多 
宝贵 意见 。 在 此 ， 作 者 癌 以 下 一 干 搁 术 审 稳 人 表示 感谢 (以 姓氏 字母 顺 
序 排列 ) : George Anzinger (MontaVista Software) 、Stefan Becher, 
Krzysztof Benedyczak、 Daniel Brahneborg、Andries Brouwer, Annabel 
Church. Dragan Cvetkovic, Floyd L. Davidson, Stuart 
Davidson (Hewlett-Packard Consulting) ~ Kasper Dupont, Peter 
Fellinger (jambit GmbH) . Mel Gorman (IBM) . Niels Géllesch, 
Claus Gratzl、 Serge Hallyn (IBM) . Markus Hartinger (jambit 
GmbH) . Richard Henderson (Red Hat) ~ Andrew Josey (The Open 
Group) ~ Dan Kegel (Google) ~ Davide Libenzi, Robert 
Love (Google) . H.J. Lu (Intel Corporation) ~ Paul Marshall. Chris 
Mason, Michael Matz (SUSE) . Trond Myklebust, James Peach, Mark 
Phillips (Automated Test Systems) , Nick Piggin (Novell SUSE 实 验 
=) . Kay Johannes Potthoff. Florian Rampp. Stephen Rothwell (IBM 
Linux 技 术 中 心 ) . Markus Schwaiger. Stephen Tweedie (Red Hat) 、 
Britta Vargas. Chris Wright. Michal Wronski 以 及 Umberto Zamuner. 


除了 技术 审 稿 人 之 外 ， 作 者 还 得 到 了 各 界 人 士 及 组 织 在 其 他 方面 的 














帮助 。 


我 要 感谢 以 下 人 等 为 我 解答 技术 难题 ， 他 们 是 : Jan Kara、Dave 
Kleikamp 和 和 Jon Snader。 我 要 感谢 Claus Gratz1 和 Paul Marshall 在 系统 管理 
方面 对 我 的 帮助 。 


我 要 感谢 Linux 基 金 会 (LF) 。2008 年 间 ，LE 资 助 我 作为 一 名 全 职 
研究 人 员 参 与 man-pages 项 目 ， 并 从 事 Linux 编 程 接口 的 测试 和 设计 评审 
工作 。 虽 然 LF 全 职 研究 员 的 身份 不 能 为 本 书 的 写作 提供 直接 的 资金 支 
持 ， 但 却 使 作者 得 以 养家 糊口 ， 这 一 助力 本 意 在 于 令 我 全 身心 投入 对 
Linux 编 程 接口 的 测试 以 及 对 文档 的 编纂 工作 ， 却 也 惠及 作者 的 “ 私 
活 ?”。 抛 开 公 事 不 谈 ， 我 要 感谢 Jim Zemlin 我 在 LF 的 “接口 ?人 ， 还 要 
感谢 LF 技术 咨询 委员 会 的 一 干 专家 ， 感 谢 他 们 对 我 的 聘任 。 











感谢 Alejandro Forero Cuervo 对 本 书 书 名 的 建议 ! 


25 年 前 ， 在 我 为 第 一 个 学 位 拼搏 之 时 ，Robert Biddle 激 起 了 我 对 
UNIX、C 以 及 Ratfor 的 兴趣 ， 谢 谢 你 ， 老 兄 。 虽 然 以 下 诸 君 与 本 书 并 无 
直接 干系 ， 但 当 我 在 新 西 兰 坎特伯雷 大 学 攻读 第 二 学 位 时 ， 他 们 就 或 励 
我 在 写作 道路 上 坚持 下 去 ， 在 此 ， 我 要 问 他 们 表示 感谢 ， 他 们 是 
Michael Howard, Jonathan Mane-Wheoki, Ken Strongman. Garth 
Fletcher, Jim Pollard, -\ Brian Haig. 


HH Richard Stevens 所 著 的 几 部 关于 UNIX 编 程 和 和 TCP/IP 方 面 的 杰作 ， 
数 年 来 一 直 被 我 韭 程 序 员 奉 为 直 挟 ， 只 可 惜 先贤 已 过 。 几 是 读 过 上 述 书 
籍 的 读者 势必 会 注意 到 ， 本 书 与 Richard Stevens 的 那儿 本 巨著 看 起 来 有 
些 相 似 。 这 并 非 侦 然 。 在 构思 本 书 时 ， 作 者 曾 从 较为 宏观 的 角度 就 书籍 
设计 反复 其 酌 ， 可 最 终 发 现 Richard Stevens 所 采用 的 方法 才 是 正解 ， 正 
因 如 此 ， 本 书 采 用 了 与 其 相同 的 展示 方式 。 


感谢 下 列 人 士 和 组 织 为 我 提供 UNIX 系 统 ， 使 我 得 以 运行 测试 程 
序 ， 并 验证 其 他 UNIX 实 现 的 细节 ， 感 谢 Anthony Robins 和 Cathy Chandra 
在 新 西 兰 Otago 大 学 所 提供 的 多 种 UNIX 测 试 系统 ， 感 谢 Martin Landers, 
Ralf Ebner 和 Klaus Tilk 在 德国 幕 尼 黑 技术 大 学 (Technische Universität) 
所 提供 的 多 种 UNIX 测 试 系统 ， 感 谢 HP 公 司 在 Internet 上 免费 开放 他 们 的 
testdrive 系 统 ， 感 谢 Paul de Weerd 使 我 得 以 访问 OpenBSD 系 统 。 


要 衷心 感谢 两 家 和 芭 尼 黑 公 司 及 其 老板 ， 这 两 家 公司 除了 为 我 提供 了 
工作 机 会 还 是 弹性 工作 制 》 和 热情 的 同事 ， 还 格外 开 恩 ， 人 允许 我 在 写 
作 本 书 时 使 用 他 们 的 办 公 室 。 感 谢 exolution 有 限 公 司 的 Thomas Kahabka 
和 Thomas Gmelch， 特 别 要 感谢 jambit 有 限 公 司 的 Peter Fellinger 和 
Markus Hartinger。 


感谢 下 列 人 士 对 我 提供 的 各 种 帮助 ， 他 们 是 Dan Randow、Karen 
Korrel, Claudio Scalmazzi, Michael Schiipbach 和 Liz Wright. /&&ifRob 
Suisted 和 Lynley Cook 为 封面 和 封底 所 提供 的 照片 。 


感谢 下 列 人 士 以 不 同方 式 给 作者 以 鼓励 和 支持 ， 他 们 是 Deborah 
Church、 Doris Church 和 Annie Currie。 

















感谢 No Starch 出 版 社 大 队 人 马 为 这 一 庞大 创作 项 目 所 提供 的 各 种 大 
助 。Bill Pollock 从 项 目 之 初 承 一 直 秉 持 直 言 不 讳 的 风格 ， 始 终 对 本 书 的 
完成 充满 信心 ， 并 耐心 地 关注 着 项 目的 进展 ， 我 要 对 他 表示 感谢 。 感 谢 
本 书 最 初 的 责任 编辑 Megan Dunchak。 感 谢 本 书 的 文字 编辑 Marilyn 
Smith， 无 论 我 如 何 璋 精 竭 虑 以 求 文字 的 清晰 与 一 致 ， 此 君 总 能 从 鸡蛋 
里 挑 出 骨头 。 本 书 的 版 面 和 设计 由 Riley Hoffman 全 面 负 责 ， 在 “上 了 同 
一 条 船 ” 后 又 挑 起 了 制作 编辑 的 重担 。Riley 总 是 不 厌 其 烦 地 满足 我 的 请 
求 ， 以 求 本 书 的 排版 无 误 一 一 最 终结 果 堪 称 完 美 。 谢 谢 你 。 


现在 ， 我 才 体味 出 下 面 这 句 老 话 的 真正 含义 : 一 人 写作 ， 全 家 受 
累 。 感 谢 Britta 和 Cecilia 对 我 的 支持 ， 感 谢 你 们 能 容忍 我 因 写 作 本 书 而 长 
时 间 地 不 着 家 。 














许可 


承蒙 IEEE (美国 电气 电子 工程 师 学 会 ) 和 The Open Group fù, AS 
书 得 以 引用 IEEE Std 1003.1，2004 版 以 及 The Open Group 基础 规范 第 6 号 
(Issue 6) 中 POSIX《〈 可 移植 性 操作 系统 接口 ) 言 思 技术 标准 的 部 
文字 。 可 通过 http:/www.unix.org/version3/online.html 在 线 查 阅 规范 的 


整 版 本 。 
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TD 


Web 站 点 和 程序 示例 的 源码 


读者 可 在 http://man7.org/tlpi 上 找到 更 多 有 关 本 书 的 信息 ， 包 括 本 书 
的 勘误 表 和 程序 示例 源码 。 





肥 馈 


欢迎 读者 提供 BUG 报 告 、 对 代码 的 改进 建议 ， 以 及 为 进一步 提高 代 
人 码 可 移植 性 而 提出 的 修订 意见 。 同 样 欢迎 读者 提供 针对 本 书 内 容 的 缺陷 
报告 和 改进 叙述 方式 的 一 般 性 建议 。 当 前 的 勘误 列表 可 参见 
http://man7.org/tlpi/errata/。 由 于 Linux 编 程 接口 变化 无 常 、 有 日 变更 有 了 时 极 
为 频繁 ， 仅 赁 作者 一 己 之 力 很 难 “ 与 时 俱 进 ”， 因 此 读者 就 全 新 或 已 变更 
的 Linux 编 程 接口 特性 所 提供 的 反馈 信息 ， 作 者 也 将 乐于 收 到 ， 并 会 纳 
ARPR BAP 
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OFRE: 大 致 可 视 为 一 套 标准 的 两 种 称谓 。 


le ”历史 和 标准 


Linux 是 UNIX 操 作 系 统 家 族 中 的 一 员 。 就 计算 机 的 发 展 而 言 ， 
UNIX 历 史 悠 入 。 本 章 的 第 一 部 分 会 简要 介绍 UNIX 的 历史 一 一 以 对 
UNIX 系 统 和 C 编 程 语言 起 源 的 回顾 拉 开 序幕 ， 接 着 会 述 及 成 就 今日 
Linux 系 统 的 两 大 关键 因素 : GNU 项 目 和 Linux 内 核 的 开发 。 


_UNIX 系 统 最 引信 六 注 的 特征 之 一 ， 征 其 开发 不 受 控 于 茶 一 厂商 或 
昌 织 。 相 反 ， 许 多 团体 一 一 既 有 商业 团体 ， 也 有 非 商业 团体 一 一 都 曾 为 
UNIX 的 油 进 做 卓 过 贡献 
喘 ， 但 同时 也 带 来 了 负面 影 吃 寺 间 的 推移 ，UNIX 的 实现 渐 趋 
分 裂 。 因 此 ， 要 编写 出 和 多 运行 于 所 有 UNIX 实 现 之 上 的 应 用 程序 您 发 
困难 - 这 又 导致 了 人 们 对 UNIX 实 现 的 标准 化 呼声 越 来 越 高 ， 本 章 的 第 


二 部 分 将 讨论 这 一 问题 。 











对 UNIX 的 定义 通常 有 两 种 。 其 一 是 指 通过 SUS 所 规范 
的 官方 一 致 性 测试 ， 且 由 OPEN GROUP (UNIX 商 标的 持 
有 者 ) 正式 授权 冠 以 *UNIX” 的 操作 系统 。 在 写作 本 书 之 
际 ， 尚 无 开源 的 UNIX 实 现 〈 比 如 ，Linux 和 FreeBSD ) 获得 
ST “UNIX” 76. % © 





在 第 二 种 定义 中 ，UNIX 是 指 那 种 运作 方式 类 似 于 经 典 
UNIX 系 统 ( 比 如 ， 最 初 的 Bell 实 验 室 UNIX 系 统 ， 及 其 后 来 
的 主要 分 支 System V 和 BSD) 的 操作 系统 。 根 据 这 一 定 
义 ， 一 般 将 Linux 视 为 UNIX 系 统 〈 如 同 现代 BSD 系 统一 
样 ) 。 尽 管 本 书 会 密切 关注 SUS， 但 也 会 遵循 对 UNIX 的 第 
二 种 定义 ， 因 此 诸如 “Linux， 像 其 他 UNIX 实 现 一 
样 ..…...” 这 样 的 说 法 ， 会 在 书 中 频繁 出 现 。 


1.1 UNIX 和 C 语 言 简 史 


1969 年 ， 在 AT&T 电 话 公 司 下 辖 的 ball 实验 室 中 ，Ken Thompson 开 
发 出 了 首 个 UNIX 实 现 。 该 实现 是 使 用 Digital PDP-7 小 型 机 的 汇编 语言 开 
发 而 成 的 。 其 名 称 UNIX 是 “MULTICS (多 信息 及 计算 服务 ， 
Multiplexed Information and Computing Service) ”一 词 的 双关 语 ， 而 
MULTICS 之 名 则 出 自 一 个 早期 的 操作 系统 开发 项 目 ， 该 项 目 由 AT&T、 
MIT (RG EET hE) 以 及 通用 电器 公司 联合 开发 。 (因为 未 能 开发 出 
一 蒜 经 济 实用 的 操作 系统 ， 访 项 目 首 战 失 利 。 泪 形 之 余 ，AT&T 随 即 退 
出 这 一 项 目 中 。) Thompson 设 计 新 操作 系统 的 某 些 灵 感 正 源 于 
MULTICS， 其 中 包括 : 树 形 结构 的 文件 系统 、 设 立 单独 的 程序 用 于 解 
释 命令 (shell) ， 以 及 将 文件 作为 无 结构 字 节 流 看 待 的 概念 。 


1970 年 ，AT&T 的 工程 师 们 又 在 刚 购 进 的 Digital PDP-11 小 型 机 上 ， 
以 汇编 语言 重 写 了 UNIX， 当 时 ，Digital PDP-11 算 得 上 是 最 新 颖 、 功 能 
也 最 为 强劲 的 计算 机 了 。 从 大 多 数 UNIX 实 现 (包括 Linux) 沿用 至 今 的 
各 种 名 称 上 ， 仍 能 发 现 这 一 PDP-11 实 现 所 残留 的 历史 遗迹 。 


未 过 多 久 ，Dennis Ritchie (Thompson 在 bell 实 验 室 的 同事 ，UNIX 
开发 的 早期 合作 者 ) 设计 并 实现 出 了 C 编 程 语言 。 这 里 有 一 个 演变 过 
fe: C 语 言传 承 白 早期 的 解释 型 语言 一 一 B 语 言 ，B 语 言 最 初 由 
Thompson 实 现 ， 但 其 所 包含 的 许多 理念 却 来 自 于 更 早期 的 编程 语言 
BCPL。 到 了 1973 年 ，C 语 言 步 入 了 成 熟 期 ， 人 们 能 够 使 用 这 一 新 语 
言 重 写 几 乎 整个 UNIX 内 核 。UNIX 因 此 也 一 变 而 为 最 早 以 高 级 语言 开发 
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从 C 语 言 的 起 源 不 难看 出 为 什么 C 语 言及 其 “后 裔 ”C++ 是 当今 使 用 最 
为 广泛 的 系统 编程 语言 。 早 期 流行 的 编程 语言 其 设计 初衷 并 不 在 于 此 ， 
例如 : FORTRAN 语 言 意 在 帮助 工程 师 和 科研 工作 者 们 进行 数学 计算 ， 
COBOL 语 言 则 是 在 商业 系统 中 用 来 处 理 面 向 记录 的 数据 流 。C 语 言 的 出 
现 ， 填 补 了 当时 系统 编程 方面 的 语言 空白 。 与 FORTRAN 和 COBOL 不 同 
(这 两 种 编程 语言 均 由 大 型 组 织 设计 开发 ) ，C 语 言 的 设计 理念 和 设计 
需求 出 自 于 几 位 程序 员 的 构思 ， 他 们 的 目标 很 单纯 : 为 实现 UNIX 内 核 
及 其 相关 软件 而 开发 一 种 高 层 语言 。 像 UNIX 操 作 系 统 本 身 一 样 ，C 语 言 
由 专业 程序 员 设 计 而 为 己 用 。 其 最 终结 果 堪 称 完美 : C 语 言 的 设计 前 后 











连贯 ， 且 文 持 模 块 化 设计 ， 成 为 短小 精干 、 高 效 实 用 、 功 能 强大 的 编程 


语言 。 


UNIX 的 第 一 版 到 第 六 版 


1969 一 1979 年 间 ，UNIX 历 经 了 多 次 发 布 ， 也 称 为 版 本 
(edition) 。 实 质 上 ， 这 些 发 布 是 AT&T 对 UNIX 进 行 演 进 开 发 时 的 一 系 
列 版 本 快照 。[Salus，1994] 记 录 了 UNIX 前 六 版 的 发 布 日 期 如 下 。 


1971 年 11 月 发 布 的 第 一 版 : 当时 ，UNIX 还 运行 在 PDP-11 上 ， 但 已 
附带 了 FORTRAN 编 译 占 ， 许 多 被 沿用 至 今 的 程序 都 已 有 了 雏形 ， 
这 包括 : ar. cat. chmod, chown, cp. dc. ed, find, In, Is, 
mail. mkdir, mv, rm, sh, sull who. 

1972 年 6 月 发 布 的 第 三 版 :当时 ，AT&T 内 有 10 台 计算 机 安装 了 
UNIX 

1973 年 ?月 发 布 的 第 三 版 : 该 版 本 包括 了 C 编 译 器 ， 以 及 管道 的 首 个 
实现 

1973 年 11 月 发 布 的 第 四 版 : 这 也 是 几乎 完全 以 C 语 言 重 写 的 首 个 
UNIX 版 本 。 

1974 年 6 月 发 布 的 第 五 版 : 当时 ，UNIX 的 装机 数 已 经 超过 了 50 台 。 
的 第 六 版 : 这 也 是 在 AT&T 之 外 广泛 使 用 的 首 个 
UNIX 


在 此 期 间 ，UNIX 使 用 范围 从 AT&T 晶 内 而 外 逐步 扩展 ， 声 名 也 随 
之 远 播 。 读 者 其 众 的 《ACM 通 信 》 和 杂志 刊载 了 一 篇 关于 UNIX 的 论文 
({Ritchie & Thompson, 1974]) ， 这 对 UNIX 知 名 度 的 提升 功 英 大 站。 


当时 ， 在 美国 政府 的 授权 下 ，AT&T 垄 断 着 全 美 电 信和 市 场 。AT&T 
与 美国 政府 达成 的 协议 条 丈 茶 止 AT&T 涉 中 软 ij 这 意 
着 ，AT&T 不 能 将 UNIX 作 为 产品 销售 。 相 反 ， 从 1974 年 的 UNIX 第 五 版 
开始 ，AT&T 准 许 高 校 在 支付 象征 性 的 发 布 费 用 后 使 用 UNIX 系 统一 一 
这 一 现象 尤 以 第 六 版 为 烈 。UNIX 系 统 的 高 校 发 布 版 包括 了 相关 文档 及 
内 核 源 码 ( 当时， 内 核 源 码 约 为 10 000 行 左右 ) 。 


AT&T 对 高 校 发布 的 UNIX 极 大 促进 了 这 一 操作 系统 的 普及 和 使 
用 。 时 至 1977 年 ，UNIX 已 经 在 约 500 个 站 点 中 运行 ， 其 中 包括 了 全 美 
及 其 他 国家 的 125 所 大 学 。 当 时 的 商业 操作 系统 非常 昂贵 ，UNIX 则 为 
高 校 提供 了 一 种 交互 式 多 用 户 操作 系统 ， 可 谓 物美 价 廉 。 此 外 ， 各 校 的 




















计算 机 系 还 籍 此 获得 了 “ 鲜 活 ” 的 操作 系统 源码 ， 可 以 对 源码 进行 修改 ， 
还 可 供 学 生 们 学 习 、 实 验 之 用 。 一 些 以 UNIX 知 识 为 武装 的 学 生 后 来 成 
为 UNIX“ 传 教士 *。 另 外 一 些 学 生 则 组 建 或 加 盟 了 大 量 新 兴 公司 ， 其 业 
务 主要 是 销售 廉价 的 计算 机 工作 站 ， 而 运行 于 其 上 的 正 是 易于 移植 的 
UNIX 操 作 系 统 。 


BSD 和 SystemvV 的 诞生 


发 布 于 1979 年 1 月 的 UNIX 第 七 厂 改 善 了 系统 的 可 靠 性 ， 配 备 了 增强 
型 的 文件 系统 。 该 版 本 还 附带 了 不 少 新 的 工具 软件 ， 其 中 包括 : awk, 
make、sed、tar、uucp、Bourne shell 以 及 FORTRAN 77 编 译 器 。 第 七 版 
UNIX 发 布 的 重要 意义 还 在 于 ， 从 该 版 本 起 ，UNIX 分 裂 为 了 两 大 分 文 : 
BSD 和 System V。 接 下 来 会 简要 描述 二 者 的 由 来 。 


受 母校 加 州 大 学 伯克利 分 校 之 邀 ，Thompson 于 1975/1976 学 年 曾 担 
任 该 校 的 客座 教授 。 在 此 期 间 ， 他 与 研究 生 们 一 起 为 UNIX 开 发 了 许多 
新 特性 。 (他 的 学 生 之 一 ，Bil Joy， 后 来 与 人 共同 组 建 了 SUN 微 系统 公 
司 一 一 一 家 最 早 涉足 UNIX 工 作 站 市 场 的 公司 。) 光 阴 蕉 萌 ， 许 多 UNIX 
的 新 工具 和 新 特性 又 陆续 在 伯克利 分 校 问 世 ， 这 包括 : C shell、vi 编 辑 
器 、 一 种 改进 型 的 文件 系统 《〈“ 伯 克利 快速 文件 系统 ) 、sendmail、Pascal 
语言 编译 器 ， 以 及 用 于 新 型 Digital YAX 架 构 的 虚拟 内 存 管理 机 制 。 


这 一 命名 为 BSD〔 伯 克利 软件 发 布 ，Berkeley Software 
Distribution〉 的 UNIX 版 本 (包括 源码 在 内 ) oP Ach”. 19794F 124 , 
诞生 了 首 个 完整 的 UNIX 发 布 版 3BSD。 (之 前 发 布 的 Berkeley-BSD 和 
2BSD 并 非 完 整 的 UNIX 发 布 版 ， 仅 含 由 伯克利 分 校 开 发 的 新 工具 。 ) 


1983 年 ， 加 州 大 学 伯克利 分 校 的 计算 机 系统 研究 组 (Computer 
Systems Research Group) 发 布 了 4.2BSD。 该 版 本 的 发 布 意义 深远 ， 因 
为 其 包含 了 完整 的 TCP/IP 实 现 ， 其 中 包括 套 接 字 应 用 编程 接口 CAPI 
以 及 各 种 网 络 工 具 。4.2BSD 及 其 前 身 4.1BSD 在 世界 上 多 所 大 学 开始 广 
为 流传 。 以 这 两 者 为 基础 ， 还 形成 了 SunOS 操 作 系统 《〈 首 发 于 1983 年 ) 
这 一 由 SUN 公 司 销售 的 UNIX 变 种 。 其 他 重要 的 BSD 版 本 还 有 发 布 
于 1986 年 的 4.3BSD， 以 及 发 布 于 1993 年 的 最 终 版 本 4.4BSD。 

















首 批 UNIX 回 非 PDP-11 硬 件 机 型 的 移植 发 和 后 在 1977 年 和 
1978 年 ， 当 时 ，Dennis Ritchie 和 Steve Johnson 将 UNIX 移 植 
到 了 Interdata 8/32 上 ， 与 此 同时 ， 澳 大 利 亚 wWollongong 大 学 
的 Richard Miller 也 将 其 移植 到 了 Interdata 7/32 上 。 伯 克利 分 
校 针 对 Digital Vax 架 构 的 移植 一 一 也 称 为 32V， 则 基于 John 
Reiser 和 Tom Lodon 较 早 前 〈1978 年 ) 的 工作 成 果 。 该 移植 
本 质 上 与 PDP-11 上 的 UNIX 第 七 版 相同 ， 只 是 支持 的 地 址 空 
间 更 大 、 数 据 类 型 更 宽 轻 了 。 


与 此 同时 ， 美 国 的 反 托 拉 斯 法 案 强制 对 AT&T 进行 拆 分 (于 20 世 
纪 70 年 代 中 期 开始 立案 ， 到 1982 年 AT&T 正 式 解体 ) 。 随 着 其 在 电话 系 
统 市 场 人 垄断 地 位 的 形 失 ，AT&T 也 因而 获准 销售 UNIX。 这 也 众生 了 
1981 年 System III (3) 的 发 布 。System II 由 AT&T 所 属 的 UNIX 支 撑 团 队 
(UNIX Support Group, USG) 研发， 该 团队 雇佣 了 数 以 百 计 的 研发 人 
员 来 从 事 UNIX 系 统 的 增强 以 及 应 用 开发 (尤其 针对 文档 预备 软件 包 和 
软件 开发 工具 ) 。1983 年 ，System V 的 首 个 发 布 版 又 接 中 而 至 ， 在 经 过 
一 系列 发 布 后 ，USG 最 终于 1989 年 推出 了 System V Release 
4 (SVR4) ， 此 时 的 System V 纳 入 了 BSD 的 诸多 特性 ， 包 含 联网 能 力 。 
AT&T 将 System V 授 权 给 不 同 三 商 ， 这 些 厂商 又 将 其 作为 自身 UNIX 实 现 
的 基础 。 


因此 ， 除 了 遍布 于 学 术 界 的 各 种 BSD 发 布 版 外 ， 到 20 志 纪 80 年 代 
未 ， 商 业 性 质 的 UNIX 实 现在 各 种 硬件 架构 上 都 有 了 广泛 应 用 。 这 包 
括 : SUN 公 司 的 SunOS， 以 及 后 来 的 Solaris; Digital 公 司 的 Ultrix 和 
OSF/1 (在 历经 一 系列 更 名 和 收购 后 ， 现 称 为 HP Tru64 UNIX) ; IBM 
公司 的 AIX; HP 公司 的 HP-UX; NeXT 公 司 的 NeXTStep; 在 Apple 
Macintosh 机 上 的 A/UX; 以 及 Microsoft 和 和 SCO 公司 联合 为 Intel x86-32 28 
构 开 发 的 XENIX。 (贯穿 本 书 ， 我 们 将 x86-32 架 构 上 的 Linux 实 现 称 为 
Linux/x86-32. ) 这 一 局 面 与 当时 典型 的 专 有 硬件 搭配 专 有 操作 系统 的 
模式 形成 了 鲜明 对 照 ， 那 时 ， 每 个 厂商 只 生产 一 种 或 至 多 几 种 专 有 的 计 
算 机 芯片 架构 ， 然 后 再 销售 运行 于 该 硬件 架构 之 上 的 专 有 操作 系统 。 大 














多 数 广 商 系统 的 这 种 专 有 性 ， 意 味 着 消费 者 只 能 在 一 棵 树 上 “ 吊 死 ”。 转 
换 到 另 一 专 有 操作 系统 和 硬件 平台 ， 其 代价 十 分 高 昂 ， 不 但 需要 移植 现 
有 应 用 ， 还 需要 对 操作 人 员 进 行 重新 培训 。 从 商业 角度 来 看 ， 考 虑 到 上 
述 因 素 ， 加 之 各 厂商 纷纷 推出 了 廉价 的 单 用 户 UNIX 工 作 站 ， 有 具备 可 移 
植 性 的 UNIX 系 统 魅 力 逐 渐 开 始 “ 凸 显 ”。 











1.2 Linux 简 史 


术语 Linux 通 常用 来 指 代 完 整 的 类 UNIX CUNIX-like) 操作 系统 ， 
Linux 内 核 只 是 其 中 的 一 部 分 。 这 么 定义 多 少 有 些 措辞 不 当 ， 因 为 一 般 
商业 Linux 发 布 版 中 所 含 的 诸多 关键 组 件 实际 上 发 源 于 另 一 项 目 ， 早 在 
Linux 问 世 前 几 年 就 已 经 启动 了 。 





1.2.1 ”GNU 项目 


1984 年 ，Richard Stallman 之 前 一 直 供 职 于 MIT 的 一 位 天 赋 异 豪 的 程 
序 员 ， 开 始 着 手 创 建 一 个 “自由 的 《〈free) >UNIX 实 现 。Stallman 的 观点 
属于 道德 层面 ， 而 对 *free" 一 词 的 定义 则 属于 法 律 范畴 而 非 经 济 范 畴 
(iS JLhttp://www.gnu.org/philosophy/free-sw.html) 。 然 而 ，Stallman 
所 描述 的 这 一 法 律 意义 上 的 “自由 (freedom) ” 却 蕴 含 着 言 外 之 意 : 应 
可 免费 或 以 低 价 获得 诸如 操作 系统 之 类 的 软件 。 


对 于 那些 在 专 有 操作 系统 上 强加 限制 条 球 的 计算 机 厂商 来 说 ， 
Stallman 的 这 一 举动 无 疑 妨 害 了 他 们 。 所 谓 的 限制 条 亚 是 指 : 在 一 般 情 
况 下 ， 计 算 机 软件 的 消费 者 不 但 无 权 阅 读 目 己 所 购 软件 的 源码 ， 而 且 还 
不 能 复制 、 更 改 及 重新 发 行 所 购 软件 。Stallman 指 出 ， 在 这 种 体制 之 
下 ， 只 会 造成 程序 员 之 间 勾 心 斗 角 、 沿 晕 上 自 珍 的 局 面 ， 无 法 实现 工作 协 
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与 之 针锋相对 ， 为 开发 出 一 套 完整 而 又 可 自由 获取 ， 包 含 内 核 以 及 
所 有 相关 软件 包 的 类 UNIX 系 统 ，Stallman 发 起 了 GNU 项 目 (“GNU’s not 
UNIX” 的 递归 缩写 形式 ) ， 并 积极 邀请 有 志 之 士 加 盟 。1985 年 ， 
Stallman 创 六 了 非 人 盘 利 机 构 一 一 自由 软件 基金 会 FSF) ， 以 文 持 GNU 
项 目 和 广义 意义 上 的 自由 软件 开发 。 

















GNU 项 目 启动 之 时 ，BSD 还 不 具备 Stallman 所 指 的 那 
种 “free” 属 性 。 使 用 BSD 不 但 仍 需 获得 AT&T 的 许可 ， 而 且 
用 户 不 得 随意 修改 并 重新 发 布 BSD 中 AT&T 拥 有 产权 的 代码 


部 分 。 











GNU 项 目的 重要 成 果 之 一 是 制定 了 GNU GPL (通用 公共 许可 协 
W) ， 这 也 是 Stallman 倡 导 的 自由 (free〉 软 件 概 念 在 法 律 上 的 体现 。 
Linux 发 布 版 中 的 大 多 数 软件 ， 包 括 Linux 内 核 ， 都 是 以 GPL 或 与 之 类 似 
的 许可 协议 发 布 的 。 以 GPL 许 可 协议 发 布 的 软件 不 但 必须 开放 源码 ， 而 
且 应 能 在 GPL 条 天 的 约束 下 自由 对 其 进行 重新 发 布 。 可 以 不 受 限 制 的 修 
改 以 GPL 许可 协议 发 布 的 软件 ， 但 任何 经 修改 后 发 布 的 软件 仍 需 遵守 
GPL 条 球 。 奉 经 过 修改 的 软件 以 二 进 制 ( 可 执行 形式 发 布 ， 那 么 软件 
的 修改 者 必需 满足 软件 使 用 者 的 以 下 要 求 : 以 不 高 于 发 行 成 本 的 价格 ， 
获得 修改 后 的 软件 源码 。GPL 的 第 一 版 发 布 于 1989 年 。 当 前 的 许可 协议 
版 本 为 2007 年 发 布 的 第 三 版 。 此 许可 协议 的 第 二 版 于 1991 年 发 布 ， 至 今 
仍 在 广泛 使 用 ，Linux 内 核 就 是 以 该 版 许可 协议 发 布 的 。( 对 各 种 目 由 
软件 许可 协议 的 讨论 可 见 诸 于 [St. Laurent, 2004] 和 [Rosen, 2005]。) 


最 初 ，GNU 项 目 未 能 开发 出 能 够 有 效 运 作 的 UNIX 内 核 ， 但 却 开发 
了 大 量 其 他 程序 。 由 于 这 些 程序 全 都 针对 类 UNIX 系 统 而 设计 ， 因 此 
(理论 上 ) 均 有 可 能 在 现 有 的 UNIX 实 现 上 运行 (实际 情况 也 的 确 如 
此 ) ， 更 有 其 者 ， 有 时 还 被 移植 到 了 其 他 操作 系统 上 。Emacs 文 本 编辑 
器 、GCC (原名 为 GNU C 编 译 器 ， 现 更 名 为 GNU 编 译 器 集合 ， 集 C、 
C++， 以 及 其 他 编程 语言 的 编译 器 于 一 身 ) 、bash shell 以 及 glibc (GNU 
CERJE) 便 是 GNU 项 目 结 出 的 硕果 。 








到 了 20 世 纪 90 年 代 早期 ，GNU 项 目 己 经 开发 出 了 一 套 几乎 完整 的 操 
作 系 统 ， 除 了 还 缺少 其 中 最 重要 的 一 环 : 能 够 有 效 运转 的 UNIX 内 核 。 
于 是 ，GNU 项 目 以 Mach 微 内 核 为 基础 ， 发 起 了 一 项 雄心 勃勃 的 内 核 设 
计 计 划 ， 史 称 GNU/HURD 计 划 。 然 而 ， 时 至 今日 ，HURD 的 发 布 还 遥遥 
无 期 〈 写 作 本 书 之 际 ，HURD 的 研发 尚 在 进行 中 ， 该 内 核 目前 只 能 运行 
村 x86-32 架 构 之 上 ) 。 








在 构成 通常 所 说 的 “Linux 系 统 ” 的 程序 代码 中 ， 由 于 有 
相当 一 部 分 都 源 自 GNU 项 目 ， 因 此 Stallman 更 愿意 
用 “GNU/Linux” 一 词 来 称呼 整个 系统 。 这 一 称谓 问题 


(Linux Vs. GNU/Linux) ) 也 在 自由 软件 社区 中 引发 了 一 
些 口舌 之 争 。 因 为 本 书 主要 关注 Linux 内 核 的 API， 故 而 通 


常会 采用 术语 “Linux”。 


万 事 具 备 ， 独 缺 内 核 。 只 要 再 拥有 一 个 能 够 有 效 运作 的 内 核 ， 就 能 
使 GNU 项 目 开 发 出 的 UNIX 系 统 “ 功 德 圆满 ”。 


1.2.2 ”Linux 内 核 


1991 年 ，Linus Torvalds， 一 位 芬兰 赫尔辛基 大 学 的 学 生 ， 在 外 界 的 
激励 下 为 自己 的 Intel 80386 PC 开发 了 一 个 操作 系统 。 在 一 门 学 习 课 程 
中 ，Torvalds 开 始 接 触 Minix 由 荷兰 大 学 教授 Andrew Tanenbaum 于 20 
世纪 80 年 代 中 期 开发 的 一 款 小 型 、 类 UNIX 的 操作 系统 内 核 。 
Tanenbaum 将 Minix 连 同 源码 完全 开放 ， 作 为 大 学 操作 系统 设计 课程 的 教 
学 工具 。 人 们 可 以 在 386 系 统 上 构建 并 运行 Minix 内 核 。 当 然 ， 正 因为 其 
主要 用 于 教学 ，Minix 在 设计 上 几乎 独立 于 硬件 架构 ， 故 而 也 未 对 386 处 
理 右 的 能 力 充 分 加 以 利用 。 


因此 ， 为 了 开发 出 一 个 高 效 而 又 功能 齐备 的 UNIX 内 核 ，Torvalds 开 
始 “ 上 自力 更 生 ”。 数 月 之 后 ，Torvalds 开 发 出 一 个 内 核 “ 和 雏形 ”， 可 以 编译 
并 运行 各 种 GNU 程 序 。 随 之 ， 于 1991 年 10 月 5 日 ， 为 求 得 其 他 程序 员 的 
帮助 ，Torvalds 在 Usenet 新 闻 组 comp.os.minix 上 就 其 内 核 0.02 版 发 表 了 如 
下 申明 ， 如 今 已 被 广 为 引 用 。 











LESY] minix1.1 的 好 日 子 一 一 人 人 都 能 给 上 自 个 儿 写 
设备 驱动 ， 不 用 看 别人 的 脸色 ? 手头 没有 称心 的 项 目 ? 是 
不 是 特 想 有 一 个 操作 系统 ， 能 依 着 目 个 的 想法 来 回 折腾 ， 
还 能 长 见识 ? AEA minix 上 面 跑 的 那些 玩意 吧 ， 征 不 是 挺 
没劲 ? 不 想 再 为 调 个 酷 竹 了 的 程序 ， 一 宿 一 条 获 个 没完 ? 
真 这 样 ， 那 我 可 找 对 人 了 。 一 个 月 前 在 帖子 里 就 提 过 ， 我 


正在 写 一 个 操作 系统 ， 在 AT-386 上 面 跑 ， 免 费 的 ， 挺 像 
minix。 现 在 总 算 到 了 这 份 上 ， 凑 合 能 用 〈 当 然 ， 这 得 看 您 
想 干 吗 ) 。 现 在 ， 我 愿意 公布 系统 的 源码 ， 请 大 家 多 果 

上 本， 多 用 用 。 系 统 版 本 只 是 0.02， 不 过 bash、gcc、gmnu- 
make、gnu-sed 还 有 compress 等 等 倒是 都 跑 通 了 。 


为 了 传承 UNIX 历 史 悠 和 久 的 光荣 传统 ， 在 为 UNIX 系 统 克 隆 命名 时 ， 
总 以 字母 “X” 结 尾 ， 故 而 ， 人 们 最 终 将 这 一 内 核 命名 为 Linux。 最 初 ， 
Linux 的 使 用 许可 协议 要 严格 得 多 ， 但 Torvalds 很 快 就 将 其 归于 GNU 
GPL 阵营 。 


Torvalds 做 到 了 一 呼 百 应 。 其 他 程序 员 与 Torvalds 一 起 加 入 到 Linux 
的 开发 行列 ， 添 加 了 很 多 新 特性 ， 诸 如 : 改进 型 的 文件 系统 、 对 网 络 的 
支持 、 设 备 驱动 程序 以 及 对 多 处 理 器 的 支持 等 。 到 了 1994 年 3 月 ， 开 发 
者 们 发 布 了 Linux 1.0 版 本 。 随 之 ，Linux 1.2 发 布 于 1995 年 3 月 ，Linux 2.0 
发 布 于 1996 年 6 月 ，Linux 2.2 发 布 于 1999 年 1 月 ，Linux 2.4 发 布 于 2001 年 
1 月 。 对 内 核 2.5 版 本 的 开发 始 于 2001 年 11 月 ， 并 最 终于 2003 年 12 月 发 布 
了 Linux 内 核 2.6。 





题 外 话 : BSD 


值得 一 提 的 是 ，20 世 纪 90 年 代 初 ， 另 一 种 可 以 免费 获得 的 UNIX 也 
能 在 x86-32 硬 件 架 构 上 运行 。 Bi 志和 Lynne Jolitz 将 业已 成 熟 的 BSD 系 统 
移植 到 32 位 的 x86 cpu 上 ， 命 名 为 386/bsd。 这 项 移植 工作 基于 BSD 
Net/2 (发 布 于 1991 年 6 月 )， 即 4.3BSD 源 码 的 版 本 之 一 ， 该 版 本 中 残存 
的 所 有 AT&T 专 有 源码 要 么 被 全 部 替换 ， 要 么 予以 删除 一 一 主要 针对 6 
个 无 法 轻易 更 换 的 源码 文件 而 言 。Jolitzes 夫 妇 将 Net2 代 码 移植 到 了 x86- 
32 硬 件 架 构 ， 重 写 了 缺失 的 源码 ， 并 于 1992 年 2 月 发 布 了 386/BSD 的 首 
个 版 本 〈0.0 版 本 ) 。 


在 初战 告捷 后 ， 对 386/BSD 的 开发 工作 便 出 于 各 种 原因 而 停 消 不 
前 。 面 对 日 渐 积压 的 大 量 补 本 程序， 另外 两 组 开发 团队 相机 而 动 ， 基 于 
386/BSD 分 别 创建 了 自己 的 版 本 : NetBSD 和 FreeBSD。 前 者 侧重 于 对 大 
量 硬件 平台 的 可 移植 性 ， 后 者 则 主要 关注 性 能 ， 并 成 为 如 今 应 用 最 为 广 




















泛 的 BSD。1993 年 4 月 ，NetBSD 首 版 〈 版 本 号 为 0.8) 发 布 。FreeBSD 的 
首 个 CD-ROM 版 本 (版 本 号 为 1.0〉 则 发 布 于 1993 年 12 月 。1996 年 ， 
OpenBSD 在 从 NetBSD 项 目 分 离 出 去 之 后 ， 也 发 布 了 最 初版 本 〈 版 本 号 
2.0) 。 相 比较 而 言 ，OpenBSD 偏 重 于 安全 性 。2003 年 中 段 ， 在 与 
FreeBSD 4.x 分 道 扬 贸 之 后 ， 一 球 新 型 BSD 一 一 DragonFly BSD 又 浮 出 水 
面 。DragonFly BSD 采 用 的 设计 方法 与 FreeBSD 5.x 有 所 不 同 ， 能 够 文 持 
对 称 多 处 理 器 〈SMP) 架构 。 


若是 不 提 及 20 世 纪 90 年 代 初 UNIX System Laboratories (USL, JAE 
自 AT&T 的 子 公 司 ， 专 门 从事 UNIX 的 开发 和 销售 ) 和 Berkeley 之 间 的 那 
场 官司 ， 那 么 对 BSD 的 介绍 敬 怕 就 算 不 得 完整 。1992 年 初 ，Berkeley 
Software Design, Incorporated 公 司 (BSDi， 如 今 隶 属于 Wind River 公 
司 ) 开始 发 行 受 商业 支持 的 BSD UNIX——BSD/OS 以 Net/2 发 布 版 
以 及 Jolitze 夫 妇 所 开发 的 386/BSD 特 性 为 基础 。BSDi 的 发 布 版 包含 二 进 
制 和 源 代码 ， 售 价 995 美 元 ， 此 外 ，BSDi 还 建议 潜在 客户 使 用 其 电话 号 
码 1-800-ITS-UNIX。 


1992 年 4 月 ，USL 对 BSDi 发 起 诉讼 ， 诉 状 称 BSDi 售 出 产品 中 含有 
USL 专 有 源码 及 商业 机 密 ， 要 求 其 停止 销售 。 此 外 ， 诉 状 还 指称 BSDi 的 
电话 号 码 容易 误导 消费 者 ， 要 求 BSDi 停 止 使 用 。 这 场 诉 讼 愈演愈烈 ， 
最 终 还 加 入 了 对 加 州 大 学 的 索赔 请 求 。 法 院 最 终 驶 回 了 了 USL 几乎 所 有 的 
诉讼 请 求 ， 仅 对 其 中 的 两 项 请 求 予 以 支持 。 随 后 ， 加 州 大 学 又 针对 USL 
发 起 发 诉 ， 诉 称 : USL 没 有 为 System V 中 使 用 的 BSD 代 码 支 付费 用 。 


这 场 诉讼 悬而未决 之 际 ，USL 已 被 Novell 收 购 ，Novell 时 任 CEO 
Ray Noorda 公 开 声 称 : 较 之 于 法 庭 辩论 ， 目 己 的 公司 更 愿意 参与 市 
场 竞 争 。 双 方 最 终于 1994 年 1 月 达成 隆 外 和 解 。 在 删除 NeV2 release 源码 
18000 个 文件 中 的 3 个 文件 ， 对 知 干 其 他 文件 做 出 细微 改动 ， 并 为 其 他 大 
约 70 个 文件 添加 USL 版 权 注 意 事 项 后 ， 加 州 大 学 仍 可 继续 目 由 发 布 
BSD。1994 年 6 月 ， 经 过 修改 的 系统 以 4.4BSD-Lite 之 名 发 布 (1995 年 6 
月 ， 加 州 大 学 发 布 了 最 后 一 版 4.4BSD-Lite， 版 本 号 为 Release 2) 。 此 
时 ， 根 据 和 解 条 款 ，BSDi、EFreeBSD 以 及 NetBSD 纷 纷 以 经 过 修改 的 
4.4BSD-Lite 源 码 蔡 换 了 各 自 的 Net/2 基 础 源码 。 据 [McKusick et al., 1996] 
一 书记 述 ， 尺 管 这 在 一 定 程 度 上 延误 了 BSD 和 衍生 系统 的 开发 ， 但 也 有 其 
积极 意义 。 加 州 大 学 计算 机 研究 组 (Computer Systems Research 

Group〉 自 Net/2 发 布 后 3 年 的 开发 成 果 ， 被 重新 同步 到 上 述 系 统 中 。 
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与 大 多 自由 软件 项 目 一 样 ，Linux 也 遵循 及 早 、 经 常 的 发 布 模式 ， 
因而 对 内 核 的 修订 会 频繁 出 现 〈 有 时 甚至 是 每 天 都 有 ) 。 随 着 Linux 用 
户 群 的 激增 ， 对 这 一 发 布 模式 有 所 调整 ， 意 在 降低 对 现 有 用 户 的 干扰 。 
具体 来 说 ， 在 Linux1.0 版 本 之 后 ， 内 核 开 发 者 针对 每 次 发 布 所 采用 的 内 
核 版 本 编写 方案 为 x.y.z。x 表 示 主 版 本 写 ，y 为 附属 于 主 版 本 号 的 次 版 本 
写 ，z 是 从 属于 次 版 本 号 的 修订 版 本 写 〈 细 微 的 改进 和 BUG 修 复 〉。 


采用 这 一 发 布 模式 ， 内 核 的 两 个 版 本 会 一 直 处 于 开发 之 中 。 一 个 是 
用 于 生产 系统 的 稳定 (stable) 分 文 ， 其 次 版 本 号 为 偶数 : 另 一 个 是 经 
常 变动 的 开发 (development) 分 文 ， 其 次 版 本 号 为 奇数 〈 当 前 稳定 版 次 
版 本 号 +1) 。 指 导 思 想 是 〈 在 实践 中 并 未 严格 执行 ) 应 将 所 有 新 特性 添 
加 到 内 核 当 前 的 开发 分 文系 列 中 ， 而 对 内 核 稳定 分 支 系列 的 修订 应 严格 
限定 为 细微 的 改进 及 bug 修 复 。 当 开发 者 认为 当前 的 开发 分 文 已 宜 于 发 
布 时 ， 会 将 该 开发 分 文 转换 成 新 的 稳定 分 文 ， 并 为 其 分 配 一 个 偶数 的 次 
版 本 号 。 人 例如， 内核 开发 分 支 2.3.z 会 * 进 化 ”为 内 核 稳定 分 支 2.4。 


随 着 2.6 内 核 的 发 布 ， 内 核 开 发 模式 再 次 发 生 改 变 。 稳 定 内 核 版 本 
之 间 发 布 间隔 过 长 ， 因 而 导致 诸多 问题 和 不 便 ， 这 是 内 核 开 发 模型 改变 
的 主要 原因 (从 Linux 2.4.0 到 2.6.0 的 发 布 历时 近 3 年 ) 。 虽 然 还 会 就 该 模 
型 的 微调 定期 开展 讨论 ， 但 基本 细节 已 经 确定 如 下 。 


。 不 再 有 稳定 内 核 和 开发 内 核 的 概念 。 每 个 新 的 2.6.z 肥 布 版 都 可 以 包 
含 新 特性 ， 其 生命 周期 始 于 对 新 特性 的 追加 ， 然 后 历经 一 系列 候选 
发 布 版 本 让 新 特性 稳定 下 来 。 当 开发 者 认为 菜 个 候选 版 本 足够 稳定 
时 ， 便 可 将 其 作为 内 核 2.6.z 发 布 。 一 般 情 况 下 ， 发 布 周期 约 为 3 个 


月 。 

有 时 ， 也 可 能 需要 为 某 个 稳定 的 2.6.z 发 布 版 打上 些小 补丁 程序 ， 以 
修复 bug 或 安全 问题 。 如 果 这 样 的 修复 工作 具有 足够 高 的 优先 级 ， 
并 且 补 本 程序 的 正确 性 也 “毋庸 置疑 ?， 那 么 无 需 等 待 下 一 个 2.6.z 发 
布 版 ， 可 以 直接 应 用 补丁 创建 一 个 版 本 写 形 如 2.6.z.r 的 发 布 版 本 ， 
其 中 ，r 作 为 该 2.6.z 内 核 版 本 的 次 修订 版 序号 。 

额外 责任 将 转 尹 给 Linux 发 行 六 商 ， 由 他 们 来 确保 随 Linux 发 行 版 一 
同 发 行内 核 的 稳定 性 。 


本 书后 续 各 章 有 时 会 提 及 API 发 生 特定 变化 (比如 ， 新 增 了 系统 调 
用 或 者 系统 调用 发 生变 化 时 ) 的 相应 内 核 版 本 。 在 2.6.z 系 列 之 前 ， 虽 然 
大 多 数 内 核 变 化 都 见 诸 于 具有 奇数 版 本 号 的 开发 分 文 ， 但 本 书 通 闻 所 指 
的 是 那些 变化 初次 出 现 的 稳定 内 核 版 本 ， 这 是 因为 大 多 数 应 用 开发 者 一 





















































般 都 会 使 用 稳定 版 的 内 核 ， 而 非 开 发 版 本 。 很 多 情况 下 ， 手 册页 会 注 明 
某 一 具体 特性 出 现 或 发 生变 化 时 开发 版 内 核 的 确切 版 本 号 。 


对 2.6.z 系 列 内 核 所 及 生 的 改变 ， 本 书 会 注 明确 切 的 内 核 版 本 写 。 当 
书 中 言及 2.6 版 本 内 核 的 新 特性 ， 且 版 本 写 叉 不 带 “z” 这 一 修订 版 本 号 
意 指 该 特性 是 在 2.5 开 及 版 内 核 中 实现 ， 并 首 度 出 现 于 稳定 内 核 厂 
2.6.0. 











写作 本 书 之 际 ，Linux 内 核 2.4 的 稳定 版 尚 处 于 维护 期， 
维护 者 们 仍 在 将 关键 性 的 补丁 和 缺陷 修正 合并 起 来 ， 定 期 
发 布 新 的 修订 版 。 这 使 得 已 安装 系统 能 继续 使 用 2.4 内 核 ， 
而 不 必 非 要 升级 到 新 的 内 核 系 列 〈 有 时 候 ， 升 级 起 来 并 不 
FERS) o 
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Linux 开 发 之 初 ， 主 要 目标 是 针对 Intel 80386 的 高 效 系统 实现 ， 而 非 
向 其 他 处 理 器 架构 迁移 的 可 移植 性 。 然 而 ， 随 着 Linux 的 日 益 普 及 ， 针 
对 其 他 处 理 咒 架构 的 移植 版 本 开始 出 现 ， 首 先 就 是 和 同 Digital Alphas Fr 
的 移植 。Linux 所 支持 的 硬件 架构 队伍 在 持续 壮大 ， 其 中 包括 : x86- 
64, Motorola/IBM PowerPC 和 PowerPC64、Sun SPARC 和 
SPARC64 (UltraSPARC) . MIPS, ARM (Acorn) 、IBM 
zSeries (formerly System/390) . Intel IA-64 〈Itanium， 请 参阅 
[Mosberger & Eranian, 2002]) . Hitachi SuperH. HP PA-RISC, LAR 
Motorola 68000. 


Linux® íT fiz 


准确 说 来 ， 术 语 Linux 只 是 指 由 Linus Torvalds 和 其 他 人 所 开发 出 的 
内 核 。 可 是 ， 也 第 使 用 该 术语 来 指 代 内 核 外 加 一 大 堆 其 他 软件 〈 工 具 和 
E) 所 构成 的 完整 操作 系统 。Linux 草 创 之 际 ， 需 要 用 户 自行 组 装 上 述 
所 有 软件 ， 创 建文 件 系 统 ， 在 文件 系统 上 正确 地 安置 并 配置 所 有 软件 。 








用 户 不 但 要 具备 专业 知识 ， 还 需 为 此 耗费 大 量 时 间 。 如 此 一 来 ， 这 便 为 
Linux 发 行商 们 开局 了 市 场 ， 他 们 创建 软件 包 《 发 行 版 ) ， 来 目 动 完成 
大 部 分 安装 过 程 ， 其 中 包括 了 建立 文件 系统 以 及 安装 内 核 和 其 他 所 需 软 


件 等 。 


Linux 的 发 行 版 最 早出 现 于 1992 年 ， 包 括 MCC Interim Linux (K 
国 ， 曼 彻 斯 特 计 算 机 中 心 ) 、TAMU ( 德 克 萨 斯 A&M 大 学 ) 以 及 
SLS (SoftLanding Linux System) 。 至 今 健在 的 商业 发 行 版 Slackware 诞 
生 于 1993 年 。 几 乎 与 此 同时 ， 也 诞生 了 非 商 业 的 Debian 发 行 版 ，SUSE 
和 Red Hat 紧 随 其 后 。 时 下 最 流行 的 Ubuntu 发 行 版 问世 于 2004 年 。 如 
今 ， 对 于 那些 在 自由 软件 项 目 中 表现 活跃 的 程序 员 ， 许 多 Linux 发 行 公 
司 也 会 加 以 雇佣 。 





1.3 ”标准 化 


20 志 纪 80 年 代 末 ， 可 用 的 UNIX 实 现 层出不穷 ， 由 此 也 带 来 了 种 种 
Hkn A UNIXI FBSD, MWA- System Vy， 还 有 一 些 
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实现 中 添加 了 额外 特性 。 其 结果 是 将 软件 及 技术 人 员 在 不 同 UNIX 实 现 
间 转 移 就 变 得 异常 困难 。 这 一 形式 有 力 地 推动 了 C 语 言 和 UNIX 系 统 的 标 
准 化 进程 ， 使 得 应 用 程序 能 够 在 不 同 操作 系统 间 很 方便 地 进行 移植 。 接 
下 来 ， 将 介绍 由 此 而 产生 的 各 种 标准 。 








1.3.1 C 编 程 语 言 


20 世 纪 80 年 代 初 ，C 语 言 问世 已 达 10 年 之 久 ， 在 大 量 UNIX 系 统 以 及 
其 他 操作 系统 上 都 有 实现 。 各 种 C 语 言 的 实现 之 间 存 在 着 细微 差别 ， 这 
部 分 是 由 于 在 当时 C 语 言 事实 上 的 标准 一 一 Kernighan 和 Ritchie 于 1978 年 
所 著 的 The C Programming Language 一 书 中 〈 有 时 ， 人 们 将 书 中 所 记载 
的 老式 C 语 言语 法 称 为 传统 C 或 K&R C) ， 并 未 就 C 语 言 在 某 些 方面 的 运 
作 方 式 进 行 细 化 。 此 外 ， 借 鉴于 1985 年 面世 的 C++ 语言 ， 在 不 破坏 现 有 
程序 的 前 提 下 ，C 语 言 得 以 进一步 丰富 和 完善 ， 其 中 最 知名 的 莫 过 于 函 
数 原 型 、 结 构 赋 值 、 类 型 限定 符 Cconst and volatile) 、 枚 举 类 型 以 及 
void 关 键 字 。 


上 述 因 素 形 成 了 C 语 言 标 准 化 进程 的 强力 推手 ，ANSI (美国 国家 标 
准 委员 会 ) C 语 言 标 准 (X3.159-1989) 最 终于 1989 年 获 批 ， 随 之 于 1990 
年 被 ISO〔 国 际 标准 化 组 织 ) PÆN (ISO/IEC 9899:1990) 。 这 份 标准 
在 定义 C 语 言语 法 和 语义 的 同时 ， 还 对 标准 C 语 言 库 操作 进行 了 描述 ， 
这 包括 stdio 函 数 、 字 符 串 处 理 函 数 、 数 学 函数 、 各 种 头 文 件 等 等 。 通 常 
将 C 语 言 的 这 一 版 本 称 为 C89 或 者 〈 不 太 常 见 的 ) ISO C90，Kernighan 和 
Ritchie 所 车 的 The C Programming Language 第 2 版 〈1988) 对 其 有 完整 描 


1999 年 ，ISO 又 正式 批准 了 对 C 语 言 标准 的 修订 版 CISO/IEC 
9899:1999， 请 见 http://www.open- 
std.org/jtc1/sc22/wg14/www/standards) 。 通 常 将 这 一 标准 称 为 C99， 其 
中 包括 了 对 C 语 言及 其 标准 库 的 一 系列 修改 ， 诸 如 ， 增 加 了 long long 和 
布尔 数据 类 型 、C++ 风 格 的 注释 U 、 受 限 指针 以 及 可 变 长 数组 等 。 























写作 本 书 之 际 ， 对 C 语 言 标准 的 进一步 修订 《〈 非 正式 命名 为 CIX) 仍 在 
进行 之 中 ， 预 计 将 于 2011 年 正式 获 批 。 

C 语 言 标准 独立 于 任何 操作 系统 ， 换 言 之 ，C 语 言 并 不 依附 于 UNIX 
系统 。 这 也 意味 着 仅仅 利用 标准 C 语 言 库 编写 而 成 的 C 语 言 程序 可 以 移 
植 到 支持 C 语 言 实现 的 任何 计算 机 或 操作 系统 上 。 


回顾 历史 ， 过 去 的 ANSI C 通 常 指 C89， 时 至 今日 ， 这 
一 用 法 还 时 有 所 见 。GCC 束 是 一 例 ， 其 限定 符 -ansi 意 指 “ 文 
持 所 有 ISO C90 程 序 ”。 然 而 ， 本 书 会 避免 这 种 用 法 ， 因 为 
如 今 该 术语 的 含义 有 些 含糊 不 清 。 目 从 ANSI 委 员 会 批准 了 
C99 修 订 版 之 后 ， 确 切 说 来 ， 现 在 的 ANSI C 应 该 是 C99。 





1.3.2” 首 个 POSIX 标 准 


术语 “POSIX (可 移植 操作 系统 Portable Operating System Interface 的 
缩写 ) ”是 指 在 IEEE (电器 及 电子 工程 师 协 会 ) ， 确 切 地 说 是 其 下 属 的 
可 移植 应 用 标准 委员 会 (PASC, http://www.pasc.org/) 赞助 下 所 开发 的 
列 标准 。PASC 标 准 的 目标 是 提升 应 用 程序 在 源码 级 别 的 可 移植 


POSIX 之 名 来 自 于 Richard Stallman 的 建议 。 最 后 一 个 
字母 之 所 以 是 “X” 是 因为 大 多 数 UNIX 变 体 之 名 总 以 “X” 结 
尾 。 该 标准 特别 注 明 ，POSIX 应 发 音 为 "pahz-icks”， 类 似 


于 “positive”。 





本 书 会 关注 名 为 POSIX.1 的 第 一 个 POSIX 标 准 ， 以 及 后 续 的 POSIX.2 
标准 。 


POSIX.1 和 POSIX.2 


POSIX.1 于 1989 年 成 为 IEEE 标 准 ， 并 在 稍 作 修 订 后 于 1990 年 被 正式 
采纳 为 ISO 标准 (ISO/IEC 9945-1:1990) 。 无 法 在 线 获得 这 一 POSIX 标 
准 ， 但 能 从 IEEE Chttp://www.ieee.org/) 购 得 。 


POSIX.1 一 开始 是 基于 一 个 更 早期 的 《1984 年 ) 非 官方 
标准 ， 由 名 为 /usrgroup 的 UNIX 广 商 协会 制定 。 


符合 POSIX.1 标 准 的 操作 系统 应 向 程序 提供 调用 各 项 服务 的 APL， 
POSIX.1 文 档 对 此 作 了 规范 。 凡 是 提供 了 上 述 API 的 操作 系统 都 可 被 认 
定 为 符合 POSIX.1 标 准 。 


POSIX.1 基 于 UNIX 系 统 调用 和 C 语 言 库 函 数 ， 但 无 需 与 任何 特殊 实 
现 相 关 。 这 意味 着 任何 操作 系统 都 可 以 实现 该 接口 ， 而 不 一 定 要 是 
UNIX 操 作 系 统 。 实 际 上 ， 在 不 对 底层 操作 系统 大 加 改动 的 同时 ， 一 些 
厂商 通过 添加 API 已 经 使 自己 的 专 有 操作 系统 符合 了 POSIX.1 标 准 。 


对 原 有 POSIX.1 标 准 的 若干 扩展 也 同样 重要 。 正 式 获 批 于 1993 年 的 
IEEE POSIX 1003.1b (POSIX.1b， 原 名 POSIX.4 或 POSIX 1003.4) 包含 
了 一 系列 对 基本 POSIX 标 准 的 实时 性 扩展 。 正 式 获 批 于 1995 年 的 IEEE 
POSIX 1003.1c (POSIX.1c) 对 POSIX 线 程 作 了 定义 。1996 年 ， 一 个 经 
过 修订 POSIX.1 版 本 诞生 ， 在 核心 内 容 保持 不 变 的 同时 ， 并 入 了 实时 性 
和 线程 扩展 。IEEE POSIX 1003.1g (POSIX.1g) 定义 了 包括 套 接 字 在 内 
的 网 络 API。 分 别 获 批 于 1999 年 和 2000 年 的 IEEE POSIX 
1003.1d (POSIX.1d) 和 POSIX.1j 在 POSIX 基 本 标准 的 基础 上 ， 定 义 了 附 
加 的 实时 性 扩展 。 








POSIX.1b 实 时 性 扩展 包括 文件 同步 、 异 步 WO、 进 程 调 
度 、 高 精度 时 钟 和 定时 器 、 采 用 信和 号 量 、 共 享 内 存 ， 以 及 
消息 队列 的 进程 间 通 信 。 这 3 种 进程 间 通 信 方 法 的 称谓 前 通 
种 冠 以 POSIX， 以 示 其 有 别 于 与 之 类 似 而 又 较为 古老 的 
System V 信 号 、 共 享 内 存 以 及 消息 队列 。 











POSIX.2 (1992, ISO/IEC 9945-2:1993) 这 一 与 POSIX.1 相 关 的 标 
准 ， 对 shell 和 包括 C 编 译 器 命令 行 接口 在 内 的 各 种 UNIX 工 具 进 行 了 标准 
化 。 


F151-1 和 FIPS 151-2 


FIPS 是 Federal Information Processing Standard (联邦 信息 处 理 标 
准 ) 的 缩写 ， 这 套 标准 由 美国 政府 为 规范 其 对 计算 机 系统 的 采购 而 制 
Æo FIPS 151-1 于 1989 年 发 布 。 这 份 标准 基于 1988 年 的 IEEE POSIX.1 标 
准 和 ANSI C 语 言 标 准 草 案 。FIPS 151-1 和 POSIX.1 (1988) 之 间 的 主要 
差别 在 于 : 某 些 对 后 者 来 说 是 可 选 的 特性 ， 对 于 前 者 来 说 是 必须 的 。 由 
于 美国 政府 是 计算 机 系统 的 “大 买 家 ， 大 多 数 计 算 机 厂商 都 会 确保 其 
UNIX 系 统 符合 FIPS 151-1 版 本 的 POSIX.1 规 范 。 


FIPS 151-2 与 POSIX.1 的 1990 ISO 版 保持 一 致 ， 但 在 其 他 方面 则 保持 
不 变 。2000 年 ?2 月， 已 然 过 时 的 FIPS 151-2 标 准 被 废止 。 








1.3.3 X/Open 公司 和 The Open Group 


X/Open 公司 是 由 多 家 国际 计算 机 厂商 所 组 成 的 联盟 ， 致 力 于 采纳 和 
改进 现 有 标准 ， 以 制定 出 一 套 全 面 而 又 一 致 的 开放 系统 标准 。 该 公司 编 
FHI (X/Open 可 移植 性 指南 》 是 一 套 基于 POSIX 标 准 的 可 移植 性 指导 
从 书 。 这 份 指南 的 首 个 重要 版 本 是 1989 年 发 布 的 第 三 号 (XPG3) ， 
XPG4 随 之 于 1992 年 发 布 。1994 年 ，X/Open 又 对 XPG4 做 了 修订 ， 从 而 诞 
生 了 XPG4 版 本 2， 其 中 吸收 了 1.3.7 节 所 述 AT&T System V 接 口 定义 第 三 
号 中 的 重要 内 容 。 也 将 这 一 修订 版 称 为 Spec 1170， 而 1170 是 指标 准 中 所 








定义 的 接口 〈 函 数 、 头 文件 及 命令 ) 数量 。 


1993 年 初 ，Novell 从 AT&T 收 购 了 UNIX 系 统 的 相关 业务 ， 又 在 稍 后 
放弃 了 这 项 业务 ， 并 将 UNIX 商 标 权 转让 给 了 X/Open。〔 这 一 转让 计划 
公布 于 1993 年 ， 但 法 律 限制 将 这 一 转让 推迟 到 1994 年 初 。) 随后 ， 
X/Open 又 将 XPG4 版 本 2“ 重 新 包装 ”为 SUS (Single UNIX Specification) 
(有 时 ， 也 叫 SUSv1) 或 称 之 为 UNIX95。 其 内 容 包 括 : XPG4 版 本 2， 
X/Open Curses 规 范 第 4 号 版 本 2， 以 及 X/Opena 联 网 服务 (XNS) 规范 第 
4 写 。SUS 版 本 2 (SUSv2，http:/www.unix.org/version2/ online.html) 发 
布 于 1997 年 ， 人 们 也 将 经 过 该 规范 认证 的 UNIX 实 现 称 为 UNIX 98。 
有时， 该 规范 也 被 称 之 为 XPG5。 ) 

1996 年 ，X/Open 与 开放 软件 基金 会 (OSF) 合并 ， 成 立 The Open 


Group。 如 今 ， 几 乎 每 家 与 UNIX 系 统 有 关 的 公司 或 组 织 都 是 The Open 
Group 的 会 员 ， 该 组 织 持 续 着 对 API 标 准 的 开发 。 


OSF 是 20 志 纪 80 年 代 末 UNIX 纷 争 期 间 成 立 的 两 家 厂商 
联盟 之 一 。OSF 的 主要 成 员 包 括 Digital、IBM、HP、 
Apollo、Bull、Nixdorf 和 Siemens。OSF 成 立 的 主要 目的 是 
为 了 应 对 由 AT&T (UNIX 的 发 明 者 ) 和 SUN 公 司 (UNIX 
工作 站 市 场 的 领跑 者 ) 结盟 所 带 来 的 威胁 。 随 之 ， 

AT&T、SUN 和 其 他 公司 结 成 了 与 OSF 对 抗 的 UNIX 
International 联 盟 。 


1.3.4 SUSv3 和 POSIX.1-2001 


始 于 1999 年 ， 出 于 修订 并 加 强 POSIX 标 准 和 SUS 规 范 的 目的 ， 
IEEE、Open 集 团 以 及 ISO/ IEC 联 合 技术 委员 会 共同 成 立 了 奥 斯 丁 公共 标 
准 修 订 工 作 组 (CSRG，http://www.opengroup.org/ austin/) 。〔 该 工作 
组 的 首次 会 议 于 1998 年 9 月 在 德州 奥 斯 丁 召开 ， 这 也 是 奥 斯 丁 工作 组 名 
称 的 由 来 。) 2001 年 12 月 ， 该 工作 组 正式 批准 了 POSIX 1003.1-2001, 


有 时 简称 为 POSIX.1-2001〈 随 后 ， 又 获 批 为 ISO 标准 : ISO/IEC 
9945:2002) 。 


POSIX 1003.1-2001 取 代 了 SUSv2、POSIX.1、POSIX.2 以 及 大 批 的 


早期 POSIX 标 准 。 有 时 ， 人 们 也 将 该 标准 称 为 Single Unix Specification 
版 本 3， 本 书 在 后 续 内 容 中 将 称 其 为 SUSvVv3。 


SUSv3 基 本 规范 约 有 3700 页 ， 分 为 以 下 4 部 分 。 


基本 定义 (XBD) ， 包 含 了 定义 、 术 语 、 概 念 以 及 对 头 文件 内 容 的 
规范 。 总 计 提 供 了 84 个 头 文件 的 规范 。 

系统 接口 (XSH) ， 首 先 介绍 了 各 种 有 用 的 背景 信息 。 主 要 内 容 包 
含 对 各 种 函数 〈 在 特定 的 UNIX 实 现 中 ， 这 些 函 数 要 么 是 作为 系统 
i ， 要 么 是 作为 库 函 数 来 实现 的 ) 的 定义 。 总 计 包 括 了 1123 个 系 
统 接口 。 

Shell 和 实用 工具 CXCU) ， 明 确定 义 了 shel 和 各 种 UNIX 命 令 的 行 
为 。 总 共 定 义 了 160 个 实用 工具 的 行为 。 

(XRAT) ， 包 括 了 与 前 三 部 分 有 关 的 描述 性 文字 和 原理 
说 明 。 


此 外 ，SUSv3 还 包含 了 X/Open CURSES 第 4 号 版 本 2 (XCURSES ) 








规范 ， 该 规范 针对 curses 屏 幕 处 理 API 定 义 了 372 个 函数 和 3 个 头 文件 。 





在 SUSv3 中 共计 定义 了 1742 个 接口 。 与 之 形成 鲜明 对 照 的 是 ， 


POSIX.1-1990 (连同 FIPS 151-2) 定义 了 199 个 接口 ，POSIX.2-1992 定 义 
了 130 个 实用 工具 。 


SUSv3 规 范 可 在 线 获得 ， 网 址 


是 http:/www.unix.org/version3/online.html。 通 过 SUSv3 认 证 的 UNIX 实 现 
可 被 称 为 UNIX 03。 


目 SUSv3 获 批 以 来 ， 人 们 针对 规范 文本 中 所 发 现 的 问题 进行 了 多 次 


小 规模 的 修复 和 改进 。 因 此 而 诞生 的 1 号 技术 勘误 表 并 入 了 2003 年 发 布 
而 2 号 技术 勤 误 表 的 改进 成 果 则 并 入 了 SUSv3 200418 
W ARo 


符合 POSIX、XSI 规 范 和 XSI 扩 展 


回顾 历史 ，SUS XPG) 标准 顺应 了 相应 POSIX 标 准 ， 并 被 组 织 
为 POSIX 的 功能 超 集 。 除 了 对 许多 额外 接口 作出 规范 外 ，SUS 标 准 还 将 
诸多 被 POSIX 视 为 可 选 的 接口 和 行为 规范 作为 必 备 项 。 


对 于 身 兼 IEEE 标 准 和 OPEN 集 团 技 术 标 准 的 POSIX 1003.1-2001 来 说 
(如 前 所 述 ，POSIX 1003.1-2001 是 由 早期 的 POSIX 和 SUS 标 准 合 并 而 
2 ， 上 述 区 别 的 存在 方式 更 显 微 妙 。 该 文档 定义 了 对 规范 的 两 级 符合 


© POSIX 规 范 符 合 度 ， 束 符合 该 规范 的 UNIX 实 现 押 必须 提供 的 接口 
定义 了 基线 。 规 范 允 许 符 合 度 达标 的 UNIX 实 现 提 供 其 他 可 选 接 
E 














e XSI (X/Open 系统 接口 [X/Open System Interface]) 规范 符合 度 ， 对 
UNIX 实 现 来 说 ， 要 想 完 全 符合 XSI 规 范 ， 除 了 必须 满足 POSIX 规 范 
的 所 有 规定 之 外 ， 还 要 提供 和 若干 POSIX 规 范 中 的 可 选 接口 和 行为 。 
只 有 这 一 规范 符合 度 达 标 ， 才 能 从 OPEN GROUP 获得 UNIX03 称 
Fo 


人 们 将 XSI 规 范 符 合 度 达标 所 需 的 额外 接口 和 行为 统称 为 XSI 扩 
展 。 这 些 扩展 文 持 以 下 特性 : 线程 、mmap0 和 munmap(O、dlopen API, 
资源 限制 、 伪 终端 、System V IPC. syslog API、poll0 以 及 登录 记 账 。 








后 续 各 章 所 言及 的 “符合 SUSv3 规 范 ” 是 指 “ 符 合 XSI 规 范 ”。 


由 于 POSIX 和 SUSv3 目 前 由 同一 份 文档 描述 ， 故 而 在 
文档 的 正文 中 ， 对 于 满足 SUSv3 符 合 度 所 需 的 额外 接口 和 
强制 选项 都 以 阴影 和 边 注 形 式 加 以 标明 。 


未 定义 和 未 明确 定义 的 接口 
有 时 ， 我 们 会 称 某 些 接 口 在 SUSv3 中 “未 定义 ”或 “未 明确 定义 ”。 
未 定义 的 接口 是 指 尽管 偶尔 会 在 背景 和 原理 描述 中 提 及 ， 却 根本 未 








经 正式 标准 定义 过 的 接口 。 


未 明确 定义 的 接口 是 指标 准 虽 然 包括 了 该 接口 ， 但 却 未 对 其 重要 细 
节 进 行规 范 。 (通常 是 由 于 现 有 接口 的 实现 差异 导致 标准 委员 会 成 员 无 
法 达成 一 致 性 意见 。) 


“未 定义 ”或 “未 明确 定义 ”的 接口 一 经 使 用 ， 在 不 同 UNIX 实 现 间 移 
植 应 用 就 很 难得 到 保证 。 尽 管 如 此 ， 少 数 此 类 接口 在 不 同 实 现下 的 表现 
又 相当 一 致 。 针 对 这 些 接口 ， 本 书 通 冲 会 在 提 及 时 一 一 指出 。 


LEGACY (传统 ) 特性 


书 中 有 时 会 指出 SUSv3 将 某 个 特定 特性 标记 为 LEGACY。 这 一 术语 
意味 着 保留 此 特性 意 在 与 老 应 用 程序 保持 兼容 ， 而 在 新 应 用 程序 中 应 避 
免 使 用 。 这 也 是 标准 对 此 特性 的 限制 所 在 。 大 多 数 情况 下 ， 都 能 找到 与 
LEGACY 特 性 等 效 的 其 他 API。 




















1.3.5 SUSv4 和 POSIX.1-2008 


2008 年 ， 奥 斯 丁 工作 组 完成 了 对 己 合 并 的 POSIX 和 SUS 规 范 的 修订 
工作 。 较 之 于 之 先前 版 本 ， 该 标准 包含 了 基本 规范 以 及 XSI 扩 展 。 人 们 
将 这 一 修订 版 本 称 为 SUSv4。 


与 SUSvV3 的 变化 相 比 ，SUSvV4 的 变化 范围 不 算 太 大 。 最 显著 的 变化 
如 下 所 示 。 


© SUSv4 为 一 系列 函数 添加 了 新 规范 。 本 书 将 会 介绍 以 下 新 标准 中 定 
义 的 如 下 函数 : dirfd()、fdopendir()、fexecve()、futimens()、 
mkdtemp()、psignal()、strsignal() 以 及 utimensat()。 男 一 组 与 文件 相 
RANKL, PIU: openatO0， 参 见 18.11 节 ， 和 现 有 函数 ， 例 如 : 
openO0， 功 能 相同 ， 其 区 别 在 于 前 者 对 相对 路 径 的 解释 是 相对 于 打 
开 文 件 描述 符 的 所 属 目录 而 言 ， 而 非 相 对 于 进程 的 当前 工作 目录 。 
某 些 在 SUSv3 中 被 定义 为 可 选 的 函数 在 SUSv4 中 成 为 基本 标准 的 必 
备 部 分 。 例 如 ， 某 些 原本 在 SUSv3 中 属于 XSI 扩 展 的 函数 ， 在 
SUSv4 中 转 而 隶属 于 基本 标准 。 在 SUSv4 中 转变 为 必 备 的 函数 中 包 
括 了 dlopen API (42.173) 、 实 时 信号 API〈22.8 节 ) 、POSIX 信 和 号 
量 API (53%) 以 及 POSIX 定 时 器 API (23.6 节 ) 。 

。 SUSv4 废 止 了 SUSvV3 中 的 某 些 函数 ， 这 包括 asctime()、ctime()、 




















ftw(). gettimeofday(). getitimer(). setitimer() LA Xsiginterrupt(). 

。 SUSv4 删 除了 在 SUSv3 中 被 标记 为 作废 的 一 些 函 数 ， 这 包括 
gethostbyname()、 gethostbyaddrO 以 及 vfork()。 

。 SUSv4 对 SUSvV3 现 有 规范 的 各 方面 细 市 进行 了 修改 。 例 如 ， 对 于 应 
满足 异步 信号 安全 (async-signal-safe) 的 函数 列表 ， 二 者 内 容 就 有 
所 不 同 ( 见 表 21-1) 。 


本 书后 文 会 就 所 论 及 的 相关 主题 指出 其 在 SUSv4 中 的 变化 。 
1.3.6 ” ”UNIX 标准 时 间 表 

图 1-1 总 结 了 上 述 各 节 所 述 及 各 种 标准 之 间 的 关系 ， 并 按时 间 顺 序 
对 标准 进行 了 排列 。 图 中 的 实 线 表 示 标 准 间 的 直接 过 渡 ， 虚 线 则 表示 标 


准 间 有 一 定 的 扩充 ， 这 无 非 有 两 种 情况 ， 其 一 ， 一 个 标准 被 并 入 了 力 一 
标准 ;其 二 ， 一 个 标准 依附 于 男 一 个 标准 。 





POSIX.1 
(1988, IEEE) 


[POSIX 1003.1] 


POSIX. 1 
(1990, ISO) 






(1992) 


POSIX. 1b Shell 和 实用 工具 
(1993) 
实时 
POSIX. 1g 
(2000) XPG4v2 
POSIX. Ic Sockets (1994) 
(1995) [SUS, UNTX 
线程 95, Spec 1170} 


POSIX. 1 
(1996, ISO) 


POSIX. Id 
(1999) 


额外 的 实时 
性 扩展 





POSIX. lj 
(2000) 
高 级 实时 性 POSIX.1-2001 / SUSv3 
扩展 (2001, Austin CSRG) 

[UNIX 03] 





POSIX. 1-2008 / SUSv4 





(2008, Ausun CSRG) 


图 1-1: 各 种 UNIX 和 C 标 准 之 间 的 关系 图 


在 网 络 标准 方面 ， 情 况 稍微 有 些 复杂 。 该 领域 的 标准 化 工作 始 于 20 
世纪 80 年 代 末 期 ， 成 立 了 POSIX 1003.12 委 员 会 ， 对 套 接 字 API、 
XTI (X/Open 传 输 接 口 ) API〈 另 一 套 基于 System V 传 输 层 接口 的 网 络 
编程 API) 以 及 各 种 相关 的 API 进 行规 范 。 该 标准 的 酝酿 历时 数 年 ， 并 
于 2000 年 获得 了 批准 。 其 间 ，POSIX 1003.12 被 更 名 为 POSIX 1003.1g。 


在 开发 POSIX 1003.1g 的 同时 ，X/Open 也 在 开发 自己 的 X/Open 网 络 








规范 (XNS) 。 该 规范 的 第 一 版 XNS 第 4 号 隶属 于 SUS 首 版 。 其 后 继 版 
本 为 XNS 第 5 号 ， 隶 属于 SUSv2。XNS 第 5 号 与 当时 的 POSIX.1g 草 案 
(6.6) 基本 相同 。 紧 随 其 后 的 XNS 第 5.2 号 与 XNS 第 5 号 以 及 获 批 为 标准 
的 POSIX.1g 有 所 不 同 ， 将 XTI API 标 记 为 作废 ， 并 纳入 了 于 20 世 纪 90 年 
代 中 期 开发 出 的 IPv6。XNS 第 5.2 号 构成 了 SUSv3 中 网 络 编程 相关 内 容 的 
eee 出 于 类 似 原因 ，POSIX.1g 在 获 批 后 不 久 也 退出 了 
历 Ro 


1.3.7 ”实现 标准 


除了 由 独立 或 多 边 组 织 所 制定 的 标准 以 外 ， 有 时 ， 人 们 也 会 提 到 由 
4.4BSD (BSD 的 最 终 版 ) 和 SVR4 (AT&T 的 System V Release 4) 所 定 
义 的 两 种 实现 标准 。 后 者 随 AT&T 所 发 布 的 SVID (System V 定 义 ) 而 正 
式 出 台 。1989 年 ，AT&T 发 布 了 SVID 第 3 号 ， 定 义 了 自称 为 System V 
Release 4 的 UNIX 实 现 所 必须 提供 的 接口 。〔( 从 
http://www.sco.com/developers/devspecs/ 可 以 下 载 到 SVID。) 


在 BSD 和 SVR4 之 间 ， 某 些 系统 调用 和 库 函 数 的 行为 各 
不 相同 ， 因 此 ， 许 多 UNIX 实 现 都 提供 了 兼容 函数 库 和 条 件 
编译 工具 ， 可 仿效 并 非特 定 UNIX 实 现 “ 本 色 ” 的 任意 一 种 
UNIX 特 性 (请 参见 3.6.1 节 ) 。 这 减轻 了 从 另 一 UNIX 实 现 
移植 应 用 程序 的 负担 。 


1.3.8 Linux、 标 准 、Linux 标 准 规范 (Linux Standard 
Base) 


遵守 各 种 UNIX 标 准 ， 尤 其 是 符合 POSIX 和 SUS 规 范 ， 是 Linux〔 即 
内 核 、glibc 以 及 工具 ) 开发 的 总 体 目标 。 可 是 ， 在 写作 本 书 之 际 ， 疝 无 
Linux 发 行 版 被 The Open group 授 予 “UNIX2” 商 标 。 造 成 这 一 问题 的 主要 
原因 不 外 乎 是 时 间 和 费用 。 为 了 获得 这 一 冠 名 ， 每 个 广 商 的 发 行 版 都 要 
经 受 规范 符合 上 度 检 查 ， 每 当 有 新 的 发 行 版 诞生 ， 还 需 重 复 执行 上 述 检 














查 。 不 过 ， 正 是 由 于 Linux 实 际 上 几 近 于 符合 各 种 UNIX 标 准 ， 才 令 其 在 
UNIX 市 场 上 如 此 成 功 。 


对 于 大 多 数 商业 UNIX 实 现 来 次 ， 都 是 由 同一 家 公司 来 开 及 和 发 布 
操作 系统 的 。Linux 则 有 所 不 同 ， 其 实现 与 发 行 是 分 开 的 ， 多 家 组 织 
一 一 无 论 是 商业 性 质 还 是 非 商 业 性 质 一 一 都 握 有 Linux 的 发 行 权 。 


Linus Torvalds 并 不 参与 或 文 持 任 一 特定 Linux 发 行 版 的 发 行 。 然 
而 ， 束 参与 Linux 开 发 的 其 他 人 而 言 ， 情 况 更 为 复杂 。 许 多 从 事 Linux 内 
核 及 其 他 目 由 软件 项 目 开 发 的 人 员 要 么 受 雇 于 各 家 Linux 发 行商 ， 要 人 么 
就 职 于 对 Linux 抱 有 浓厚 兴趣 的 某 些 公司 〈 诸 如 IBM 和 HP) 。 这 些 公司 
允许 其 程序 员 为 特定 Linux 项 目的 开发 投入 一 定 的 工作 时 间 ， 这 虽然 对 
Linux 的 发 展 方向 有 所 影响 ， 但 还 没有 哪 家 公司 能 够 真正 左右 Linux 的 开 
发 。 更 何况 ， 很 多 参与 Linux 和 GUN 项 目的 其 他 开发 者 都 是 义工 。 




















写作 本 书 之 际 ，Torvalds 受 雇 成 为 Linux 基 金 会 会 员 
(http://www.linux-foundation.org， 之 前 的 开源 码 发 展 实验 
ZOSDL) ， 该 基金 会 是 一 家 由 多 个 商业 和 非 商 业 组 织 组 成 
的 非 赢利 性 联盟 ， 旨 在 推动 Linux 的 成 长 。 





由 于 Linux 的 发 行商 众多 ， 并 且 内 核 的 开发 者 又 无 法 控制 Linux 发 布 
版 的 内 容 ， 因 此 还 没有 诞生 “标准 ”的 商业 Linux。 一 般 情况 下 ， 每 家 
Linux 发 行商 所 提供 的 内 核 都 是 基于 某 特 定时 间 点 发 布 的 主要 内 核 〈 比 
如 Torvalds) 版 本 的 快照 ， 最 多 不 过 针对 其 打上 几 个 补丁 。 发 行商 普遍 
认为 ， 这 些 补 丁 所 提供 的 特性 可 以 在 一 定 程度 上 迎合 商业 需求 ， 从 而 能 
够 提高 市 场 竞 争 力 。 在 某 些 情况 下 ， 主 要 内 核 版 本 稍 后 会 打上 这 些 补 
了 丁 。 实 际 上 ， 某 些 新 内 核 特 性 最 初 正 是 由 某 个 Linux 发 行商 开发 而 成 ， 
最 终 被 纳入 主要 内 核 版 本 之 前 ， 这 些 新 特性 早已 随 着 发 行商 的 Linux 发 
布 版 销售 了 。 例 如 ， 被 正式 纳入 主线 2.4 内 核 版 本 之 前 ， 版 本 3 的 Reiserfs 
日 志文 件 服 务 器 已 经 随 着 某 些 Linux 发 布 版 销售 很 长 时 间 了 。 


上 面 的 论述 所 要 说 明 的 就 是 由 不 同 Linux 发 行 公司 提供 的 系统 〈 往 














往 ) 存在 《细微 的 ) 差别 。 这 使 人 在 一 定 程度 上 不 茶 想 起 在 UNIX 发 展 
之 初 ， 其 实现 方面 所 存在 的 各 种 差异 。 为 了 保证 不 同 Linux 发 布 版 之 间 
的 兼容 性 ，LSB 付出 了 不 懈 的 努力 。 为 了 达成 上 述 愿 望 ， 

LSB (http://www.linux-foundation.org/en/LSB〉 开 发 并 推广 了 一 套 Linux 
系统 标准 ， 其 主要 目的 是 用 来 确保 让 二 进 制 应 用 程序 〈( 即 编译 过 的 程 
序 ) 能 够 在 任何 符合 LSB 规 范 的 系统 上 运行 。 








由 LSB 所 推广 的 二 进 制 可 移植 性 与 POSIX 所 推广 的 源 
码 可 移植 性 可 谓 “ 一 时 瑜 亮 "。 源 码 可 移植 性 是 指 以 C 语 言 编 
写 的 程序 可 在 任何 符合 POSIX 规 范 的 系统 上 编译 并 运行 。 
而 二 进 制 可 移植 性 则 要 苛刻 得 多 ， 通 常 ， 只 要 硬件 平台 不 
一 ， 便 无 法 实现 。 二 进 制 可 移植 性 允许 我 们 在 某 特 定 平台 
上 将 程序 一 次 编译 “成 型 ”， 然 后 ， 便 可 在 任何 符合 LSB 标 
准 的 Linux 实 现 上 运行 该 编译 好 的 程序 ， 当 然 ， 符 合 LSB 标 
准 的 Linux 实 现 必须 运行 在 相同 的 硬件 平台 之 上 。 对 于 在 
Linux 上 开发 应 用 程序 的 独立 软件 开发 商 来 说 ， 二 进 制 可 移 
植 性 是 其 生存 的 基本 前 提 。 





1.4 总 结 

1969 年 ， 贝 尔 实验 室 (AT&T 的 一 个 部 门 ) 的 Ken Thompson 在 
Digital PDP-7 小 型 机 上 首次 实现 了 UNIX 系 统 。 对 该 操作 系统 而 言 ， 无 论 
是 理念 还 是 其 双关 语 的 称谓 都 来 源 于 早期 的 MULTICS 系 统 。 时 至 1973 
年 ，UNIX 已 经 被 移植 到 了 PDP-11 小 型 机 上 ， 并 以 C 语 言 对 其 进行 了 重 
写 ，C 编 程 语 言 是 由 贝尔 实验 室 的 Dennis Ritchie 设 计 并 实现 的 。 因 为 法 
律 禁 止 AT&T 销 售 UNIX， 于 是 ， 在 象征 性 地 收取 了 一 定 的 费用 之 后 ， 
AT&T 索 性 将 UNIX 系 统 散 布 进 了 大 学 。 这 其 中 便 包 括 了 源码 ， 因 为 这 
一 廉价 操作 系统 的 代码 可 供 大 学 计算 机 系 的 师 生 研究 和 修改 ， 故 而 这 一 
操作 系统 在 校园 内 广 受 欢迎 。 


在 UNIX 系 统 的 开发 方面 ， 加 州 大 学 伯克利 分 校 扮 演 了 “关键 先 
生 ”。 在 该 校 ，Ken Thompson 及 一 干 研 究 生 又 对 这 一 操作 系统 进行 了 “ 精 
雕 细 琢 ”。 到 了 1979 年 ， 这 所 大 学 发 布 了 属于 上 自己 的 UNIX 发 布 版 一 一 
era 为 流传 ， 并 在 日 后 成 为 某 些 商业 UNIX 实 
现 2 基石 。 


在 此 期 间 ， 随 着 AT&T 不 再 对 电信 市 场 形 成 巷 断 ， 该 公司 被 获准 销 
售 UNIX。 这 也 就 众生 出 了 另 一 种 UNIX 的 变种 一 一 System V， 日 后 ， 它 
也 成 为 了 某 些 商业 UNIX 实 现 的 基石 。 


有 两 股 不 同 的 潮流 引领 着 (GNU) Linux 的 开发 。 其 中 之 一 便 是 由 
Richard Stallman 所 创 的 GNU 项 目 。20 世 纪 80 年 代 末 ，GNU 项 目 己 经 开 
发 出 了 一 套 几 乎 完备 且 可 以 目 由 分 发 的 UNIX 实 现 ， 但 独 缺 一 颗 能 够 有 
效 运作 的 内 核 。1991 年 ，Linus Torvalds 被 Minix 内 核 〈 由 Andrew 
Tanenbaum 编 号 ) “灵魂 附 体 ”， 于 是 便 开 发 出 了 一 颗 能 够 在 Intel x86-32 
架构 上 正常 运作 的 内 核 。 应 Torvalds 之 邀 ， 许 多 其 他 程序 员 也 加 入 到 了 
改进 内 核 的 行列 中 。 随 着 时 光 的 流逝 ， 在 一 干 程序 员 的 不 懈 努 力 下 ， 
Linux 逐 渐 发 展 壮大 ， 并 被 移植 到 了 多 种 硬件 架构 之 上 。 


20 志 纪 80 年 代 末 ，UNIX 和 C 语 言 的 实现 “百花 齐 放 ， 所 引发 的 可 移 
植 性 问题 迫使 人 们 开展 针对 以 上 两 者 的 标准 化 工作 。1989 年 ， 对 C 语 言 
的 标准 化 工作 完成 〈C89 颁 布 ) ， 在 1999 年 ， 对 C89 这 一 标准 进行 了 修 
订 〈C99 和 颁布 ) 。 在 操作 系统 接口 方面 ， 对 其 标准 化 的 “第 一 次 吃 螃 
蟹 ” 便 众生 出 了 POSIX.1，1988 年 和 1990 年 ，IEEE 和 ISO 先 后 将 POSIX.1 














采纳 为 标准 。20 世 纪 90 年 代 ， 人 们 又 开始 酝酿 一 个 面 括 各 版 SUS 在 内 的 
更 为 详尽 的 标准 。2001 年 ， 合 二 为 一 的 POSIX 1003.1-2001 和 SUSv3 标 准 
颁布 。 该 标准 合并 并 扩展 了 先前 的 POSIX 标 准 和 各 版 SUS。2008 年 ， 人 
们 完成 了 对 该 标准 的 修订 改动 幅度 不 算 太 大 ) 工作 ， 于 是 ， 合 二 为 一 
的 POSIX 1003.1-2008 和 SUSv4 标 准 浮 出 水 面 。 


与 大 多 数 商 业 UNIX 实 现 不 同 ，Linux 的 开发 与 发 行 可 谓 “ 风 马 牛 不 
FH”. 因此， 并 无 单一 的 “官方 ”Linux 发 布 版 。 各 家 Linux 发 行商 所 提供 
的 只 是 当前 稳定 内 核 的 快照 ， 最 多 针对 其 打 几 个 补丁 。LSB 开 发 并 推广 
了 一 套 Linux 系 统 标准 ， 其 主要 目的 是 用 来 保证 二 进 制 应 用 程序 〈 即 编 
译 过 的 过 程 ) 在 不 同 Linux 发 布 版 之 间 的 兼容 性 ， 以 便 编 译 过 的 应 用 程 
序 能 够 运行 在 任何 符合 LSB 规 范 的 操作 系统 上 ， 但 前 提 是 操作 系统 所 运 
行 的 硬件 平台 必须 相同 。 


进 阶 阅读 


欲 知 更 多 有 关 UNIX 历 史 及 标准 的 信息 ， 请 参阅 [Ritchie,1984]、 
[McKusick et al.,1996]、[MCKusick & Neville-Neil, 2005]. [Libes & 
Ressler,1989]、[Garfinkel et al., 2003]、[Stevens & Rago, 2005]、[Stevens， 
1999]、[Quartermann & Wilhelm, 1993]、[Goodheart & Cox, 1994] 以 及 
[McKusick, 1999]. 


[Salus, 1994] 是 一 本 详尽 的 UNIX 编 年 史 ， 本 章 开 篇 的 许多 内 容 均 取 
目 该 书 。[Salus, 2008] 回 顾 了 Linux 和 其 他 自由 软件 项 目的 简 史 。 此 外 ， 
与 UNIX 历 史 相 关 的 许多 细节 都 可 以 在 Ronda Hauben 所 车 的 在 线 书 
籍 History of UNIX 中 找到 。 
在 http://www.dei.isep.ipp.pt/~acc/docs/unix.html 上 ， 可 下 载 到 该 书 。 
在 http://www.levenez.com/unix/ 上 ， 刊 载 了 一 张 非 常 详尽 的 、 显 示 了 各 种 
UNIX 实 现 版 本 变迁 的 时 间 表 。 


[Josey, 2004] 概 括 了 UNIX 系 统 和 SUSv3 发 展 的 历史 ， 在 指导 读者 如 
何 使 用 SUSv3 规 范 的 同时 ， 还 提供 了 SUSv3 所 含 接 口 的 汇总 表 ， 除 此 之 
外 ， 还 给 出 了 从 SUSv2 和 C89 升 级 到 SUSv3 和 C99 的 迁移 指南 。 








除了 提供 软件 和 文档 之 外 ，GNU Web 站 点 (http://www.gnu.org/) 
还 刊载 了 许多 与 自由 软件 项 目 有 关 的 哲学 性 文章 。[Williams, 2002] 是 一 
本 Richard Stallman 的 个 人 传记 。 


在 [Torvalds & Diamond, 2001] 中 ，Torvalds 提 供 了 自己 用 作 Linux 开 
发 的 私人 账户 。 


第 2 章 ”基本 概念 


本 章 则 在 同 Linux 和 UNIX“ 生 手 们 介绍 一 系列 与 Linux 系 统 编程 有 关 
的 概念 。 


2.1 操作 系统 的 核心 一 一 内 核 

术语 “操作 系统 ”通常 包含 两 种 不 同 含义 。 

1， 指 完整 的 软件 包 ， 这 包括 用 来 管理 计算 机 资源 的 核心 层 软件 ， 
以 及 附带 的 所 有 标准 软件 工具 ， 诸 如 命令 行 解释 器 、 图 形 用 户 界面 、 文 
件 操作 工具 和 文本 编辑 器 等 。 


2. 在 更 狭义 的 范围 内 ， 有 是 指 管理 和 分 配 计算 机 资源 《〈 即 CPU、 
RAM 和 设备 ) 的 核心 层 软 件 。 


术语 “内核 * 通 党 是 第 二 种 含义 ， 本 书 中 的 “操作 系统 "一 词 也 是 这 层 
ae 


Ells 





虽然 在 没有 内 核 的 情况 下 ， 计 算 机 也 能 运行 程序 ， 但 有 了 内 核 会 极 
大 简化 其 他 程序 的 编写 和 使 用 ， 令 程序 员 “ 功 力 ” 大 进 、 游 力 有 余 。 这 要 
归功 于 内 核 为 管理 计算 机 的 有 限 资 源 所 提供 的 软件 层 。 





一 般 情况 下 ，Linux 内 核 可 执行 文件 采用 /bootw/vmlinuz 
或 与 之 类 似 的 路 径 名 。 而 文件 名 的 来 历 也 烦 有 渊源 。 早 期 
的 UNIX 实 现 称 其 内 核 为 UNIX。 在 后 续 实 现 了 虚拟 内 存 机 
制 的 UNIX 系 统 中 ， 其 内 核 名 称 变更 为 vmunix。 对 Linux 来 
说 ， 文 件 名 称 中 的 系统 名 需要 调整 ， 而 以 “z” 蔡 换 “]linux” 末 
尾 的 “x”， 意 在 表明 内 核 是 经 过 压缩 的 可 执行 文件 。 


内 核 的 职责 
内 核 所 能 执行 的 主要 任务 如 下 所 示 。 
。 进程 调度 : 计算 机 内 均 配 备 有 一 个 或 多 个 CPU〔 中 央 处 理 单元 ， 


以 执行 程序 指令 。 与 其 他 UNIX 系 统一 样 ，Linux 属 于 抢占 式 多 任务 
操作 系统 。“ 多 任务 ” 意 指 多 个 进程 〈 即 运行 中 的 程序 ) 可 同时 驻 留 
于 内 存 ， 且 每 个 进程 都 能 获得 对 CPU 的 使 用 权 。 “抢占 ” 则 是 指 一 组 
规则 。 这 组 规则 控制 着 哪些 进程 获得 对 CPU 的 使 用 ， 以 及 每 个 进程 
0 
决定 。 

内 存 管理 : 以 一 二 十 年 前 的 标准 来 看 ， 如 今 计 算 机 的 内 存 容量 可 谓 
相当 可 观 ， 但 软件 的 规模 也 保持 了 相应 地 增长 ， 故 而 物理 内 存 
CRAM) 仍然 属于 有 限 资 源 ， 内 核 必 须 以 公平 、 高 效 地 方式 在 进 
程 间 共 至 这 一 资源 。 与 大 多 数 现代 操作 系统 一 样 ，Linux 也 采用 了 
EMAR EELE] (6.4) ， 这 项 技术 主要 县 有 以 下 两 方面 的 优 


o 进程 与 进程 之 间 、 进 程 与 内 核 之 间 彼 此 隔离 ， 因 此 一 个 进程 无 
法 读 取 或 修改 内 核 或 其 他 进程 的 内 存 内 容 。 
o 只 需 将 进程 的 一 部 分 保持 在 内 存 中 ， 这 不 但 降低 了 每 个 进程 对 

内 存 的 需求 量 ， 而 且 还 能 在 RAM 中 同时 加 载 更 多 的 进程 。 这 
也 大 幅 提 升 了 如 下 事件 的 发 生 概率 ， 在 任 一 时 刻 ，CPU 都 有 至 
少 一 个 进程 可 以 执行 ， 从 而 使 得 对 CPU 资源 的 利用 更 加 充分 。 

提供 了 文件 系统 内 核 在 磁盘 之 上 提供 有 文件 系统 ， 人 允许 对 文件 执 

行 创 建 、 获 取 、 更 新 以 及 删除 等 操作 。 

创建 和 终止 进程 : 内 核 可 将 新 程序 载 入 内 存 ， 为 其 提供 运行 所 需 的 

资源 《比如 ，CPU、 内 存 以 及 对 文件 的 访问 等 ) 。 这 样 一 个 运行 中 

的 程序 我 们 称 之 为 “进程 ?>。 一 旦 进程 执行 完毕 ， 内 核 还 要 确保 释放 

其 占用 资源 ， 以 供 后 续 程序 重新 使 用 。 

对 设备 的 访问 : 计算 机 外 接 设 备 〈 鼠 标 、 键 盘 、 磁 盘 和 磁带 驱动 器 

等 ) 可 实现 计算 机 与 外 部 世界 的 通信 ， 这 一 通信 机 制 包括 输入 、 输 

出 或 是 两 者 兼 而 有 之 。 内 核 既 为 程序 访问 设备 提供 了 简化 版 的 标准 

接口 ， 同 时 还 要 仲裁 多 个 进程 对 每 一 个 设备 的 访问 。 

联网 : 内 核 以 用 户 进程 的 名 义 收 发 网 络 消 息 〈 数 据 包 ) 。 该 任务 包 

括 将 网 络 数据 包 路 由 至 目标 系统 。 

提供 系统 调用 应 用 编程 接口 CAPI : 进程 可 利用 内 核 入 口 点 (也 

称 为 系统 调用 ) 请 求 内 核 去 执行 各 种 任务 。Linux 系 统 调用 API 是 本 

书 的 主题 。3.1 节 会 详细 描述 进程 在 执行 系统 调用 时 所 经 历 的 步 


又。 


除了 上 述 特性 外 ， 一 般 而 言 ， 诸 如 Linux 之 类 的 多 用 户 操作 系统 会 
为 每 个 用 户 营 造 一 种 抽象 : 虚拟 私有 计算 机 Cvirtual private 














computer) 。 这 就 是 说 ， 每 个 用 户 都 可 以 登录 进入 系统 ， 独 立 操 作 ， 而 
与 其 他 用 户 大 致 无 干 。 例 如 ， 每 个 用 户 都 有 属于 自己 的 磁盘 存储 空间 

(ERS) 。 再 者 ， 用 户 能 够 运行 程序 ， 而 每 一 程序 都 能 从 CPU 资源 

中 “分 得 一 杯 北 >?， 运 转 于 自 有 的 虚拟 地 址 空间 中 。 而 且 这 些 程序 还 能 独 
并 访问 设备 ， 并 通过 网 络 传递 信息 。 内 核 负责 解决 (多 进程 ) 访问 人 硬件 
资源 时 可 能 引发 的 冲突 ， 用户 和 进程 对 此 则 往往 一 无 所 知 。 


内 核 态 和 用 户 态 


现代 处 理 器 架构 一 般 允 许 CPU 人 至 少 在 两 种 不 同 状 态 下 运行 ， 即 : 用 
户 态 和 核心 态 (有 时 也 称 之 为 监管 态 supervisor mode) 。 执 行 硬件 指令 
可 使 CPU 在 两 种 状态 间 来 回 切 换 。 与 之 对 应 ， 可 将 虚拟 内 存 区 域 划分 
(标记 〉 为 用 户 空间 部 分 或 内 核 空 间 部 分 。 在 用 户 态 下 运行 时 ，CPU 只 
能 访问 被 标记 为 用 户 空间 的 内 存 ， 试 图 访问 属于 内 核 空间 的 内 存 会 引发 
硬件 异常 。 当 运行 于 核心 态 时 ，CPU 既 能 访问 用 户 空间 内 存 ， 也 能 访问 
内 核 空 间 内 存 。 


仅 当 处 理 器 在 核心 态 运行 时 ， 才 能 执行 茶 些 特定 操作 。 这 样 的 例子 
包括 : 执行 宕 机 hald 指令 去 关闭 系统 ， 访 问 内 存 管理 硬件 ， 以 及 设 
备 IO 操作 的 初始 化 等 。 实 现 者 们 利用 这 一 便 件 设计 ， 将 操作 系统 置 于 
内 核 空间 。 这 确保 了 用 户 进程 既 不 能 访问 内 核 指 令 和 数据 结构 ， 也 无 法 
执行 不 利于 系统 运行 的 操作 。 


以 进程 及 内 核 视 角 检 视 系 统 


在 完成 诸多 日 党 编程 任务 时 ， 程 序 员 们 习惯 于 以 面 同 进 程 
(process-oriented) 的 思维 方式 来 考虑 编程 问题 。 然 而 ， 在 研究 本 书后 
续 所 涵盖 的 各 种 主题 时 ， 读 者 有 必要 转换 视角 ， 站 在 内 核 的 角度 上 来 看 
i Ue Os 0 0 ere 
视 系统 。 


一 个 运行 系统 通常 会 有 多 个 进程 并 行 其 中 。 对 进程 来 说 ， 许 多 事件 
的 发生 都 无 法 预期 。 执 行 中 的 进程 不 清楚 目 己 对 CPU 的 占用 何 时 “到 
期 ”， 系 统 随 之 又 会 调度 哪个 进程 来 使 用 CPU《〈 以 及 以 何 种 顺序 来 调 
BE) ， 也 不 知道 目 己 何 时 会 再 次 获得 对 CPU 的 使 用 。 信 和 号 的 传递 和 进程 
间 通 信 事 件 的 触发 由 内 核 统一 协调 ， 对 进程 而 言 ， 随 时 可 能 发 生 。 诸 如 
此 类 ， 进 程 都 一 无 所 知 。 进 程 不 清楚 上 自己 在 RAM 中 的 位 置 。 或 者 换 种 
更 通用 的 说 法 ， 进 程 内 存 空间 的 菜 块 特定 部 分 如 今 到 后 是 驻 留 在 内 存 中 


























还 是 被 保存 在 交换 空间 磁盘 空间 中 的 保留 区 域 ， 作 为 计算 机 RAM 的 
补充 ) 里 ， 进 程 本 里 并 不 知晓 。 与 之 类 似 ， 进 程 也 闸 不 清 自己 所 访问 的 
文件 < 居于 ?磁盘 驱动 器 的 何 处 ， 只 是 通过 名 称 来 引用 文件 和 而已。 进程 的 
运作 方式 堪 称 “与 世 隔绝 ”一 一 进程 间 役 此 不 能 直接 通信 。 进 程 本 身 无 法 
创建 出 新 进程 ， 哪 但 “自行 了 断 ?” 都 不 行 。 最 后 还 有 一 点 ， 进 程 也 不 能 与 
计算 机 外 接 的 输入 输出 设备 直接 通信 。 


相形 之 下 ， 内 核 则 是 运行 系统 的 中 枢 所 在 ， 对 于 系统 的 一 切 无 所 不 
知 、 无 所 不 能 ， 为 系统 上 所 有 进程 的 运行 提供 便利 。 由 哪个 进程 来 接 掌 
对 CPU 的 使 用 ， 何 时 “接任 “ 任 期? 多久， 都 由 内 核资 了 算 。 在 内 核 
维护 的 数据 结构 中 ， 包 含 了 与 所 有 正在 运行 的 进程 有 关 的 信息 。 随 着 进 
程 的 创建 、 状 态 发 生变 化 或 者 终结 ， 内 核 会 及 时 更 新 这 些 数 据 结构 。 内 
核 所 维护 的 底层 数据 结构 可 将 程序 使 用 的 文件 名 转换 为 磁盘 的 物理 位 
置 。 此 外 ， 每 个 进程 的 虚拟 内 存 与 计算 机 物理 内 存 及 磁盘 交换 区 之 间 的 
映射 关系 ， 也 在 内 核 维护 的 数据 结构 之 列 。 进 程 间 的 所 有 通信 都 要 通过 
内 核 提 供 的 通信 机 制 来 完成 。 啊 应 进程 发 出 的 请 求 ， 内 核 会 创建 新 的 进 
程 ， 终 结 现 有 进程 。 最 后 ， 由 内 核 〈 特 别 是 设备 驱动 程序 ) 来 执行 与 输 
入 /输出 设备 之 间 的 所 有 直接 通信 ， 按 需 与 用 户 进程 交互 信息 。 


本 书后 续 内 容 中 会 出 现 如 下 措辞 ， 例 如 :“ 蘑 进程 可 创建 男 一 个 进 
程 "、“ 某 进程 可 创建 管道 ”"、“ 某 进程 可 将 数据 写 入 文件 "， 以 及 “调用 
exit0) 以 终止 菜 进 程 "。 清 务必 牢记 ， 以 上 所 有 动作 都 是 由 内 核 来 居中 “ 调 
停 *” 上 面 的 说 法 不 过 是 “ 某 进程 可 以 请 求 内 核 创建 另 一 个 进程 "的 缩 略 
语 ， 以 此 类 推 。 


进 阶 阅读 


涵盖 操作 系统 概念 和 设计 ， 尤 其 是 对 UNIX 操作 系统 加 以 重点 关注 
的 现代 教科 书包 括 : [Tanenbaum, 2007], [Tanenbaum & Woodhull,2006] 
以 及 [Vahalia, 1996]， 最 后 一 本 包含 了 与 虚拟 内 存 架构 有 关 的 详细 内 
容 。[Goodheart & Cox, 1994] 详 细 介 绍 了 System V Release 4. [Maxwell, 
1999] 则 是 有 选择 性 地 针对 Linux 2.2.5 的 部 分 内 核 源 码 进行 了 注释 。 
[Lions, 1996] 对 第 六 版 UNIX 源 码 进 行 了 详尽 图 释 ， 并 一 直 是 研究 UNIX 
操作 系统 内 幕 的 入 门 级 经 典 。[Bovet & Cesati, 2005] 描 述 了 Linux2.6 内 核 
的 实现 。 






































2.2 Shell 


shell 是 一 种 具有 特殊 用 途 的 程序 ， 主 要 用 于 读 取 用 户 输入 的 命令 ， 
并 执行 相应 的 程序 以 啊 应 命令 。 有 时 ， 人 们 也 称 之 为 命令 解释 需 。 


术语 登录 shell (login shell) 是 指 用 户 刚 登录 系统 时 ， 由 系统 创建 ， 
用 以 运行 shell 的 进程 。 尽 管 某 些 操作 系统 将 命令 解释 器 集成 于 内 核 中 ， 
而 对 UNIX 系统 而 言 ，shell 只 是 一 个 用 户 进程 。shell 的 种 类 繁多 ， 登 入 
同一 台 计 算 机 的 不 同 用 户 同 时 可 使 用 不 同 的 shell〈 就 单个 用 户 来 说 ， 情 
况 也 一 样 ) 。 纵 观 UNIX 历 史 ， 出 现 过 以 下 几 种 重要 的 shell。 


e Bourne shell (sh) : 这 款 由 Steve Bourne 编 写 的 shell 历 史 最 为 悠 
久 ， 且 应 用 广泛 ， 曾 是 第 七 版 UINIX 的 标 配 shell。Bourne shell 包 含 
了 在 其 他 shell 中 常见 的 许多 特性 ，LO 重 定 癌 、 管 道 、 文 件 名 生成 
(通配符 ) 、 变 量 、 环 境 变量 处 理 、 命 令 蔡 换 、 后 台 命 令 执行 以 及 
函数 。 对 于 所 有 问世 于 第 七 版 UNIX 之 后 的 实现 而 言 ， 除 了 可 能 提 
供 有 其 他 shell 之 外 ， 都 附带 了 Bourne shell. 
e Cshell (csh) : 由 Bill Joy 于 加 州 大 学 伯克利 分 校 编写 而 成 。 其 命 
名 则 源 于 该 脚本 语言 的 流 控 制 语法 与 C 语 言 有 着 许多 相似 之 处 。C 
shell 当 时 提供 了 若干 极为 实用 的 交互 式 特性 ， 并 不 为 Bourne shell 所 
支持 ， 这 其 中 包括 命令 的 历史 记录 、 命 令 行 编辑 功能 、 任 务 控制 和 
别名 等 。C shell 与 Bourne shell 并 不 兼容 。 尺 管 C shell 曾 是 BSD 系 统 
标 配 的 交互 式 shell， 但 一 般 情 况 下 ， 人 们 还 是 喜欢 针对 Bourne shell 
oe ( 稍 后 介绍 ) ， 以 便 其 能 够 在 所 有 UNIX 实 现 上 移 
Korn shell (ksh) : AT&T 贝 尔 实验 室 的 David Korn 编 写 了 这 球 
shell， 作 为 Bourne shell 的 “继任 者 >。 在 保持 与 Bourne shell 兼 容 的 同 
IN, Korn shell 还 吸收 了 那些 与 C shell 相 类 似 的 交互 式 特性 。 
Bourne again shell (bash) : 这 球 shell 是 GNU 项 目 对 Bourne shell 的 
重新 实现 。Bash 提 供 了 与 C shell 和 Korn shel 所 类 似 的 交互 式 特性 。 
Brian Fox 和 Chet Ramey 是 bash 的 主要 作者 。bash 或 许 是 Linux 上 应 
用 最 为 广泛 的 shell 了 。 在 Linux 上 ，Bourne shell (sh) 其 实 正 是 由 
bash 仿 真 提 供 的 。 

















POSIX.2-1992 基 于 当时 的 Korn shell 版 本 定义 了 一 个 
shell 标 准 。 如 今 ，Korn shell 和 bash 都 符合 POSIX 规 范 ， 但 
两 者 都 提供 了 大 量 对 标准 的 扩展 ， 其 扩展 之 间 存 在 许多 天 
By 
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设计 shell 的 目的 不 仅仅 是 用 于 人 机 交互 ， 对 shell 脚 本 EE shelli 
令 的 文本 文件 ) 进行 解释 也 是 其 用 途 之 一 。 为 实现 这 一 日 的 ， 每 款 shell 
都 内 置 有 许多 通常 与 编程 语言 相关 的 功能 ， 其 中 包括 变量 、 和 循环 和 条 件 
语句 、1/O 命 令 以 及 函数 等 。 


尽管 在 语法 方面 有 所 差异 ， 每 款 shell 执 行 的 任务 都 大 致 相同 。 除 非 
指明 是 某 款 特定 shell 的 操作 ， 否 则 书 中 的 <shell* 都 会 按 所 描述 的 方式 运 
作 。 本 书 绝 大 多 数 需 要 用 到 shell 的 示例 都 会 使 用 bash， 若 无 其 他 说 明 ， 
读者 可 假定 这 些 示例 也 能 以 相同 方式 在 其 他 类 Boume 的 shell 上 运行 。 

















2.3 用户 和 组 

系统 会 对 每 个 用 户 的 身份 做 唯一 标识 ， 用 户 可 隶属 于 多 个 组 。 
用 户 

系统 的 每 个 用 户 都 拥有 唯一 的 登录 名 《用户 名 ) 和 与 之 相对 应 的 整 
数 型 用 户 ID (UID) 。 系统 密码 文件 /etc/passwd 为 每 个 用 户 都 定义 有 一 
ITUR, KRIER 术 两 项 信息 外 ， 该 记录 还 包含 如 下 信息 。 
组 ID: 用 户 所 属 第 一 个 组 的 整数 型 组 ID。 
。 主 目录 : 用 户 登 录 后 所 居于 的 初始 目录 。 
登录 shell: 执行 以 解释 用 户 命令 的 程序 名 称 。 


该 记录 还 能 以 加 密 形 式 保存 用 户 密 码 。 然 而 ， 出 于 安全 考虑 ， 用 户 
密码 往往 存储 于 单独 的 shadow 密 码 文 件 中 ， 仅 供 特权 用 户 了 阅读 。 


组 


出 于 管理 目的 ， 尤 其 是 为 了 控制 对 文件 和 其 他 资源 的 访问 ， 将 多 个 
用 户 分 组 是 非常 实用 的 做 法 。 例 如 ， 某 项 目的 开发 团队 人 员 需 要 共享 同 
一 组 文件 ， 就 可 以 将 他 们 编 为 同一 组 的 成 员 。 在 早期 的 UNIX 实 现 中 ， 
一 个 用 户 只 能 隶属 于 一 个 组 。BSD 率 先 允 许 一 个 用 户 同时 属于 多 个 组 ， 
x 一 理念 后 来 被 其 他 UNIX 实 现 纷纷 效仿 ， 并 最 终 成 为 POSIX.1-1990 标 
Sd 
含 如 下 信息 。 


e HZ: (唯一 的 ) 组 名 称 。 

组 ID (GID) : 与 组 相关 的 整数 型 ID。 

用 户 列表 : 隶属 于 该 组 的 用 户 登录 名 列表 (通过 密 人 码 文 件 记 录 的 
group ID 字段 未 能 标识 出 的 该 组 其 他 成 员 ， 也 在 此 列 ) ， 以 逗号 分 
Ka © 











超级 用 户 


超级 用 户 在 系统 中 享有 特权 。 超 级 用 户 账号 的 用 户 ID 为 0， 通 常 登 
录 名 为 root。 在 一 般 的 UNIX 系 统 上 ， 超 级 用 户 凌驾 于 系统 的 权限 检查 之 


上 。 因 此 ， 无 论 对 文件 施 以 何 种 访问 权限 限制 ， 超 级 用 户 都 可 以 访问 系 
统 中 的 任何 文件 ， 也 能 发 送信 号 干预 系统 运行 的 所 有 用 户 进程 。 系 统管 
理 员 可 以 使 用 超级 用 户 账号 来 执行 各 种 系统 管理 任务 。 








2.4 单 根 目 录 层 级 、 目 录 、 链 接 及 文件 


内 核 维护 着 一 套 单 根 目 录 结 构 ， 以 放置 系统 的 所 有 文件 。( 这 与 微 
软 Windows 之 类 的 操作 系统 形成 了 鲜明 对 照 ，Windows 系 统 的 每 个 磁盘 
设备 都 有 各 上 自 的 目录 层级 。) 这 一 目录 层级 的 根基 就 是 名 为 “/” 的 根 目 
录 。 上 所 有 的 文件 和 目录 都 是 根 目 录 的 “子孙 ”。 图 1-2 所 示 为 这 种 文件 层 
级 结构 的 示例 。 


文件 类 型 

在 文件 系统 内 ， 会 对 文件 类 型 进行 标记 ， 以 表明 其 种 类 。 其 中 一 种 
用 来 表示 普通 数据 文件 ， 人 们 常 称 之 为 “普通 文件 ”或 “ 纯 文本 文件 ”， 以 
示 与 其 他 种 类 的 文件 有 所 区 别 。 其 他 文件 类 型 包括 设备 、 管 道 、 套 接 
字 、 目 录 以 及 符号 链接 。 

术语 “文件 ?常用 来 指 代 任意 类 型 的 文件 ， 不 仅仅 指 普 通 文件 。 
路 径 和 链接 

目录 是 一 种 特殊 类 型 的 文件 ， 内 容 采 用 表格 形式 ， 数 据 项 包括 文件 
名 以 及 对 相应 文件 的 引用 。 这 一 “文件 名 + 引用 ”的 组 合 被 称 为 链接 。 每 


个 文件 都 可 以 有 多 条 链接 ， 因 而 也 可 以 有 多 个 名 称 ， 在 相同 或 不 同 的 目 
录 中 出 现 。 


目录 可 包含 指向 文件 或 其 他 目录 的 链接 。 路 径 间 的 链接 建 并 起 如 图 
2-1 所 示 的 目录 层级 。 
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图 2-1: Linux 单 根 目录 层级 的 一 部 分 
每 个 目录 至 少 包含 两 条 记录 : .和 ..， 前 者 是 指向 目录 自身 的 链接 ， 


后 者 是 指向 其 上 级 目录 一 一 父 目 录 的 链接 。 除 根 目录 外 ， 每 个 目录 者 
有 父 目录 。 对 于 根 目 录 而 言 ，.. 是 指向 根 目录 自身 的 链接 (因此 ，/.. 等 

















类 似 于 普通 链接 ， 符 号 链接 给 文件 起 了 一 个 “ 别 写 (alternative 
name) ”在 目录 列表 中 ， 普 通 链 接 是 内 容 为 “文件 名 + 指针 ”的 一 条 记 
录 ， 而 符号 链接 则 是 经 过 特殊 标记 的 文件 ， 内 容 包 含 了 男 一 文件 的 名 
称 。【〔 换 言 之 ， 一 个 符号 链接 对 应 着 目录 中 内 容 为 “文件 名 + 指针 ”的 一 
条 记录 ， 指 针 指 向 的 文件 内 容 吕 为 另 一 个 文件 名 的 字符 串 。)〉 所 谓 “ 另 一 
文件 ”通常 被 称 为 符号 链接 的 目标 ， 人 们 一 般 会 说 符号 链接 “ 指 问 ”或 “ 引 
用 ”目标 文件 。 在 多 数 情 况 下 ， 只 要 系统 调用 用 到 了 路 径 名 ， 内 核 会 目 
动 解除 〈 换 言 之 ， 按 照 ) 访 路 径 名 中 符号 链接 的 引用 ， 以 符号 链接 所 指 
同 的 文件 名 来 蔡 换 符号 链接 。 奉 符号 链接 的 目标 文件 上 自 喘 也 是 一 个 符号 
链接 ， 那 么 上 述 过 程 会 以 递归 方式 重复 下 去 。 (为 了 应 对 可 能 出 现 的 循 
环 引 用 ， 内 核对 解除 引用 的 次 数 作 了 限制 。) 如 果 符 号 链接 指 同 的 文件 
并 不 存在 ， 那 么 可 将 该 链接 视 为 空 链接 (dangling link) 。 


通常 ， 人 们 会 分 别 使 用 硬 链 接 Chard link) 或 软 链接 (soft link) 这 
样 的 术语 来 指 代 正常 链接 和 符号 链接 。 之 所 以 存在 这 两 种 不 同类 型 的 链 

















接 ， 将 在 第 18 章 做 出 解释 。 
MA 


在 大 多 数 Linux 文 件 系 统 上 ， 文 件 名 最 长 可 达 255 个 字符 。 文 件 名 可 
以 包含 除 “” 和 空 字 符 AO 外 的 所 有 字符 。 但 是 ， 只 建议 使 用 字母 、 数 
FP RAER FRR CO 以 及 连 字 符 (“-”) 。SUSv3 将 这 65 个 字符 
的 集合 [-._a-zA-Z0-9] 称 为 可 移植 文件 名 字符 集 (portable filename 
character set) 。 


对 于 可 移植 文件 名 字符 集 以 外 的 字符 ， 由 于 其 可 能 会 在 shell、 正 风 
表达 式 或 其 他 场景 中 具有 特殊 含义 ， 故 而 应 避免 在 文件 名 中 使 用 。 如 在 
上 述 环境 中 出 现 了 包含 特殊 含义 字符 的 文件 名 ， 则 需要 进行 转 义 ， 即 对 
此 类 字符 进行 特殊 标记 (一 般 会 在 特殊 字符 前 插入 一 个 “*) ， 以 指明 不 
BEDNE SIEEN SNERRE SUM, WEEEK 
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此 外 ， 还 应 避免 以 连 字 符 〈“-”) 作为 文件 名 的 起 始 字符 ， 因 为 一 
且 在 shell 命 令 中 使 用 这 种 文件 名 ， 会 被 误 认 为 命令 行 选项 开关 。 


路 径 名 


路 径 名 是 由 一 系列 文件 名 组 成 的 字符 串 ， 役 此 以 “/” 分 隔 ， 衣 字符 可 
以 为 "”( 非 强制 ) 中。 除却 最 后 一 个 文件 名 外 ， 该 系列 文件 名 均 为 目录 
名 称 〈 或 为 指向 目录 的 符号 链接 ) 。 路 径 名 的 尾部 号 可 标识 任意 类 型 的 
文件 ， 包 括 目录 在 内 。 有 了 时 将 该 字符 串 中 最 后 一 个 “字符 之 前 的 部 分 称 
为 路 径 名 的 目录 部 分 ， 将 其 之 后 的 部 分 称 为 路 径 名 的 文件 部 分 或 基础 部 


分 。 

















路 径 名 应 按 从 左 至 右 的 顺序 阅读 ， 路 径 名 中 每 个 文件 名 之 前 的 部 
分 ， 即 为 该 文件 所 处 目录 。 可 在 路 径 名 中 任意 位 置 后 引入 字符 串 “.”@， 
用 以 指 代 路 径 名 中 当前 位 置 的 父 目 录 。 


路 径 名 描述 了 单 根 目录 层级 下 的 文件 位 置 ， 又 可 分 为 绝对 路 径 名 和 
相对 路 径 名 : 


。 绝对 路 径 名 以 “开始 ， 指 明文 件 相 对 于 根 目 录 的 位 置 。 图 2-1 中 
的 home/mtk/. bashrc、/usrinclude 以 及 /〈 根 路 径 的 路 径 名 ) 都 是 绝 

















对 路 径 名 的 例子 。 

o 相对 路 径 名 定义 了 相对 于 进程 当前 工作 目录 〈 见 下 文 ) 的 文件 位 
置 ， 与 绝对 路 径 名 相 比 ， 相 对 路 径 名 缺少 了 起 始 的 “”。 如 图 2-1 所 
示 ， 在 目录 usr 下 ， 可 使 用 相对 路 径 名 include/sys/types.h 来 引用 文件 
types.h， 在 目录 avr 下 ， 可 使 用 相对 路 径 名 ../mtk/.bashrc 来 访问 文 
件 .bashrc。 


当前 工作 目录 


每 个 进程 都 有 一 个 当前 工作 目录 (有 时 简称 为 进程 工作 目录 或 当前 
HK) 。 这 就 是 单 根 目录 层级 下 进程 的 “当前 位 置 ?， 也 是 进程 解释 相对 
路 径 名 的 参照 点 。 


进程 的 当前 工作 目录 继承 目 其 父 进程 。 对 登录 shell 来 说， 其 初始 当 
前 工作 目录 ， 是 依据 密码 文件 中 该 用 户 记 录 的 主 目录 字段 来 设置 。 可 使 
用 cd 命令 来 改变 shell 的 当前 工作 目录 。 


文件 的 所 有 权 和 权限 


每 个 文件 都 有 一 个 与 之 相关 的 用 户 ID 和 组 ID， 分 别 定义 文件 的 属 主 
和 属 组 。 系 统 根据 文件 的 所 有 权 来 判定 用 户 对 文件 的 访问 权限 。 


为 了 访问 文件 ， 系 统 把 用 户 分 为 3 类 : 文件 的 属 主 (有 了 时， 也 称 为 
文件 的 用 户 ) 、 与 文件 组 〈group) ID 相 匹 配 的 属 组 成 员 用 户 以 及 其 他 
用 户 。 可 为 以 上 3 类 用 户 分 别 设 置 3 种 权限 〈 共 计 9 种 权限 位 ) : 只 允许 
查看 文件 内 容 的 读 权 限 ; 允许 修改 文件 内 容 的 写 权 限 ; 允许 执行 文件 的 
执行 权限 。 这 里 的 文件 要 么 指 程序 ， 要 么 是 交 由 某 种 解释 程序 (通常 指 
shell 的 一 种 ， 但 也 有 例外 ) 处 理 的 脚本 。 


也 可 针对 目录 进行 上 述 权限 设置 ， 但 意义 稍 有 不 同 。 读 权限 允许 列 
出 目录 内 容 《 即 该 目录 下 的 文件 名 ) ， 写 权限 允许 对 目录 内 容 进行 更 改 
(比如 ， 添 加 、 修 改 或 删除 文件 名 ) ， 执 行 《有 时 也 称 为 搜索 ) 权限 允 
许 对 目录 中 的 文件 进行 访问 〈 但 需 受 文件 自身 访问 权限 的 约束 ) 。 







































































2.5 ”文件 IO 模型 


UNIX 系 统 VO 模 型 最 为 显著 的 特性 之 一 是 其 VO 通用 性 概念 。 也 就 是 
说 ， 同 一 套 系 统 调用 (open()、read()、write()、closeO 等 ) 所 执行 的 VO 
操作 ， 可 施 之 于 所 有 文件 类 型 ， 包 括 设 备 文件 在 内 。 应 用 程序 发 起 的 
IO 请 求 ， 内 核 会 将 其 转化 为 相应 的 文件 系统 操作 ， 或 者 设备 驱动 程序 
操作 ， 以 此 来 执行 针对 目标 文件 或 设备 的 IO 操作 。)， 因此 ， 采 用 这 些 
系统 调用 的 程序 能 够 处 理 任何 类 型 的 文件 。 


就 本 质 而 言 ， 内 核 只 提供 一 种 文件 类 型 : 字 市 流 序列 ， 在 处 理 磁盘 
文件 、 磁 盘 或 磁 融 设备 时 ， 可 通过 lseekO 系 统 调用 来 随机 访问 。 


许多 应 用 程序 和 函数 库 都 将 新 行 符 〈 十 进 制 ASCII 码 为 10， 有 时 亦 
称 其 为 换行 ) 视 为 文本 中 一 行 的 结束 和 另 一 行 的 开始 。UNIX 系 统 没有 
读 取 文件 时 如 无 数据 返回 ， 便 会 认定 抵达 文件 末 
毛 。 


文件 描述 符 


VO 系统 调用 使 用 文件 描述 符 一 一 《往往 是 数值 很 小 的 ) 非 负 整数 
来 指 代打 开 的 文件 。 获 取 文 件 描述 符 的 向 用 手法 是 调用 open0， 在 
参数 中 指定 VO 操作 目标 文件 的 路 径 名 。 


通常 ， 由 shell 启 动 的 进程 会 继承 3 个 已 打开 的 文件 描述 符 : 描述 符 0 
为 标准 输入 ， 指 代为 进程 提供 输入 的 文件 ， 擂 述 符 1 为 标准 输出 ， 指 代 
供 进 程 写 入 输出 的 文件 ， 描 述 符 2 为 标准 错误 ， 指 代 供 进程 写 入 错误 消 
息 或 异常 通告 的 文件 。 在 交互 式 shell 或 程序 中 ， 上 述 三 者 一 般 都 指向 终 
端 。 在 stdio 函 数 库 中 ， 这 几 种 描述 符 分 别 与 文件 流 stdin、stdout 和 stderr 
相对 应 。 


stdio ph 2 z= 


Coa RET BS ET FVO ERT, FECES Val FACIE A tn HE Ee RIOR 
数 。 也 将 这 样 一 组 W/O 函数 称 为 stdio 函 数 库 ， 其 中 包括 fopen()、 
fclose()、scanf()、printf()、fgets()、fputs() 等 。stdio 了 水 数位 于 LO 系 统 调 
HÆ Copen(). close(). read(). write0®) 之 上 。 








本 书 假 定 读者 已 经 了 解 了 C 语 言 的 标准 IJO (stdio) K 
数 ， 因 此 也 不 会 介绍 这 方面 的 内 容 。 更 多 与 stdio 函 数 库 有 
关 的 信息 请 参考 [Kernighan & Ritchie, 1988]、[Harbison & 
Steele，2002]、[Plauger、1992] 和 [Stevens & Rago, 2005]。 


2.6 程序 


程序 通常 以 两 种 面目 示人 。 其 一 为 源码 形式 ， 由 使 用 编程 语言 ( 比 
如 ，C 语 言 ) 写成 的 一 系列 语句 组 成 ， 是 人 类 可 以 阅读 的 文本 文件 。 要 
想 执 行程 序 ， 则 需 将 源码 转换 为 第 二 种 形式 一 一 计算 机 可 以 理解 的 二 进 
制 机 器 语言 指令 。《 这 与 脚本 形成 了 鲜明 对 照 ， 脚 本 是 包含 命令 的 文本 
文件 ， 可 以 由 shel 或 其 他 命令 解释 器 之 类 的 程序 直接 处 理 。) 一 般 认 
为 ， 术 语 “ 程 序 ” 的 上 述 两 种 含义 几 近 相同 ， 因 为 经 过 编译 和 链接 处 理 ， 
会 将 源码 转换 为 语义 相同 的 三 进 制 机 强人 码 。 


WE as 

从 stdin 读 取 输 入 ， 加 以 转换 ， 再 将 转换 后 的 数据 输出 到 stdout， 常 
fa IA LIB TA EP Aas, «cat. grep. tr. sort. wc, sed, 
awk 均 在 其 列 。 
命令 行 参 数 


C 语 言 程序 可 以 访问 命令 行 参 数 ， 即 程序 运行 时 在 命令 行 中 输入 的 
内 容 。 要 访问 命令 行 参数 ， 程 序 的 main0) 函 数 需 做 如 下 声明 


int main(int argc, char *argv[]) 


argc 变 量 包 含 命令 行 参数 的 总 个 数 ，argv 指 针 数组 的 成 员 指针 则 逐 
一 指向 每 个 命令 行 参数 字符 串 。 首 个 字符 串 argv[0]， 标 识 程序 名 本 身 。 














2.7 进程 


简 而 言 之 ， 进 程 是 正在 执行 的 程序 实例 。 执 行程 序 时 ， 内 核 会 将 程 
序 代码 载 入 虚拟 内 存 ， 为 程序 变量 分 配 空间 ， 建 立 内 核 记 账 
(bookkeeping) 数据 结构 ， 以 记录 与 进程 有 关 的 各 种 信息 《〈 比 如， 进程 
ID、 用 户 ID、 组 ID 以 及 终止 状态 等 ) 。 


在 内 核 看 来 ， 进 程 是 一 个 个 实体 ， 内 核 必须 在 它们 之 间 共 享 各 种 计 
算 机 资源 。 对 于 像 内 存 这 样 的 受 限 资源 来 说 ， 内 核 一 开始 会 为 进程 分 配 
一 定数 量 的 资源 ， 并 在 进程 的 生命 周期 内 ， 统 筹 该 进程 和 整个 系统 对 资 
源 的 需求 ， 对 这 一 分 配 进行 调整 。 程 序 终止 时 ， 内 核 会 释放 所 有 此 类 资 
源 ， 供 其 他 进程 重新 使 用 。 其 他 资源 (如 CPU、 网 络 带 冤 等 ) 都 属于 可 
再 生 资 源 ， 但 必须 在 所 有 进程 间 平 等 共有 至 。 


进程 的 内 存 布局 
逻辑 上 将 一 个 进程 划分 为 以 下 几 部 分 〈 也 称 为 段 ) 。 


文本 : 程序 的 指令 。 

数据 : 程序 使 用 的 静态 变量 。 

HE: 程序 可 从 该 区 域 动态 分 配额 外 和 内存。 

栈 : 随 函 数 调用 、 返 回 而 增 减 的 一 片 内 存 ， 用 于 为 局 部 变量 和 函数 
调用 链接 信息 分 配 存储 空间 。 


创建 进程 和 执行 程序 


进程 可 使 用 系统 调用 fork(0) 来 创建 一 个 新 进程 。 调 用 forkO 的 进程 被 
称 为 父 进程 ， 新 创建 的 进程 则 被 称 为 子 进程 。 内 核 通 过 对 父 进程 的 复制 
来 创建 子 进程 。 子 进程 从 父 进 程 处 继承 数据 段 、 栈 段 以 及 堆 段 的 副本 
后 ， 可 以 修改 这 些 内 容 ， 不 会 影响 父 进 程 的 “< 原版? 内容。 在 内 存 中 被 
标记 为 只 读 的 程序 文本 段 则 由 父 、 子 进程 共 诗 。) 


然后 ， 子 进程 要 么 去 执行 与 父 进 程 共 至 代码 段 中 的 力 一 组 不 同 孙 
数 ， 或 者 ， 更 为 第 见 的 情况 是 使 用 系统 调用 execve() 去 加 载 并 执行 一 个 
全 新 程序 。execve0 会 销毁 现 有 的 文本 段 、 数 据 段 、 栈 段 及 堆 段 ， 并 根 
据 新 程序 的 代码 ， 创 建新 段 来 将 换 它们 。 














以 execve() 为 基础 ，C 语 言 库 还 提供 了 几 个 相关 函数 ， 接 口 虽 然 略 有 
不 同 ， 但 功能 全 都 相同 。 以 上 所 有 库 函 数 的 名 称 均 以 字符 串 “exec” 打 
头 ， 在 函数 间 差 异 无 关 宏 则 的 场合 ， 本 书 会 用 符号 exec(0 作 为 这 些 库 函 
不 过 ， 请 读者 牢记 ， 实 际 上 根本 不 存在 名 为 execO 的 库 函 





一 般 情 况 下 ， 书 中 会 使 用 “执行 ”一 词 来 指 代 execve0 及 其 衍生 函数 
所 实施 的 操作 。 


进程 ID 和 父 进程 ID 


每 一 进程 都 有 一 个 唯一 的 整数 型 进程 标识 符 (PID) 。 此 外 ， 每 一 
进程 还 具有 一 个 父 进 程 标识 符 (PPID) 属性 ， 用 以 标识 请 求 内 核 创建 自 
己 的 进程 。 


进程 终止 和 终止 状态 


可 使 用 以 下 两 种 方式 之 一 来 终止 一 个 进程 ， 其 一 ， 进 程 可 使 用 
_exit0) 系 统 调用 或 相关 的 exit0 库 函数 ) ， 请 求 退出 ， 其 二 ， 向 进程 伟 
递 信 号 ， 将 其 “ 杀 死 >»。 无 论 以 何 种 方式 退出 ， 进 程 都 会 生成 “终止 状 
态 *， 一 个 非 负 小 整数 ， 可 供 父 进程 的 wait() 系 统 调用 检测 。 在 调用 
_exitO 的 情况 下 ， 进 程 会 指明 自己 的 终止 状态 。 若 由 信号 来 < 杀 死 " 进 
程 ， 则 会 根据 导致 进程 死亡 ”的 信号 类 型 来 设置 进程 的 终止 状态 。 (有 
时 会 将 传递 进 _exit0) 的 参数 称 为 进程 的 < 退出 状态 *， 以 示 与 终止 状态 有 
所 不 同 ， 后 者 要 么 指 传递 给 _exit0 的 参数 值 ， 要 么 表示 “ 杀 死 "进程 的 信 


Fo ) 


根据 惯例 ， 终 止 状 态 为 0 表示 进程 “ 功 成 映 退 *"， 非 0 则 表示 有 错误 发 
生 。 大 多 数 shell 会 将 前 一 执行 程序 的 终止 状态 保存 于 shell 变 量 $? 中 。 


进程 的 用 户 和 组 标识 符 〈 和 凭证 ) 
每 个 进程 都 有 一 组 与 之 相关 的 用 户 ID (UID) 和 组 ID (GID)， 如 下 所 

















>| 





真实 用 户 ID 和 组 ID: 用 来 标识 进程 所 属 的 用 户 和 组 。 新 进程 从 其 
父 进程 处 继承 这 些 ID。 登 录 shell 则 会 从 系统 密码 文件 的 相应 字段 中 
获取 其 真实 用 户 ID 和 组 ID。 


。 有效 用户 ID 和 组 ID: 进程 在 访问 受 保护 资源 《〈 比 如， 文件 和 进程 间 
通信 对 象 ) 时 ， 会 使 用 这 两 个 ID 〈 并 结合 下 述 的 补充 组 ID ) 来 确 
定 访问 权限 。 一 般 情况 下 ， 进 程 的 有 效 ID 与 相应 的 真实 ID 值 相同 。 
正如 即将 讨论 的 那样 ， 改 变 进 程 的 有 效 ID 实 为 一 种 机 制 ， 可 使 进程 
具有 其 他 用 户 或 组 的 权限 。 

补充 组 ID: 用 来 标识 进程 所 属 的 额外 组 。 新 进程 从 其 父 进 程 处 继承 
补充 组 ID。 登 录 shell 则 从 系统 组 文件 中 获取 其 补充 组 ID。 


特权 进程 


在 UNIX 系 统 上 ， 就 传统 意义 而 言 ， 特 权 进 程 是 指 有 效用 户 ID 为 
0 超级 用 户 〉 的 进程 。 通 常 由 内 核 所 施加 的 权限 限制 对 此 类 进程 无 
效 。 与 之 相反 ， 术 语 “ 无 特权 ”( 或 非特 权 )〉 进程 是 指 由 其 他 用 户 运 行 的 
a mee eens 
限 规则 。 


由 某 一 特权 进程 创建 的 进程 ， 也 可 以 是 特权 进程 。 例 如 ， 一 个 由 
root〈 超 级 用 户 ) 发 起 的 登录 shell。 成 为 特权 进程 的 另 一 方法 是 利用 set- 
user-ID 机 制 ， 该 机 制 允 许 某 进程 的 有 效用 户 ID 等 同 于 该 进程 所 执行 程序 
文件 的 用 户 ID。 

能 力 (Capabilities) 

始 于 内 核 2.2，Linux 把 传统 上 赋予 超 级 用 户 的 权限 划分 为 一 组 相互 
独立 的 单元 〈 称 之 为 “能力 ”) 。 每 次 特权 操作 都 与 特定 的 能 力 相 关 ， 仅 
当 进 程 具有 特定 外 ohm, Ai 执行 相应 操作 。 传 统 意 义 上 的 超级 用 户 进 
程 《 有 效用 户 ID 为 0) 则 相应 开启 了 所 有 能 


赋予 茶 进程 部 分 能 力 ， 使 得 其 既 能 够 执行 共 些 特权 级 操作 ， 又 防止 
其 执行 其 他 特权 级 操作 :4 


本 书 第 39 章 会 对 能 力 做 深入 讨论 。 在 本 书后 文中 ， 当 述 及 只 能 由 特 
权 进 程 执 行 的 特殊 操作 时 ， 一 般 都 会 在 括号 中 标明 其 具体 能 力 。 能 力 的 
命名 以 CAP 为 前 级 ， 例 如 ，CAP_KILL。 
init 进 程 

系统 引导 时 ， 内 核 会 创建 一 个 名 为 init 的 特殊 进程 ， 即 “所 有 进程 之 














父 ”， 该 进程 的 相应 程序 文件 为 /sbin/init。 系 统 的 所 有 进程 不 是 由 

init (使 用 frok()，“ 亲 上 自 * 创 建 ， 就 是 由 其 后 代 进 程 创建 。init 进 程 的 进程 
写 总 为 1， 且 总 是 以 超级 用 户 权 限 运行 。 谁 (哪怕 是 超级 用 户 〉 都 不 
能 “ 杀 死 xinit 进 程 ， 只 有 关闭 系统 才能 终止 该 进程 。init 的 主要 任务 是 创 
i Daan 
‘ ] zH aa. ) 


守护 进程 


守护 进程 指 的 是 具有 特殊 用 途 的 进程 ， 系 统 创 建 和 处 理 此 类 进程 的 
方式 与 其 他 进程 相同 ， 但 以 下 特征 是 其 所 独 有 的 : 


。“ 长 生 不 老 ”"。 守 护 进 程 通常 在 系统 引导 时 局 动 ， 直 至 系统 关闭 前 ， 
会 一 直 “ 健 在 ”。 
。 守护 进程 在 后 台 运 行 ， 且 无 控制 终端 供 其 读 取 或 写 入 数据 。 


守护 进程 中 的 例子 有 syslogd (在 系统 日 志 中 记录 消息 ) 和 httpd〈 利 
用 HTTP 分 发 Web 页 面 ) 。 


环境 列表 


每 个 进程 都 有 一 份 环境 列表 ， 即 在 进程 用 户 空间 内 存 中 维护 的 一 组 
环境 变量 。 这 份 列表 的 每 一 元 系 痢 由 一 个 名 称 及 其 相关 值 组 成 。 由 
forkO 创 建 的 新 进程 ， 会 继承 父 进程 的 环境 副本 。 这 也 为 父子 进程 间 通 
信 提 供 了 一 种 机 制 。 当 进程 调用 execO 蔡 换 当 前 正在 运行 的 程序 时 ， 新 
人 
0 以 接收 。 


在 绝 大 多 数 shell 中 ， 可 使 用 export 命 令 来 创建 环境 变量 (C shell 使 
用 setenv 命 令 ) ， 如 下 所 示 : 


$ export MYVAR='Hello world’ 


























本 书 在 展示 交互 式 输入 、 输 出 的 shell 会 话 日 志 时 ， 总 
是 以 黑体 字 来 呈现 输入 文本 。 有 了 时 也 会 在 日 志 中 以 斜体 字 
形式 加 注 ， 以 解释 输入 的 命令 和 产生 的 输出 。 





C 语 言 程 序 可 使 用 外 部 变量 (char **environ) 来 访问 环境 ， 而 库 函 
数 也 人 允许 进程 去 获取 或 修改 自己 环境 中 的 值 。 


环境 变量 的 用 途 多 种 多 样 。 例 如 ，shell 定 义 并 使 用 了 一 系列 变量 ， 
供 shell 执 行 的 脚本 和 程序 访问 。 其 中 包括 : 变量 HOME (明确 定义 了 用 
户 登 录 目 录 的 路 径 名 ) 、 变 量 PATH (指明 了 用 户 输入 命令 后 ，shell 查 
找 与 之 相应 程序 时 所 搜索 的 目录 列表 〉。 


资源 限制 


每 个 进程 都 会 消耗 诸如 打开 文件 、 内 存 以 及 CPU 时 间 之 类 的 资源 。 
使 用 系统 调用 setrlimit0， 进 程 可 为 自己 消耗 的 各 类 资源 设 定 一 个 上 限 。 
此 类 资源 限制 的 每 一 项 均 有 两 个 相关 值 : 软 限制 Csoft limit) 限制 了 进 
程 可 以 消耗 的 资源 总 量 ， 硬 限制 Chard limit) 软 限制 的 调整 上 限 。 非 特 
权 进 程 在 针对 特定 资源 调整 软 限制 值 时 ， 可 将 其 设置 为 0 到 相应 人 硬 限 制 
值 之 间 的 任意 值 ， 但 硬 限制 值 则 只 能 调 低 ， 不 能 调 高 。 


由 forkO 创 建 的 新 进程 ， 会 继承 其 父 进程 对 资源 限制 的 设置 。 


使 用 ulimit 命 令 “〈 在 C shell 中 为 limit) 可 调整 shell 的 资源 限制 。shell 
为 执行 命令 所 创建 的 子 进 程 会 继承 上 述 资源 设置 。 














2.8 内存 映射 


调用 系统 函数 mmapO 的 进程 ， 会 在 其 虚拟 地 址 空间 中 创建 一 个 新 的 
内 存 映射 。 


映射 分 为 两 类 。 


文件 映射 : 将 文件 的 部 分 区 域 映 射 入 调用 进程 的 虚拟 内 存 。 了 映射 一 
旦 完成 ， 对 文件 映射 内 容 的 访问 则 转化 为 对 相应 内 存 区 域 的 字 贡 操 
作 。 了 映射 页 面 会 按 需 自动 从 文件 中 加 载 。 

相映 成 趣 的 是 并 无 文件 与 之 相对 应 的 匿名 映射 ， 其 映射 页 面 的 内 容 
会 被 初始 化 为 0。 


由 某 一 secre WANE fe Vg oa Ts IR = kE, ees 
方式 有 二 : 其 一 是 两 个 进程 都 针对 某 一 文件 的 相同 部 分 加 以 映射 ， 其 二 
是 由 forkO 创 建 的 子 进程 自 / 父 进 程 处 继承 映射 。 i 
的 页 面相 同时 ， 进 程 之 一 对 页 面 内 容 的 改动 是 否 为 其 他 进程 所 见 昵 ? 
取决 于 创建 映射 时 所 传 入 的 标志 参数 。 若 传 入 标志 为 私有 ， 则 某 进 程 对 
映射 内 容 的 修改 对 于 其 他 进程 是 不 可 见 的 ， 而 且 这 些 改动 也 不 会 真 地 落 
J 藻 传 入 标志 为 共享 ， 对 映射 内 容 的 修改 就 会 为 其 他 进程 所 
， 并 且 这 些 修 改 也 会 造成 对 文件 的 改动 。 内 存 映 射 用 途 很 多 ， 其 中 包 
以 可 执行 文件 的 相应 段 来 初始 化 进程 的 文本 段 、 内 存 (内 容 填 充 为 
ore 文件 VO【〔 即 映射 内 存 WO〉 以 及 进程 间 通 信 (通过 共享 映 
) 








2.9 ”静态 库 和 共享 库 


所 谓 目标 库 是 这 样 一 种 文件 : 将 ( 通 第 是 逻辑 相关 的 ) 一 组 函数 代 
码 加 以 编译 ， 并 置 于 一 个 文件 中 ， 供 其 他 应 用 程序 调用 。 这 一 做 法 有 利 
于 程序 的 开发 和 维护 。 现 代 UNIX 系 统 提供 两 种 类 型 的 对 象 库 : 静态 庄 


和 共享 库 。 
静态 库 


静态 库 〈 有 时 ， 也 称 之 为 档案 文件 [archives]) 古 早期 UNIX 系 统 中 
唯一 的 一 种 目标 库 。 本 质 上 说 来 ， 静 态 库 是 对 已 编 详 目标 模块 的 一 种 结 
构 化 整合 。 要 使 用 静态 库 中 的 函数 ， 需 要 在 创建 程序 的 链接 命令 中 指定 
相应 的 库 。 主 程序 会 对 静态 库 中 隶属 于 各 目标 模块 的 不 同 函 数 加 以 引 
用 。 链 接 右 在 解析 了 引用 情况 后 ， 会 从 库 中 抽取 所 需 目 标 模 块 的 副本 ， 
将 其 复制 到 最 终 的 可 执行 文件 中 ， 这 就 是 所 谓 静 态 链 接 。 对 于 所 需 库 内 
的 各 目标 模块 ， 采 用 静态 链接 方式 生成 的 程序 都 存 有 一 份 副本 。 这 会 引 
起 诸多 不 便 。 其 一 ， 在 不 同 的 可 执行 文件 中 ， 可 能 都 存 有 相同 目标 代码 
的 副本 ， 这 是 对 磁 检 空 间 的 浪费 。 同 理 ， 调 用 同一 库 函 数 的 程序 ， 帮 均 
以 静态 链接 方式 生成 ， 且 又 于 同时 加 以 执行 ， 这 会 造成 内 存 浪费 ， 因 为 
每 个 程序 所 调用 的 函数 都 各 有 一 份 副 本 驻 留 在 内 存 中 ， 此 其 二 。 此 外 ， 
如 果 对 库 函 数 进行 了 修改 ， 需 要 重新 加 以 编 泽 、 生 成 新 的 静态 库 ， 而 所 
te ape nn ele noe ee eRe a 


KEJE 
设计 共享 库 的 目的 是 为 了 解决 静态 库 所 存在 的 问题 。 


如 果 将 程序 链接 到 共 孚 库 ， 那 么 链接 器 就 不 会 把 库 中 的 目标 模块 复 
制 到 可 执行 文件 中 ， 而 是 在 可 执行 文件 中 写 入 一 条 记录 ， 以 表明 可 执行 
文件 在 运行 时 需要 使 用 该 共享 库 。 一 旦 在 运行 时 将 可 执行 文件 载 入 内 
存 ， 一 球 名 为 “动态 链接 占 * 的 程序 会 确保 将 可 执行 文件 所 需 的 动态 库 找 
到 ， 并 载 入 内 存 ， 随 后 实施 运行 时 链接 ， 解 析 可 执行 文件 中 的 函数 调 
用 ， 将 其 与 共享 库 中 相应 的 函数 定义 关联 起 来 。 在 运行 时 ， 共 至 库 代 码 
在 内 存 中 只 需 保留 一 份 ， 且 可 供 所 有 运行 中 的 程序 使 用 。 

































































经 过 编译 处 理 的 函数 仅 在 共 译 库 内 保存 一 份 ， 从 而 节约 了 磁盘 空 
间 。 男 外 ， 这 一 设计 还 能 确保 各 类 程序 及 时 使 用 到 函数 的 最 新 版 本 ， 功 
英 大 态 ， 只 需 将 带 有 函数 新 定义 体 的 共享 库 重 新 加 以 编译 即 可 ， 程 序 会 
在 下 次 执行 时 目 动 使 用 新 函数 。 








2.10 ”进程 间 通 信 及 同步 


Linux 系 统 上 运行 有 多 个 进程 ， 其 中 许多 都 是 独立 运行 。 然 而 ， 有 
= kl 以 达成 预期 目的 ， 因 此 彼此 间 需 要 通信 和 同步 机 
制 |。 


读 写 磁盘 文件 中 的 信息 是 进程 间 通 信 的 方法 之 一 。 可 是 ， 对 许多 程 
序 来 说 ， 这 种 方法 既 慢 又 缺乏 灵活 性 。 因 此 ， 像 所 有 现代 UNIX 实 现 那 
样 ，Linux 也 提供 了 丰富 的 进程 间 通 信 CPC) 机 制 ， 如 下 所 示 。 


。 信 号 (signal) ， 用 来 表示 事件 的 发 生 。 

° A R E 和 FIFO， 用 于 在 进程 间 传 
ANOR, 

è o. 供 同 一 台 主 机 或 是 联网 的 不 同 主机 上 所 运行 的 进程 之 间 传 
EHE. 

。 文件 锁 定 ， 为 防止 其 他 进程 读 取 或 更 新 文件 内 容 ， 人 允许 某 进程 对 文 
件 的 部 分 区 域 加 以 锁定 。 

。 消 四 队 列 ， 用 于 在 进程 间 交 换 消 息 〈 数 据 包 ) 。 

e 信号 量 (semaphore) ， 用 来 同步 进程 动作 。 

。 共享 内 存 ， 人 允许 两 个 及 两 个 以 上 进程 共享 一 块 内 存 。 当 某 进 程 改变 
了 共享 内 存 的 内 容 时 ， 其 他 所 有 进程 会 立即 了 解 到 这 一 变化 。 


UNIX 系 统 的 IPC 机 制 种 类 如 此 索 多 ， 有 些 功 能 还 互 有 重 登 ， 部 分 原 
因 是 由 于 各 种 IPC 机 制 是 在 不 同 的 UNIX 实 现 上 演变 而 来 的 ， 需 要 遵循 的 
标准 也 各 不 相同 。 例 如 ， 就 本 质 而 言 ，FIFO 和 UNIX 套 接 字 功能 相同 ， 
允许 同一 系统 上 并 无 关联 的 进程 彼此 交换 数据 。 二 者 之 所 以 并 存 于 现代 
UNIX 系 统 之 中 ， 是 由 于 FIFO 来 自 System V， 而 套 接 字 则 源 于 BSD。 














2.11 5 


尽管 上 一 节 将 信号 视 为 ITPC 的 方法 之 一 ， 但 其 在 其 他 方面 的 广泛 应 
FAME A ad, ALE YAR ATT ib 


人 们 往往 将 信和 号称 为 “软件 中 断 ”。 进 程 收 到 信号 ， 就 意味 着 某 一 事 
件 或 异常 情况 的 发 生 。 信 和 号 的 类 型 很 多 ， 每 一 种 分 别 标识 不 同 的 事件 或 
We ie nie elie 

[以 定义 。 


内 核 、 其 他 进程 《只 要 具有 相应 的 权限 ) 或 进程 目 身 均 可 问 进 程 发 
送信 和 号。 例如， 及 生 下 列 情况 之 一 时 ， 内 核 可 向 进程 发 送信 号 。 


。 用 户 键 入 中 断 字 符 (通常 为 Control-C) 。 

。 进程 的 子 进程 之 一 已 经 终止 。 

。 由 进程 设 定 的 定时 器 (告警 时 钟 ) 已 经 到 期 。 
。 进程 尝试 访问 无 效 的 内 存 地 址 。 


在 shell 中 ， 可 使 用 kil 命 令 问 进程 发 送信 号 。 在 程序 内 部 ， 系 统 调 
用 kill0 可 提供 相同 的 功能 。 


收 到 信和 号 时 ， 进 程 会 根据 信号 采取 如 下 动作 之 一 。 


。 忽略 信号 。 
。 BE SAI”. 


。 先 挂 起 ， 之 后 再 被 专 用 信和 号 唤醒 。 


就 大 多 数 信号 类 型 而 言 ， 程 序 可 选择 不 采取 默认 的 信和 号 动作 ， 而 是 
忽略 信号 《〈 当 信和 号 的 默认 处 理 行为 并 非 忽略 此 信号 时 ， 会 派 上 用 场 ) 或 
者 建立 自己 的 信号 处 理 器 。 信 和 号 处 理 器 是 由 程序 员 定 义 的 函数 ， 会 在 进 
程 收 到 信和 号 时 目 动 调用 ， 根 据 信号 的 产生 条 件 执行 相应 动作 。 


信号 从 产生 直至 送 达 进程 期 间 ， 一 直 处 于 挂 起 状态 。 通 常 ， 系 统 会 
在 接收 进程 下 次 获得 调度 时 ， 将 处 于 排 起 状态 的 信号 同时 送 达 。 如 果 接 
收 进程 正在 运行 ， 则 会 立即 将 信号 送 达 。 然 而 ， 程 序 可 以 将 信号 纳入 所 
谓 “ 信 号 屏蔽 @ 以 求 阻塞 该 信号 。 如 果 产 生 的 信号 处 于 “信号 屏蔽 "之 


















































列 ， 那 么 此 信号 将 一 直 保 持 挂 起 状态 ， 直 至 解除 对 该 信号 的 阻 窒 。〔 亦 
即 从 信号 屏蔽 中 移 除 。) 


2.12 ”线程 


在 现代 UNIX 实 现 中 ， 每 个 进程 都 可 执行 多 个 线程 。 可 将 线程 想象 
为 共 孚 同一 虚拟 内 存 及 一 干 其 他 属性 的 进程 。 每 个 线程 都 会 执行 相同 的 
程序 代码 ， 共 享 同一 数据 区 域 和 扒 。 可 是 ， 每 个 线程 都 拥有 属于 目 己 的 
栈 ， 用 来 装载 本 地 变量 和 函数 调用 链接 信息 。 


线程 之 间 可 通过 共享 的 全 局 变量 进行 通信 。 借 助 于 线程 API 所 提供 
的 条 件 变 量 和 互 斥 机 制 ， 进 程 所 属 的 线程 之 间 得 以 相互 通信 并 同步 行为 
尤其 是 在 对 共享 变量 的 使 用 方面 。 此 外 ， 利 用 2.10 市 所 述 的 IPC 和 
司 步 机 制 ， 线 程 间 也 能 彼此 通信 。 


线程 的 主要 优点 在 于 协同 线程 之 间 的 数据 共享 (通过 全 局 变量 ) 更 
为 容易 ， 而 且 束 条 些 算 法 而 论 ， 以 多 线程 来 实现 比 之 以 多 进程 实现 要 更 
P E ee eer 
3K a HEP o 




















2.13 ”进程 组 和 shell 任 务 控制 


shell 执 行 的 每 个 程序 都 会 在 一 个 新 进程 内 发 起 。 比 如 ，shel 创 建 了 
3 个 进程 来 执行 以 下 管道 命令 〈 在 当前 的 工作 目录 下 ， 根 据 文 件 大 小 对 
文件 进行 排序 并 显示 ) : 


$ 1s -1 | sort -ksn | less 


除 Bourne shell 以 外 ， 几 乎 所 有 的 主流 shell 都 提供 了 一 种 交互 式 特 
性 ， 名 为 任务 控制 。 该 特性 允许 用 户 同时 执行 并 操纵 多 条 命令 或 管道 。 
在 文 持 任务 控制 的 shell 中 ， 会 将 管道 内 的 所 有 进程 置 于 一 个 新 进程 组 或 
任务 中 。 “如果 情 况 很 简单 ，shell 命 令 行 只 包含 一 条 命令 ， 那 么 就 会 创 
建 一 个 只 包含 单个 进程 的 新 进程 组 。) 进程 组 中 的 每 个 进程 都 具有 相同 
的 进程 组 标识 符 〈 以 整数 形式 ) ， 其 实 就 是 进程 组 中 某 个 进程 〈 也 称 为 
进程 组 组 长 process group leader) 的 进程 ID。 


内 核 可 对 进程 组 中 的 所 有 成 员 执行 各 种 动作 ， 尤 其 是 信和 号 的 传递 。 
如 下 节 所 述 ， 支 持 任 务 控 制 的 shell 会 利用 这 一 特性 ， 以 挂 起 或 恢复 执行 
管道 中 的 所 有 进程 。 














2.14 会话、 控制 终端 和 控制 进程 


会 话 指 的 是 一 组 进程 组 〈 任 务 ) 。 会 话 中 的 所 有 进程 都 具有 相同 的 
会 话 标识 符 。 会 话 首 进程 (session leader) 是 指 创建 会 话 的 进程 ， 其 进 
程 ID 会 成 为 会 话 ID。 


使 用 会 话 最 多 的 是 支持 任务 控制 的 shell， 由 shell 创 建 的 所 有 进程 组 
与 shell 目 身 隶 属于 同一 会 话 ，shell 是 此 会 话 的 会 话 首 进程 。 


_， 通 向 ， 会 话 都 会 与 未 个 控制 终端 相关 。 控 制 终端 建立 于 会 话 首 进程 
初次 打开 终端 设备 之 时 。 对 于 由 区 互 式 shell 所 创建 的 会 话 ， 这 恰恰 是 用 
户 的 登录 终端 。 一 个 终端 至 多 只 能 成 为 一 个 会 话 的 控制 终端 。 


打开 控制 终端 会 致使 会 话 首 进 程 成 为 终端 的 控制 进程 。 一 旦 断 开 了 
与 终端 的 连接 《〈 比 如， 关闭 了 终端 窗口 ) ， 控 制 进程 将 会 收 到 SIGHUP 
信号。 


在 任 一 时 点 ， 会 话 中 总 有 一 个 前 台 进 程 组 〈 前 台 任务 ) ， 可 以 从 终 
端 中 读 取 输 入 ， 向 终端 发 送 输出 。 如 果 用 户 在 控制 终端 中 输入 了 “中 
断 ”( 通 常 是 Control-C) 或 “ 挂 起 ”字符 〈 通 常 是 Control-Z) ， 那 么 终端 
驱动 程序 会 发 送信 号 以 终止 或 挂 起 〈 亦 即 停止 ) 前 台 进 程 组 。 一 个 会 话 
可 以 拥有 任意 数量 的 后 台 进 程 组 〈 后 人 台 任 务 ) ， 由 以 “&” 字 符 结尾 的 行 
命令 来 创建 。 


文 持 任 务 控 制 的 shel 提 供 如 下 命令 : 列 出 所 有 任务 ， 回 任务 发 送信 
号 ， 以 及 在 前 后 台 任 务 之 间 来 回 切换 。 


























2.15 {AA vin 


伪 终 端 是 一 对 相互 连接 的 虚拟 设备 ， 也 称 为 主 从 设备 。 在 这 对 设备 
之 间 ， 设 有 一 条 IPC 信 道 ， 可 供 数据 进行 双 回 传递 。 


从 设备 (slave device) 所 提供 的 接口 ， 其 行为 方式 与 终端 相 类 似 ， 
基于 这 一 特点 ， 可 以 将 某 个 为 终端 编写 的 程序 与 从 设备 连接 起 来 ， 然 
后 ， 再 利用 连接 到 主 设备 的 另 一 程序 来 驱动 这 一 “面向 终端 ”的 程序 ， 这 
是 伪 终 端的 一 个 关键 用 途 。 由 “驱动 程序 ”© 所 产生 的 输出 ， 在 经 由 终端 
驱动 程序 的 常规 输入 处 理 例如， 默认 情 况 下 ， 会 把 回 车 符 映射 为 换行 
符 ) 后 ， 会 作为 输入 传递 给 与 从 设备 相连 的 面向 终端 的 程序 。 而 由 面向 
终端 的 程序 向 从 设备 写 入 的 任何 数据 又 作为 “驱动 程序 ”的 输入 来 传递 
(在 执行 完 所 有 常规 的 终端 输入 处 理 后 ) 。 换 句 话说 ,， “驱动 程序 ”所 履 
行 的 功能 ， 在 效果 上 等 同 于 用 户 通 常 在 传统 终端 上 所 执行 的 操作 。 


伪 终 端 广泛 应 用 于 各 种 应 用 领域 ， 最 知名 的 要 数 telnet 和 ssh 之 类 提 
供 网 络 登 录 服 务 的 应 用 ， 以 及 X Window 系 统 所 提供 的 终端 窗口 实现 。 














2.16 日 期 和 时 间 
进程 涉及 两 种 类 型 的 时 间 。 


真实 时 间 : 指 的 是 在 进程 的 生命 期 内 (所 经 历 的 时 间或 时 钟 时 

间 ) ， 以 某 个 标准 时 间 点 (日 历时 间 ) 或 固定 时 间 点 (通常 是 进程 
的 启动 时 间 ) 为 起 点 测量 得 出 的 时 间 。 在 UNIX 系 统 上 ， 日 历时 间 
是 以 国际 协调 时 间 (简称 UTC〉1970 年 1 月 1 日 凌晨 为 起 始点 ， 按 秒 
测量 得 出 的 时 间 ， 再 进行 时 区 调整 (定义 时 区 的 基准 点 为 穿 过 英 格 
兰 格林 威 治 的 经 线 ) 。 这 一 日 期 与 UNIX 系 统 的 生日 很 接近 ， 世 
被 称 为 纪元 (Epoch) 。 

进程 时 间 : 亦 称 为 CPU 时 间 ， 指 的 是 进程 自 启 动 起 来 ， 所 占用 的 

CPU 时 间 总 量 。 可 进一步 将 CPU 时 间 划 分 为 系统 CPU 时 间 和 用 户 

CPU 时 间 。 前 者 是 指 在 内 核 模式 中 ， 执 行 代码 所 花费 的 时 间 〈 比 

如 ， 执 行 系统 调用 ， 或 代表 进程 执行 其 他 的 内 核 服 务 ) 。 后 者 是 指 
0 T E 
H)à 


time 命 令 会 显示 出 真实 时 间 、 系 统 CPU 时 间 ， 以 及 为 执行 管道 中 的 
多 个 进程 而 花费 的 用 户 CPU 时 间 。 














2.17 客户 闫 /服务 器 架构 
本 书 有 多 处 论 及 客户 端 /服务 器 应 用 程序 的 设计 和 实现 。 
客户 端 /服务 器 应 用 由 两 个 组 件 进程 组 成 。 
。 客 户 端 : 向 服务 器 发 送 请 求 消息 ， 请 求 服务 器 执行 某 些 服务 。 
。 服务 器 : 分 析 客户 端的 请 求 ， 执 行 相应 的 动作 ， 然 后 ， 向 客户 端 回 
发 响应 消息 。 
有 时 ， 服 务 器 与 客户 端 之 间 可 能 需要 就 一 次 服务 而 进行 多 次 交互 。 
客户 端 应 用 通常 与 用 户 打交道 ， 而 服务 器 应 用 则 提供 对 某 些 共享 次 
源 的 访问 。 一 般 说 来 ， 都 是 众多 客户 端 进程 与 为 数 不 多 的 一 个 或 几 个 服 
务 器 端 进程 进行 通信 。 
客户 端 和 服务 器 既 可 以 驻 留 于 同一 台 计 算 机 上 ， 也 可 以 位 于 联网 的 
不 同 计算 机 上 。 客 户 端 和 服务 器 使 用 2.10 节 所 讨论 的 IPC 机 制 来 实现 彼 
此 通信 。 
服务 器 可 以 提供 各 种 服务 ， 如 下 所 示 。 
提供 对 数据 库 或 其 他 共享 信息 资源 的 访问 。 


。 提供 对 远程 文件 的 路 网 访问 。 
。 对 东 些 商业 逻辑 进行 封装 。 

















提供 对 共享 硬件 资源 的 访问 《比如 ， 打 印 机 ) o 
提供 WWW 服 务 。 


将 东 项 服务 封装 于 单独 的 服务 器 应 用 中 ， 这 一 做 法 原因 很 多 ， 举 例 
‘Be 





BER: 较 之 于 在 本 地 的 每 台 计 算 上 提供 相同 资源 ， 在 服务 器 应 用 管 
理 之 下 提供 资源 的 一 份 实例 ， 则 要 节约 许多 。 

控制 、 协 调和 安全 : 由 于 资源 〈 尤 其 是 信息 资源 ) 的 统一 存放 ， 服 
务 露 既 可 以 协调 对 资源 的 访问 〈 例 如， 两 个 客户 端 不 能 同时 更 新 同 
一 信息 ) ， 还 可 以 保护 资源 安全 ， 令 其 只 对 特定 客户 端 开 放 。 

© 在 异 构 环 境 中 运行 : 在 网 络 中 ， 客 户 端 和 服务 器 应 用 所 运行 的 硬件 











平台 和 操作 系统 可 以 不 同 。 


2.18 ”实时 性 


实时 性 应 用 程序 是 指 那些 需要 对 输入 做 出 及 时 响应 的 程序 。 此 类 输 
入 往往 来 自 于 外 接 的 传感器 或 某 些 专门 的 输入 设备 ， 而 输出 则 会 去 控制 
外 接 硬 件 。 具 有 实时 性 需求 的 应 用 程序 示例 包括 自动 化 装配 流水 线 、 银 
行 ATM 机 ， 以 及 飞机 导航 系统 等 。 


里 然 许 多 实时 性 应 用 程序 都 要 求 对 输入 做 出 快速 啊 应 ， 但 决定 性 因 
素 却 在 于 要 在 事件 触发 后 的 一 定时 限 内 ， 保 证 啊 应 的 交付 。 


要 提供 实时 响应 ， 特 别 是 在 短 时 间 内 加 以 响应 ， 就 需要 底层 操作 系 
统 的 文 持 。 由 于 实时 响应 的 需求 与 多 用 户 分 时 操作 系统 的 需求 存在 冲 
突 ， 大 多 数 操作 系统 “天 生 ” 并 不 提供 这 样 的 支持 。 虽 然 已 经 设计 出 不 少 
实时 性 的 UNIX 变 体 ， 但 传统 的 UNIX 实 现 都 不 是 实时 操作 系统 。Linux 
的 实时 性 变 体 也 早已 诞生 ， 而 近期 的 Linux 内 核 正 转向 对 实时 性 应 用 原 
生 而 全 面 的 支持 。 


为 文 持 实 时 性 应 用 ，POSIX.1b 定 义 了 多 个 POSIX.1 扩 展 ， 其 中 包括 
异步 JO、 共 享 内 存 、 内 存 映 冉 文件 、 内 存 锁定 、 实 时 性 时 钟 和 定时 
器 、 备 选调 度 策略 、 实 时 性 信和 号、 消息 队列 ， 以 及 信号 量 等 。 虽 然 这 些 
扩展 还 不 具备 严格 意义 上 的 “实时 性 ?， 但 当今 的 大 多 数 UNIX 实 现 都 文 
oo 的 全 部 或 部 分 扩 展 (本 书 将 讲解 Linux 所 支持 的 POSIX.1b 特 
TEX 














本 书 会 以 术语 “真实 时 间 Creal time) ”来 指 代 日 历时 间 
或 经 历时 间 的 概念 ， 而 术语 “实时 性 〈realtime) ” 则 是 指 操 
作 系 统 或 应 用 程序 具备 本 节 所 述 的 啊 应 能 


2.19 /proc 文 件 系统 


类 似 于 其 他 的 几 种 UNIX 实 现 ，Linux 也 提供 了 /proc 文 件 系统 ， 由 一 
组 目录 和 文件 组 成 ， 装 配 (mount) 于 /proc 目 录 下 。 


/proc 文 件 系统 是 一 种 虚拟 文件 系统 ， 以 文件 系统 目录 和 文件 形式 ， 
提供 一 个 指向 内 核 数据 结构 的 接口 。 这 为 查看 和 改变 各 种 系统 属性 开启 
了 方便 之 门 。 此 外 ， 还 能 通过 一 组 以 /prowPID 形 式 命名 的 目录 (PID 即 
进程 ID ) 查看 系统 中 运行 各 进程 的 相关 信息 。 


通常 ，/proc 目 录 下 的 文件 内 容 都 采取 人 类 可 读 的 文本 形式 ，shell 脚 
本 也 能 对 其 进行 解析 。 程 序 可 以 打开 、 读 取 和 写 入 /proc 目 录 下 的 既定 文 
件 。 大 多 数 情 况 下 ， 只 有 特权 级 进程 才能 修改 /proc 目 录 下 的 文件 内 容 。 


本 书 在 讲解 各 种 Linux 编 程 接口 的 同时 ， 也 会 对 相关 的 /proc 文 件 进 
行 介绍 。12.1 节 将 就 该 文件 系统 的 总 体 信 息 做 进一步 介绍 。 尚 无 任何 标 
Gr 
Linux 





2.20 Ze 


本 章 纵 览 了 一 系列 与 Linux 系 统 编 程 相关 的 基本 概念 。 对 于 Linux 或 
UNIX“ 生 手 ” 而 言 ， 理 解 这 些 基本 概念 将 为 学 习 系 统 编程 提供 足够 的 背 


景 知 识 。 








OFFRE: 及 该 文件 所 属 数据 块 存储 的 内 容 。 


DEPRE: 此 处 “文件 ”的 含义 中 包括 了 目录 一 一 如 前 文 所 述 :“ 目 录 是 
一 种 特殊 类 型 的 文件 ”。 


OFRE: 即 最 后 一 个 文件 名 。 

由 译 者 注 : 需 以 “/” 分 隔 。 

OFE: 即 一 组 进程 希望 阻塞 的 信和 号。 
人 


(CO 译 者 注 : 即 本 初子 午 线 。 


PIR ”系统 编程 概念 


了 解 本 章 所 涵盖 的 各 个 主题 是 掌握 系统 编程 的 先决 条 件 。 本 章 首先 
会 对 系统 调用 加 以 介绍 ， 并 详 述 系统 调用 执行 期 间 所 发 生 的 每 个 步骤 。 
接 下 来 ， 会 讨论 库 函 数 及 其 与 系统 调用 之 间 的 差别 ， 并 结合 这 一 差异 ， 
Xf (GNU) C 语 言 函 数 库 进 行 描述 。 


无 论 何 时 ， 只 要 执行 了 系统 调用 或 者 库 图 数 ， 检 查 调用 的 返回 状态 
以 确定 调用 是 人 否 成 功 ， 这 是 一 条 编程 铁 律 。 本 章 不 但 讲述 了 如 何 执行 上 
述 检查 ， 还 会 介绍 一 组 函数 ， 本 书刊 载 的 编程 示例 大 多 都 通过 调用 它们 
来 诊断 系统 调用 或 库 函数 的 错误 。 


本 章 的 最 后 会 探讨 与 可 移植 性 编程 相关 的 各 种 问题 ， 尤 其 会 关注 对 
特性 测试 宏 以 及 SUSV3 中 定义 的 标准 系统 数据 类 型 的 运用 。 








3.1 系统 调用 


系统 调用 是 受 控 的 内 核 入 口 ， 借 助 于 这 一 机 制 ， 进 程 可 以 请 求 内 核 
以 自己 的 名 义 去 执行 某 些 动作 。 以 应 用 程序 编程 接口 (API 的 形式 ， 
内 核 提 供 有 一 系列 服务 供 程序 访问 。 这 包括 创建 新 进程 、 执 行 JO， 以 
及 为 进程 间 通 信 创 建 管道 等 。 (手册 页 syscalls(2) 列 出 了 Linux 系 统 调 
用 。) 


在 深入 系统 调用 的 运作 方式 之 前 ， 务 必 关 注 以 下 几 扩 。 


。 系统 调用 将 处 理 器 从 用 户 态 切换 到 核心 态 ， 以 便 CPU 访 问 受 到 保护 
的 内 核 内 存 。 

。 系统 调用 的 组 成 是 固定 的 ， 每 个 系统 调用 都 由 一 个 唯一 的 数字 来 标 
E E E 
Ho ) 

。 每 个 系统 调用 可 辅 之 以 一 套 参 数 ， 对 用 户 空间 《 亦 即 进程 的 虚拟 地 
址 空间 ) 与 内 核 空 间 之 间 《 相 互 ) 传递 的 信息 加 以 规范 。 


从 编程 角度 来 看 ， 系 统 调用 与 C 语 言 函 数 的 调用 很 相似 。 然 而 ， 在 
执行 系统 调用 时 ， 其 幕后 会 历经 诸多 步骤 。 为 说 明 这 点 ， 下 面 以 一 个 具 
nee x86-32 为 例 ， 按 事件 发 生 的 顺序 对 这 些 步骤 加 以 分 


1. 应 用 程序 通过 调用 C 语 言 函 数 库 中 的 外 壳 (wrapper) 函数 ， 来 
发 起 系统 调用 。 


2. 对 系统 调用 中 断 处 理 例 程 〈 稍 后 介绍 ) 来 说 ， 外 学 函数 必须 保 
证 所 有 的 系统 调用 参数 可 用 。 通 过 堆栈 ， 这 些 参数 传 入 外 壳 函 数 ， 但 内 
核 却 希 望 将 这 些 参 数 置 入 特定 寄存 器 。 因 此 ， 外 壳 函 数 会 将 上 述 参 数 复 
制 到 寄存 堪 。 

3. 由 于 所 有 系统 调用 进入 内 核 的 方式 相同 ， 内 核 需 要 设法 区 分 每 
个 系统 调用 。 为 此 ， 外 过 函数 会 将 系统 调用 编写 复制 到 一 个 特殊 的 CPU 
寄存 器 (%eax) Fo 


4 外壳 函 数 执行 一 条 中 断 机 器 指令 Cint 0x80) ， 引 发 处 理 喜 从 用 











户 态 切 换 到 核心 态 ， 并 执行 系统 中 断 0x80 (十 进 制 数 128) 的 中 断 和 天 量 所 
指 回 的 代码 。 


较 新 的 x86-32 硬 件 平 台 实 现 了 sysenter 指 令 ， 较 之 传统 
的 int 0x80 中 断 指令 ，sysenter 指 令 进 入 内 核 的 速度 更 快 。 
2.6 内 核 及 glibc 2.3.2 以 后 的 版 本 都 文 持 sysenter 指 令 。 


5. 为 啊 应 中 断 0x80， 内 核 会 调用 system_call0 例 程 〈 位 于 汇编 文件 
arch/i386/entry.S F) 来 处 理 这 次 中 断 ， 具 体 如 下 。 


a) 在 内 核 栈 中 保存 寄存 器 值 《参见 6.5 节 ) 。 
b) 审核 系统 调用 编号 的 有 效 性 。 


c) 以 系统 调用 编号 对 存放 所 有 调用 服务 例 程 的 列表 《内核 变量 
sys_call table) 进行 索引 ， 发 现 并 调用 相应 的 系统 调用 服务 例 程 。 知 系 
统 调用 服务 例 程 带 有 参数 ， 那 么 将 首先 检查 参数 的 有 效 性 。 例 如 ， 会 检 
查 地 址 指 问 用 户 空间 的 内 存 位 置 是 否 有 效 。 随 后 ， 该 服务 例 程 会 执行 必 
要 的 任务 ， 这 可 能 涉及 对 特定 参数 中 指定 地 址 处 的 值 进行 修改 ， 以 及 在 
用 户 内 存 和 内 核 内 存 间 传 递 数据 (比如 ， 在 VO 操作 中 )， 。 最 后 ， 该 服 
务 例 程 会 将 结果 状态 返回 给 system_call0) 例 程 。 


d 从 内 核 栈 中 恢复 各 寄存 器 值 ， 并 将 系统 调用 返回 值 置 于 栈 中 。 
e) 返回 至 外 壳 函 数 ， 同 时 将 处 理 器 切换 回 用 户 态 。 
6. 耕 系 统 调用 服务 例 程 的 返回 值 表明 调用 有 误 ， 外 学 函数 会 使 用 


该 值 来 设置 全 局 变量 errmmo (参见 3.4 节 ) 。 然 后 ， 外 壳 函 数 会 返回 到 调 
用 程序 ， 并 同时 返回 一 个 整 型 值 ， 以 表明 系统 调用 是 人 否 成 功 。 











在 Linux 上 ， 系 统 调用 服务 例 程 遵循 的 惯例 是 调用 成 功 


则 返回 非 负 值 。 发 生 错 误 时 ， 例 程 会 对 相应 errno 常 量 取 
反 ， 返 回 一 负 值 。C 语 言 函 数 库 的 外 壳 函 数 随 即 对 其 再 次 取 
R AREE) ， 将 结果 拷贝 至 errno， 同 时 以 -1 作为 外 这 
函数 的 返回 值 返 回 ， 向 调用 程序 表明 有 错误 发 生 。 


上 述 惯例 所 依赖 的 前 提 条 件 是 系统 调用 服务 例 程 ， 知 
调用 成 功 则 不 会 返回 负 值 。 可 是 ， 对 于 少数 例 程 来 说 ， 这 
一 前 提 并 不 成 立 。 一 般 情况 下 ， 这 也 不 会 有 问题 ， 因 为 取 
反 的 ermo 值 范围 不 会 与 调用 成 功 返 回 负 值 的 范围 有 交集 。 
不 过 ， 有 一 种 情况 ， 沿 用 这 个 惯例 确实 会 出 问题 : 系统 调 
用 fcnt0 的 F_GETOWN 操作 ， 会 在 63.3 节 加 以 描述 。 


图 3-1 以 系统 调用 execve() 为 例 ， 展 示 了 上 文 述 及 事件 的 发 生 序 列 。 
在 Linux/x86-32 上 ，execve() 的 系统 调用 号 为 11( ”NR_execve)。 因 此 ， 
在 sys_call_table HÆF, KH 11 包 含 了 该 系统 调用 的 服务 例 程 
sys_execve() 的 地 址 。 (在 Linux 中 ， 系 统 调用 服务 例 程 的 命名 通常 会 采 
取 sys_xyz0 的 形式 ， 其 中 ，xyz0 正 是 所 论 及 的 系统 调用 。 ) 


应 用 程序 (sysdeps/unix/ 
sysv/linux/execve.c) 


execve(path, argv, envp) 





execve(path, 


(arguments: __NR_execve, 
argv, envp); 


path, argv, envp) 









return; 
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系统 调用 服 中 断 处 理 程序 èr 
务 例 程 (arch/x86/kernel/entry_32.S) 
(arch/x86/kernel/ 


process 32.c) system call: 


sys_execve() 


call sys_call_table 


[__NR_execve] 


return error; 





图 3-1: 系统 调用 的 执行 步 又 


右 是 单纯 为 了 掌握 本 书 的 后 续 内 容 ， 这 里 的 论述 的 确 有 些小 题 大 
做 。 但 其 要 点 在 于 即便 对 于 一 个 简单 的 系统 调用 ， 仍 要 完成 相当 多 的 工 
作 ， 因 此 系统 调用 的 开销 虽 小 ， 却 也 不 容 忽视 。 


可 以 以 getppid() 系 统 调用 为 例 ， 研 判 一 下 发 起 系统 调用 
的 开销 一 一 该 系统 调用 只 是 简单 地 返回 调用 进程 的 父 进程 
ID。 在 作者 的 一 台 运 行 Linux 2.6.25 的 x86-32 系 统 上 ， 调 用 
getppid() 一 千 万 次 大 约 需 要 2.2 秒 钟 ， 每 次 调用 大 致 需 要 0.3 
微 秒 。 相 形 之 下 ， 在 同一 系统 上 ， 调 用 某 个 只 返回 整数 的 C 


语言 函数 一 千 万 次 ， 仅 需 0.11 秒 ， 约 为 调用 getppid0O 耗 费时 
间 的 1/20。 当 然 ， 大 多 数 系统 调用 的 开销 都 明显 高 于 
getppid(). 


因此 ， 从 C 语 言 编程 的 角度 来 看 ， 调 用 C 语 言 函 数 库 的 外 壳 
(wrapper) 函数 等 同 于 调用 相应 的 系统 调用 服务 例 程 ， 在 本 书后 续 内 
容 中 ,，“ 调 用 系统 调用 xyz()” 这 类 说 法 就 意味 着 “调用 外 壳 函 数 ， 由 外 过 
函数 去 调用 系统 调用 xyz0?”。 


为 调试 程序 ， 或 是 研究 程序 的 运作 机 制 ， 可 使 用 附录 A 所 介绍 的 
strace 命 令 ， 对 程序 发 起 的 系统 调用 进行 跟踪 。 


更 多 与 Linux 系 统 调用 机 制 有 关 的 信息 请 见 [Love, 2010], [Bovet & 
Cesati, 2005] 以 及 [Maxwell, 1999]。 














3.2” 库 函数 


一 个 库 函 数 是 构成 标准 C 语 言 冰 数 库 的 众多 库 函 数 之 一 。《〈 出 于 简 
化 ， 本 书后 文 提 到 茶具 体 函 数 时 ， 通 常 将 其 称 为 “< 函数 ?而 非 <* 库 函 
BU’. ) 库 函 数 的 用 途 多 种 多 样 ， 可 用 来 执行 以 下 任务 : 打开 文件 、 将 
时 间 转 换 为 可 读 格 式 ， 以 及 进行 字符 串 比 较 等 。 


许多 库 函 数 〈 比 如 ， 字 符 串 操作 函数 ) 不 会 使 用 任何 系统 调用 。 田 
一 方面 ， 还 有 些 库 函数 构建 于 系统 调用 层 之 上 。 例 如 ， 库 函数 fopen0) 惑 
利用 系统 调用 open() 来 执行 打开 文件 的 实际 操作 。 往 往 ， 设 计 库 函数 是 
为 了 提供 比 底 层 系统 调用 更 为 方便 的 调用 接口 。 例 如 ，PprintfO 函 数 可 提 
供 格式 化 输出 和 数据 缓存 功能 ， 而 write0 系 统 调 用 只 能 输出 字 节 块 。 同 
理 ， 与 底层 的 brkO 系 统 调用 相 比 ，malloc0 和 free0 函 数 还 执行 了 各 种 登 
记 管 理工 作 ， 内 存 的 释放 和 分 配 也 因此 而 容易 许多 。 











3.3 MECE E KUE; GNU CE A RAU 
(glibc) 


标准 C 语 言 函 数 库 的 实现 随 UNIX 的 实现 而 异 。GNU C 语 言 函 数 库 
(glibc, http://www.gnu.org /software/libc/〉 是 Linux 上 最 常用 的 实现 。 


最 初 ，Roland McGrath 是 GNU C 语 言 函 数 库 的 主要 开 
发 者 和 维护 者 。 如 今 ，Ulrich Drepper 挑 起 了 这 副 重 担 。 


Linux 同 样 文 持 各 种 其 他 C 语 言 函 数 库 ， 其 中 包括 应 用 
于 骸 入 式 设备 领域 、 受 限 内 存 条 件 下 的 C 语 言 函数 库 。 
uClibc Chttp://www.uclibc.org/) 和 
dietlibc (http://www.fefe.de/dietlibc/) 便 是 其 中 的 两 个 例 
子 。 本 书 的 讨论 范围 仅 限 于 glibc， 因 为 为 Linux 开 发 的 大 多 
数 应 用 程序 都 使 用 该 函数 库 。 


确定 系统 的 glibc 版 本 


有 时 ， 需 要 确定 系统 所 安装 的 glibc 版 本 。 在 shell 中 ， 可 以 直接 运行 
glibc 共 享 库 文件 一 一 将 其 视 为 可 执行 文件 一 一 来 获取 glibc 版 本 。 这 会 输 
出 各 种 文本 信息 ， 其 中 也 包括 了 glibc 的 版 本 号 。 





$ /lib/libc.so.6 
GNU C Library stable release version 2.10.1, by Roland McGrath et al. 
Copyright (C) 2009 Free Software Foundation, Inc. 
This is free software; see the source for copying conditions. 
There is NO warranty; not even for MERCHANTABILITY or FITNESS FOR A 
PARTICULAR PURPOSE. 
Compiled by GNU CC version 4.4.0 20090506 (Red Hat 4.4.0-4). 
Compiled on a Linux >>2.6.18-128.4.1.e15<< system on 2009-08-19. 
Available extensions: 
The C stubs add-on version 2.1.2. 
crypt add-on version 2.1 by Michael Glad and others 
GNU Libidn by Simon Josefsson 
Native POSIX Threads Library by Ulrich Drepper et al 
BIND-8.2.3-T5B 
RT using linux kernel aio 
For bug reporting instructions, please see: 
<http://www.gnu.org/software/libc/bugs.html>. 


在 某 些 Linux 发 行 版 中 ，GNU C 语 言 函 数 库 的 路 径 名 并 
非 %libylibc.so.6”。 确 定 该 库 所 在 位 置 的 方法 之 一 是 : 针对 某 个 与 glibc 动 
态 链接 的 可 执行 文件 (大 多 数 可 执行 文件 都 采用 这 种 链接 方式 ) ， 运 行 
1dd《〈 列 出 动态 依赖 性 ) 程序 。 接 下 来 ， 再 检查 输出 的 库 依赖 性 列表 ， 
便 能 发 现 glibc 共 享 库 的 位 置 : 


$ ldd myprog | grep libc 
libc.so.6 => /lib/tls/libc.so.6 (0x4004b000) 


MH Re PY PS UU a ay eA H E RAO TIA, ORE ASAT 
安装 的 glibc 版 本 。 从 版 本 2.0 开 始 ，glibc 定 义 了 两 个 常量 : _ GLIBC 
和 ”GLIBC_MINOR ， 供 程序 在 编译 时 在 检 fdef 语 句 中 〉 测试 使 
用 。 在 安装 有 glibc 2.12 版 本 的 系统 上 ， 以 上 两 个 常量 的 值 分 别 为 2 和 
12。 然 而 ， 如 果 程 序 在 A 系 统 上 编译 ， 而 在 B 系 统 〈 安 装 了 不 同 版 本 的 
glibc) 上 运行 ， 这 两 个 稼 量 作用 就 有 限 了 。 为 应 对 这 种 可 能 ， 程 序 可 以 


调用 函数 gnu_get_libc_version0， 来 确定 运行 时 的 glibc 把 本 。 











#include <gnu/libc-version.h> 


const char *gnu_get_libc_version(void); 


Returns pointer to null-terminated, statically allocated string 
containing GNU C library version number 











函数 gnu_get_libc_version(0) 返 回 一 个 指针 ， 指 回 诸 如 “2.122 的 字符 


获取 glibc 版 本 信息 ， 还 有 一 种 方法 : 使 用 confstrO 函 数 
来 获取 (glibc 特 有 的 ) _CS_GNU_LIBC_VERSION 配 置 变 
量 的 值 。 这 一 调用 会 返回 类 似 于 “glibc 2.12? 的 字符 串 。 


3.4 处 理 来 目 系 统 调 用 和 库 函 数 的 错误 


几乎 每 个 系统 调用 和 库 函 数 都 会 返回 茶 类 状态 值 ， 用 以 表明 调用 成 
功 与 否 。 要 了 解 调用 是 否 成 功 ， 必 须 坚持 对 状态 值 进行 检查 。 寿 调用 失 
败 ， 那 么 必须 采取 相应 行动 。 至 少 ， 程 序 应 该 显示 错误 消息 ， 和 警示 有 总 
想不到 的 事件 发 生 。 


不 检查 状态 值 ， 少 敲 几 个 字 ， 听 起 来 的 确 族人 【尤其 是 见识 到 了 不 
检查 状态 值 的 UNIX/Linux 程 序 以 后 ) ， 但 实际 却 得 不 偿 失 。 认 定 系统 调 
用 或 库 函 数 “ 不 可 能 失败 ”， 不 对 状态 返回 值 进 行 检查 ， 这 会 浪费 挥 大 把 
的 程序 调试 时 间 。 

















少数 几 个 系统 函数 在 调用 时 从 不 失败 。 例 如 ，getpid() 
Eo cee catia 而 _exit() 总 能 终止 进程 。 无 需 对 
类 系统 调用 的 返回 值 进行 检查 。 


处 理 系 统 调用 错误 


后 eos 的 手册 页 记录 有 调用 可 能 的 返回 值 ， 并 指出 了 哪些 值 
表示 错误 。 通 常 ， 返 回 值 为 -1 表示 出 错 。 因 此 ， 可 使 用 下 列 代 码 对 系统 
调用 进行 检查 : 


fd = open(pathname, flags, mode); /* system call to open a file */ 
if (fd, == =) 4 








/* Code to handle the error */ 


} 


if (close(fd) == -1) { 
/* Code to handle the error */ 


} 
系统 调用 失败 时 ， 会 将 全 局 整形 变量 emo 设置 为 一 个 正 值 ， 以 标 





识 具 体 的 错误 。 程 序 应 包含 山 <ermo.h> 头 文件 ， 该 文件 提供 了 对 errno 
的 声明 ， 以 及 一 组 针对 各 种 错误 编号 而 定义 的 常量 。 所 有 这 些 符 号 名 都 
以 字母 E 打 头 。 在 每 个 手册 页 内 标题 为 ERRORS 的 章节 内 ， 都 刊载 有 一 
份 相应 系统 调用 可 能 返回 的 errno 值 列表 。 以 下 便 是 利用 ermo 诊 断 系统 
调用 错误 的 一 个 简单 示例 : 
cnt = read(fd, buf, numbytes); 
if (cnt == -1) { 

if (errno == EINTR) 

fprintf(stderr, "read was interrupted by a signal\n"); 


else { 
/* Some other error occurred */ 


} 
} 


如 果 调 用 系统 调用 和 库 函 数 成 功 ，errmo 绝 不 会 被 重 置 为 0， 故 此 ， 
该 变量 值 不 为 0， 可 能 是 之 前 调用 失败 造成 的 。 此 外 ，SUSv3 人 允许 在 孙 
数 调用 成 功 时 ， 将 errmo 设 置 为 非 零 值 ( 当 然 ， 几 乎 没有 函数 会 这 么 
做 ) 。 因 此 ， 在 进行 错误 检查 时 ， 必 须 坚 持 首 先 检 查 函 数 的 返回 值 是 否 
表明 调用 出 错 ， 然 后 再 检查 errno 确 定 错误 原因 。 


少数 系统 调用 〈 比 如 ，getpriorityO0 ) 在 调用 成 功 后 ， 也 会 返回 -1。 
要 判断 此 类 系统 调用 是 否 发 生 错误 ， 应 在 调用 前 将 errno 置 为 0， 并 在 调 
用 后 对 其 进行 检查 〈 上 述 手法 同样 适用 于 某 些 库 函 数 ) 。 


系统 调用 失败 后 ， 常 见 的 做 法 之 一 是 根据 ermo 值 打 印 错误 消息 。 
提供 库 函 数 perror() 和 strerror()， 就 是 出 于 这 一 目的 。 


函数 perrorO 会 打印 出 其 msg 参 数 所 指 回 的 字符 串 ， 紧 跟 一 条 与 当前 
errno 值 相对 应 的 消息 。 








ftinclude <stdio.h> 


void perror(const char *msg); 











以 下 是 对 系统 调用 错误 进行 处 理 的 一 种 简单 方式 : 


fd = open(pathname, flags, mode); 
if (fd == -1) { 

perror("open"); 

exit(EXIT FAILURE); 


函数 strerror0 会 针对 其 errmnum 参 数 中 所 给 定 的 错误 号 ， 返 回 相 应 的 
错误 字符 串 。 





#include <string.h> 


char *strerror(int errnum); 








Returns pointer to error string corresponding to errnum 








由 strerror() 所 返回 的 字符 串 可 以 是 静态 分 配 的 ， 这 意味 着 后 续 对 
strerrorO 的 调用 可 能 会 履 兰 该 字符 串 。 


各 无 法 识别 ermum 所 含 的 错误 编号 ， 则 strerror0 会 返回 “Unknown 
error nnn.” 形 式 的 字符 串 。 在 某 些 其 他 的 实现 中 ， 在 这 种 情况 下 ， 
strerror() 会 返回 NULL。 





由 于 perror() 和 strerror() 都 属于 对 语言 环境 敏感 (locale-sensitive) 
《参见 10.4 节 ) 的 函数 ， 故 而 错误 描述 中 使 用 的 都 是 本 地 语言 。 


处 理 来 目 库 函数 的 错误 


不 同 的 库 函 数 在 调用 发 生 错 误 时 ， 返 回 的 数据 类 型 和 值 也 各 不 相 
同 。 (参见 每 个 函数 的 手册 页 。〉 从 错误 处 理 的 角度 来 说 ， 可 将 库 函 数 
划分 为 以 下 几 关 。 


o 某 些 库 函 数 返 回 错误 信息 的 方式 与 系统 调用 完全 相同 一 返回 值 为 
-1， 伴 之 以 errno 号 来 表示 具体 错误 。remove0 便 是 其 中 一 例 ， 可 使 
用 该 函数 来 删除 文件 〈 调 用 unlink0 系 统 调 用 ) 或 目录 (调用 rmdir() 
ae a 对 此 类 函数 所 发 生 的 错误 进行 诊断 ， 其 方式 与 系统 调 
完全 相同 。 
某 些 库 函 数 在 出 错时 会 返回 -1 之 外 的 其 他 值 ， 但 仍 会 设置 errno 来 表 
明 具 体 的 出 错 情况 。 例 如 ，fopen0 在 出 错时 会 返回 一 个 NULL 指 
针 ， 还 会 根据 出 错 的 具体 底层 系统 调用 来 设置 errmmo。 函 数 perror() 
和 和 strerror() 都 可 用 来 诊断 此 类 错误 。 

















。 还 有 些 函 数 根本 不 使 用 errno。 对 此 类 函数 来 襄 ， 确 定 错 误 存 在 与 否 
及 其 起 因 的 方法 各 不 相同 ， 可 见 诸 于 相应 函数 的 手册 页 中 ， 不 应 使 
用 ermo、perror() 或 strerror() 来 诊断 错误 。 








3.5 “关于 本 书 示 例 程序 的 注意 事项 
本 节 会 就 本 书 所 载 程序 示例 所 普遍 采用 的 各 种 惯例 及 特性 加 以 介 


绍 。 
3.5.1 命令 行 选 项 及 参数 
本 书 所 载 的 许多 程序 示例 都 会 依照 命令 行 选项 及 参数 来 决定 其 行 

传统 的 UNIX 命 令 行 选 项 由 一 个 连 字 符 〈-) 、 表 示 选 项 的 英文 字 
母 ， 以 及 一 个 可 选 参数 组 成 。 (GNU 实 用 工具 则 对 选项 语法 有 所 扩展 ， 
以 两 个 连 字 符 开 头 〈--) ， 紧 跟 用 来 标识 选项 和 可 选 参数 的 字符 串 。) 
可 使 用 标准 库 函 数 getoptO 〈 参 见 附录 B) 对 命令 行 选项 进行 解析 。 

KHER BZA, (ALOT IBERIA ALIEN), ABA PRAT 
简单 的 帮助 工具 : 在 以 --help 选 项 调用 程序 时 ， 会 显示 用 法 信息 ， 束 命 
令 行 选 项 和 参数 的 语法 加 以 说 明 。 
3.5.2 ”常用 的 函数 及 头 文件 

本 书 的 大 多 数 程序 示例 都 包括 有 一 个 头 文件 ， 内 含 芝 用 的 各 种 定 
义 。 这 些 示 例 同 样 使 用 了 一 系列 第 用 函数 。 本 节 会 对 这 些 头 文件 及 函数 
进行 讨论 。 
和 用 的 头 文 件 

程序 清单 3-1 所 列 的 头 文 件 几乎 为 本 书 所 有 程序 示例 所 使 用 。 

程序 清单 3-1: 大 多 数 程序 示例 所 使 用 的 头 文件 









































#ifndef TLPI_HDR_H 
#define TLPI_HDR_H 


#include 
#include 
#include 


#include 
#include 
#include 


#include 


#include 


/* 
<sys/types.h> /* 
<stdio.h> /* 
<stdlib.h> /* 
<unistd.h> /* 
<errno. h> 1* 
<string.h> pE 
"get_num.h" /* 


lib/tlpi_hdr.h 


Prevent accidental double inclusion */ 


Type definitions used by many programs */ 
Standard I/0 functions */ 

Prototypes of commonly used library functions, 
plus EXIT SUCCESS and EXIT_FAILURE constants */ 
Prototypes for many system calls */ 

Declares errno and defines error constants */ 
Commonly used string-handling functions */ 


Declares our functions for handling numeric 
arguments (getInt(), getLong({)) */ 


“error _functions.h" /* Declares our error-handling functions */ 


typedef enum { FALSE, TRUE } Boolean; 


#define min(m,n) ((m) < (n} ? (m) : (n)) 
#define max(m,n} ((m) > (n) ? (m) : (nj) 


#endif 


错误 诊 


Wr PRI BL 


lib/tlpi_hdr.h 





为 简化 本 书 程 序 示 例 中 的 错误 处 理 ， 我 们 编写 了 错误 诊断 函数 ， 对 
其 的 声明 如 程序 清单 3-2 所 示 。 





程序 清单 3-2: 常用 错误 处 理 函 数 的 声明 








lib/error_functions.h 


#ifndef ERROR FUNCTIONS H 
#define ERROR FUNCTIONS H 


void errMsg(const char *format, ...); 

#ifdef _ CNUC 

/* This macro stops ‘gcc -Wall' complaining that “control reaches 
end of non-void function" if we use the following functions to 
terminate main() or some other non-void function. */ 

#define NORETURN attribute (( noreturn )) 

telse 

#define NORETURN 

#endif 

void errExit(const char *format, ...) NORETURN ; 

void err_exit(const char *format, ...) NORETURN ; 

void errExitEN(int errnum, const char *format, ...) NORETURN ; 

void fatal(const char *format, ...) NORETURN ; 

void usageErr(const char *format, ...) NORETURN ; 


void cmdLineErr(const char *format, ...) NORETURN ; 


#tendif 
lib/error_functions.h 
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#include "tlpi_hdr.h" 


void errMsg(const char *format, ...); 

void errExit(const char *format, ...); 

void err_exit(const char *format, ...); 

void errExitEN(int errnum, const char *format, ...); 











函数 errMsgO 会 在 标准 错误 设备 上 打印 消息 。 除 了 将 一 个 终止 换行 
符 自动 追加 到 输出 字符 串 尾部 以 外 ， 世间 
同 。errMsg() 函 数 会 打印 出 与 当前 errno 值 相对 应 的 错误 文本 ， 其 中 包括 
了 错误 名 (比如 ，EPERM) 以 及 由 strerror0 返 回 的 错误 描述 ， 外 加 由 参 


数列 表 指 定 的 格式 化 输出 。 


erTExitO 函 数 的 操作 方式 与 errMsgO 相 似 ， 只 是 还 会 以 如 下 两 种 方式 
之 一 来 终止 程序 。 其 一 ， 调 用 exit0 退 出 。 其 二 ， 若 将 环境 变量 
EF_DUMPCORE 定 义 为 非 空 字符 串 ， 则 调用 abort() 退 出 ， 同 时 生成 核心 
转 储 (core dump) 文件 ， 供 调试 器 调试 之 用 。 “本 书 22.1 节 会 对 核心 转 
储 文 件 加 以 解释 。) 


函数 err_exit() 类 似 于 errExit()， 但 存在 两 方面 的 差异 。 


。 打印 错误 消息 之 前 ，err_exit0) 不 会 刷新 标准 输出 。 

e err_exitO 终 止 进程 使 用 的 是 _exit0)， 而 非 exit0。 这 一 退出 方式 ， 略 
去 了 对 stdio 缓 冲 区 的 刷新 以 及 对 退出 处 理 程 序 〈exit handler) 的 调 
用 。 


本 书 第 25 章 描述 了 _exitO 与 exit0 之 间 的 区 别 ， 还 探讨 了 在 fork0 创 
建 的 子 进程 中 对 stdio 缓 冲 区 和 退出 处 理 程序 的 处 理 方式 。 阅 读 第 25 章 ， 
会 使 上 述 err_exit(0) 操 作 中 的 差异 细节 得 以 澄清 。 这 里 只 是 想 提醒 读者 ， 
在 编写 的 库 函 数 创建 了 子 进程 ， 且 该 子 进程 因 发 生 错误 而 需要 终止 时 ， 
err_exit( 恰 好 能 一 显 身手 。 它 避免 了 对 子 进程 继承 自 父 进程 〈 即 调用 进 
程 E 且 不 会 调用 由 父 进程 所 建立 的 退出 处 
理 程 序 。 


在 功能 上 ，errExitEN() 函 数 与 errExit() 大 体 相同 ， 区 别 仅仅 在 于 : 
与 errExit() 打 印 与 当前 errno 值 相对 应 的 错误 文本 不 同 ，errExitEN() 只 会 
打印 与 ermum 参 数 中 给 定 的 错误 号 (error number) (这 也 是 该 函数 后 绥 
名 “EN” 的 由 来 ) 相对 应 的 文本 。 


在 本 书 中 调用 了 POSIX 线 程 API 的 程序 示例 中 ， 主 要 使 用 
errExitEN() 来 处 理 错 误 。 与 传统 的 UNIX 系 统 调 用 返回 -1 表示 错误 不 同 ， 
POSIX 线 程 函 数 会 在 其 结果 中 返回 一 个 POSIX 线程 函数 返回 0 表示 成 
功 ) 错误 号 〈 正 数 ， 类 型 为 errno 所 专用 ) 。 


针对 POSIX 线 程 函 数 ， 可 使 用 如 下 代码 来 诊断 错误 : 


errno = pthread create(&thread, NULL, func, &arg); 
if (errno != 0) 
errExit ("pthread create"); 





























然而 ， 这 一 方法 效率 不 高 ， 因 为 在 线程 程序 中 ，ermo 实 际 已 被 定义 
为 宏 ， 展 下 所 是 息 同 可 修改 大 入 的 个 函数 调用 。 因 此 ， 每 次 使 用 errno 
都 会 引发 一 次 函数 调用 。 使 用 errExitENO 改 写 上 述 代 码 ， 功 能 相同 ， 但 
更 为 高 效 ， 如 下 所 示 : 


int 5; 





s = pthread create(&thread, NULL, func, &arg); 
if (s != 0) 
errExitEN(s, "pthread create"); 





在 C 语 言 术 语 中 ， 左 值 是 一 个 用 来 指 代 存储 区 域 的 表达 
式 。 左 值 最 为 常见 的 用 法 是 作为 一 个 变量 的 标识 符 。 某 些 
操作 符 也 会 产生 左 值 。 例 如 ， 若 p 为 指向 某 块 存储 区 域 的 指 
针 ， 则 *p 便 是 一 个 左 值 。POSIX 线 程 API 中 ， 将 ermo 重 新 定 
义 为 一 个 函数 包 ， 该 函数 会 返回 一 个 指向 线程 专用 存储 区 
域 的 指针 (请 参阅 31.3 节 ) 。 





诊断 其 他 类 型 的 错误 时 ， 本 书 使 用 的 是 fatal0)、usageErrO 以 及 
cmdLineErr(). 





#include “tlpi_hdr.h" 


void usageErr(const char a allel Sears 
void cmdLineErr(const char *format, ...); 











函数 fatal0 用 来 诊断 一 般 性 错误 ， 其 中 包括 未 设置 ermno 的 库 函 数 错 
误 。 除 了 将 一 个 终止 换行 符 目 动 奶 加 到 输出 字符 串 尾 部 以 外 ，fatal0 的 
参数 列表 与 printfO 基 本 相同 。 该 函数 会 在 标准 错误 上 打印 格式 化 得 出 ， 
然后 ， 像 errExitO 那 样 终止 程序 。 


函数 usageErr0O 用 来 诊断 命令 行 参 数 使 用 方面 的 错误 。 其 参数 列表 
风格 与 printfO0 相 同 ， 并 在 标准 错误 上 打印 字符 串 “Usage: ”， 随 之 以 格 


式 化 输出 ， 然 后 调用 exit0 终 止 程序 。( 本 书 的 一 些 程 序 示 例 上 自行 提供 有 
对 usageErr() 的 扩展 版 本 ， 命 名 为 usageError()。) 


函数 cmdLineErrO 酷 似 usageErrO0， 但 其 错误 诊断 是 针对 于 特定 程序 
的 命令 行 参数 。 


程序 清单 3-3 列 出 的 为 本 书 错误 诊断 函数 的 实现 。 
程序 清单 3-3: 为 本 书 所 有 程序 所 使 用 的 错误 处 理 函 数 



































lib/error functions.c 


#include <stdarg.h> 

#include "error functions.h" 

#include "tlpi hdr.h" 

#include "ename.c.inc" /* Defines ename and MAX ENAME */ 


#ifdef CNUC 
_ attribute  {( noreturn )) 
#endif 

static void 

terminate(Boolean useExit3) 


{ 


char *s; 


/* Dump core if EF DUMPCORE environment variable is defined and 
is a nonempty string; otherwise call exit(3) or _exit(2), 
depending on the value of ‘useExit3'. */ 


s = getenv("EF_DUMPCORE"); 


if (s != NULL && *s != '\0') 
abort({); 

else if (useExit3) 
exit(EXIT FAILURE); 

else 
_exit(EXIT FAILURE); 


static void 

outputError(Boolean useErr, int err, Boolean flushStdout, 
const char *format, va list ap) 

{ 


#define BUF SIZE 500 
char buf[BUF SIZE], userMsg[BUF SIZE], errText[BUF SIZE]; 


vsnprintf(userMsg, BUF SIZE, format, ap); 


if (useErr) 
snprintf(errText, BUF_SIZE, " [%s %s]", 
(err > 0 && err <= MAX_ENAME) ? 
ename[err] : "2UNKNOWN?", strerror(err)); 
else 
snprintf(errText, BUF SIZE, ":"); 


snprintf(buf, BUF SIZE, “ERROR%s %s\n", errText, userMsg); 


if (flushStdout) 


fflush(stdout) ; /* Flush any pending stdout */ 
fputs(buf, stderr); 
fflush(stderr) ; /* In case stderr is not line-buffered */ 
} 
void 
errMsg(const char *format, ...) 
{ 
va_list argList; 
int savedErrno; 
savedErrno = errno; /* In case we change it here */ 
va_start(argList, format); 
outputError(TRUE, errno, TRUE, format, argList); 
va_end(argList); 
errno = savedErrno; 
} 
void 
errExit(const char *format, ...) 
{ 


va_list argList; 

va_start(argList, format); 

outputError(TRUE, errno, TRUE, format, argList); 
va_end(argList); 


terminate(TRUE); 


void 
err_exit(const char *format, ...) 


{ 


va_list argList; 


va_start(argList, format); 
outputError(TRUE, errno, FALSE, format, argList); 
va_end(argList); 


terminate(FALSE) ; 
i 
void 
errExitEN(int errnum, const char *format, ...) 
{ 
va_list argList; 
va_start(argList, format); 
outputError(TRUE, errnum, TRUE, format, argList); 
va_end(argList) ; 
terminate (TRUE) ; 
} 
void 
fatal(const char *format, ...) 
{ 
va_list argList; 
va start(argList, format); 
outputError(FALSE, 0, TRUE, format, argList); 
va_end(argList); 
terminate (TRUE); 
} 
void 
UsageETT(Const char *format, ...) 


va_list argList; 
fflush(stdout) ; /* Flush any pending stdout */ 


fprintf(stderr, "Usage: "); 
va_start(argList, format); 
vfprintf(stderr, format, argList); 
va_end(argList); 


fflush(stderr); /* In case stderr is not line-buffered */ 
exit(EXIT FAILURE); 


void 
cmdLineErr(const char “format, ...) 


va_list argList; 
fflush({stdout) ; /* Flush any pending stdout */ 


fprintf(stderr, "Command-line usage error: "); 
va_start(argList, format); 

vfprintf(stderr, format, argList); 
va_end(argList) ; 


fflush(stderr) ; /* In case stderr is not line-buffered */ 
exit(EXIT FAILURE); 


lib/error_functions.c 


程序 清单 3-4 列 出 了 程序 清单 3-3 所 包含 的 文件 enames.c.inc。 该 文件 
定义 了 一 个 名 为 “ename” 的 字符 串 数组 ， 其 内 容 是 与 errno 的 各 种 可 能 值 
相对 应 的 符号 名 称 。 本 书 所 采用 的 错误 处 理 函 数 会 使 用 该 数组 ， 去 打印 
与 某 个 特定 错误 号 相对 应 的 符号 名 。 之 所 以 做 如 此 变通 ， 是 为 了 应 对 以 
下 两 种 实际 情况 : 一 方面 ，strerror0) 不 会 标识 出 与 错误 消息 相对 应 的 符 
号 稍 量 ;而 另 一 方面 ， 手 册页 在 描述 错误 时 ， 使 用 的 是 符号 名 称 。 打 印 
出 符号 名 便于 读者 在 手册 页 中 查找 错误 原因 。 














由 于 ermo 值 随 Linux 硬 件 架构 的 不 同 而 有 所 变化 ， 因 此 
ename.c.inc 文 件 的 内 容 与 特定 的 硬件 架构 相关 。 程 序 清单 3- 
4 所 示 的 ename.c.inc 文 件 版 本 专用 于 Linux 2.6/x86-32 系 统 。 
构建 该 文件 的 脚本 ]ib/Build_ename.sh， 包 含 于 为 本 书 发 布 
的 源码 当中 。 可 以 使 用 该 脚本 ， 针 对 特定 的 硬件 平台 及 内 
核 版 本 ， 来 构建 ename.c.inc 文 件 。 





请 注意 ， 数 组 ename 中 的 菏 坚 字符 串 为 空 。 它 们 与 未 使 用 的 错误 值 
相对 应 。 此 外 ， 其 中 的 一 些 字符 串 包含 了 两 个 错误 名 称 ， 之 间 以 斜 杠 分 
隔 ， 是 对 应 两 个 符号 错误 名 具有 相同 数值 的 情况 。 





从 ename.c.inc 文 件 中 ， 可 以 看 出 错误 EAGAIN 和 
EWOULDBLOCK 具 有 相同 数值 。SUSvV3 明 确 人 允许 这 一 做 
法 ， 而 且 在 大 多 数 其 他 UNIX 实 现 ( 并 非 全 部 ) 上 ， 这 些 常 
量 值 均 相同 。 系 统 调用 返回 此 类 错误 的 情况 是 : 本 应 阻塞 

《 亦 即 在 完成 调用 前 被 强制 等 待 ) ， 而 调用 者 要 求 系统 调 
用 返回 错误 。EAGAIN 源 于 System V， 是 由 实施 IO 操作 、 
言 号 操作 、 消 息 队 列 操作 以 及 文件 锁定 操作 (fent1())〉 的 系 
统 调用 所 返回 的 错误 。EWOULDBLOCK 则 发 源 于 BSD， 由 
文件 锁定 Cflock()) 以 及 与 套 接 字 相 关 的 系统 调用 返回 。 














在 SUSv3 中 ， 仅 在 与 套 接 字 相关 的 各 种 接口 规范 中 提 
及 EWOULDBLOCK。 对 此 类 接口 来 说 ，SUSv3 人 允许 非 阻塞 
调用 要 么 返回 EAGAIN， 要 么 返回 EWOULDBLOCK。 对 于 
所 有 其 他 的 非 阻 塞 调用 ，SUSv3 只 明确 定义 了 EAGAIN 错 
ie 


























程序 清单 3-4: Linux 错 误 名 (x86-32 版 ) 














lib/ename.c.inc 


static char *ename[] = { 
LE Qa eM 
/* 1 */ "EPERM", "ENOENT", "ESRCH", "EINTR", "EIO", "ENXIO", "E2BIG", 
/* 8 */ “ENOEXEC", "EBADF", "“ECHILD", "EAGAIN/EWOULDBLOCK", "ENOMEM", 
/* 13 */ "EACCES", "EFAULT", "ENOTBLK", "EBUSY", "EEXIST", "EXDEV", 
/* 19 */ “ENODEV", "ENOTDIR", "EISDIR", "EINVAL", "ENFILE", “EMFILE", 
/* 25 */ “ENOTTY", "ETXTBSY", "EFBIG", "ENOSPC", "ESPIPE", "EROFS", 
/* 31 */ “EMLINK", "EPIPE", "EDOM", "ERANGE", "EDEADLK/EDEADLOCK", 
/* 36 */ "ENAMETOOLONG", "ENOLCK", "ENOSYS", "ENOTEMPTY", "ELOOP”, "", 
/* 42 */ "ENOMSG", "EIDRM", "ECHRNG", "EL2NSYNC", "EL3HLT", "EL3RST", 
/* 48 */ “ELNRNG", "EUNATCH", "ENOCSI", "“EL2HLT", "EBADE", "EBADR", 
/* 54 */ "EXFULL", "ENOANO", "“EBADRQC", "EBADSLT", "", "EBFONT", "ENOSTR", 
/* 61 */ "ENODATA", "ETIME", "ENOSR", "ENONET", "ENOPKG", "EREMOTE", 
/* 67 */ “ENOLINK", "EADV", “ESRMNT", “ECOMM", "EPROTO", "“EMULTIHOP", 
/* 73 */ “EDOTDOT", "EBADMSG", "EOVERFLOW", "“ENOTUNIO", “EBADFD", 
/* 78 */ “EREMCHG", "“ELIBACC", "ELIBBAD", "ELIBSCN", "ELIBMAX", 
/* 83 */ “ELIBEXEC", "EILSEQ", "“ERESTART", "ESTRPIPE", "EUSERS", 
/* 88 */ "ENOTSOCK", "“EDESTADDRREQ", "EMSGSIZE", "EPROTOTYPE", 
/* 92 */ "ENOPROTOOPT", "“EPROTONOSUPPORT", "ESOCKTNOSUPPORT", 
/* 95 */ “EOPNOTSUPP/ENOTSUP", “EPFNOSUPPORT", "EAFNOSUPPORT", 
/* 98 */ “EADDRINUSE", "EADDRNOTAVAIL", "ENETDOWN", "ENETUNREACH", 
/* 102 */ “ENETRESET", “ECONNABORTED", "“ECONNRESET", "ENOBUFS", "EISCONN", 
/* 107 */ “ENOTCONN", “ESHUTDOWN", "“ETOOMANYREFS", "ETIMEDOUT", 
/* 111 */ “ECONNREFUSED", "EHOSTDOWN", "“EHOSTUNREACH", "EALREADY", 
/* 115 */ "EINPROGRESS", "“ESTALE", "EUCLEAN", "ENOTNAM", "“ENAVAIL", 
/* 120 */ "EISNAM", "EREMOTEIO", "EDQUOT", "ENOMEDIUM", "EMEDIUMTYPE", 
/* 125 */ “ECANCELED", “ENOKEY", "EKEYEXPIRED", "EKEYREVOKED", 
/* 129 */ “EKEYREJECTED", "EOWNERDEAD", "ENOTRECOVERABLE", "ERFKILL" 





Je 


#define MAX_ENAME 132 
lib/ename.c.inc 


解析 数值 型 命令 行 参数 的 函数 


程序 清单 3-5 中 的 头 文 件 提供 了 两 个 函数 声明 ， 在 本 书 中 频繁 用 于 
解析 整形 命令 行 参 数 : getInt0 和 getLong0。 较 之 于 atoiO、atol0 以 及 
它们 的 主要 优点 在 于 针对 数值 型 参数 提供 了 一 些 基 本 的 有 效 性 








#include "tlpi_hdr.h" 


int getInt(const char *arg, int flags, const char *name); 
long getLong(const char *arg, int flags, const char *name); 


Both return arg converted to numeric form 











函数 getInt() 和 getLong0) 分 别 将 arg 指 向 的 字符 串 转 换 为 int 或 long。 如 
朵 arg 示 包含 一 个 有 效 的 整数 字符 串 〈 即 仅 包含 数字 以 及 了 字 


RER ， 那 么 这 两 个 函数 会 打印 一 条 错误 消息 ， 并 终止 程序 。 





右 参 数 name 非 空 ， 则 所 含 内 容 应 为 一 字符 串 ， 用 于 标识 arg 对 应 于 
命令 行 中 相应 参数 的 名 称 。 在 上 述 两 函数 中 ， 无 论 打印 任何 错误 消息 ， 
该 字符 串 都 是 消 妃 中 的 一 部 分 。 


可 通过 flags 参 数 对 getInt0 和 getLongO 函 数 的 操作 施加 一 些 控 制 。 默 
认 情 况 下 ， 两 个 函数 会 处 理 包 含有 符号 十 进 制 整数 的 字符 串 。 知 将 定义 
于 程序 清单 3-5 中 的 一 个 或 多 个 GN_* 系 列 常 量 与 fags 相 或 ， 则 既 可 以 
选择 其 他 的 转换 进 制 ， 也 能 将 数值 范围 限制 为 非 负 或 正 整 数 。 





虽然 fags 参 数 允 许 程序 强制 执行 正文 所 述 的 范围 检 
查 ， 但 在 茶 些 情况 下 ， 即 便 这 么 做 看 起 来 很 合理 ， 程 序 示 
例 也 无 需 做 类 似 检测 。 例 如 ， 程 序 清单 47-1 中 就 并 未 对 参 
数 init-value 进 行 检查 。 这 意味 着 ， 用 户 可 将 一 个 负数 作为 
初始 值 赋 给 茶 个 信号 量 ， 这 会 引发 随后 的 semctl0 系 统 调 用 
返回 错误 〈ERANGE) ， 因 为 信号 量 不 能 为 负 值 。 在 此 类 
情况 下 省 略 对 范围 的 检查 ， 不 但 能 够 让 读者 体验 对 系统 调 
用 及 库 函 数 的 正确 使 用 ， 还 能 观察 到 输入 无 效 参数 时 所 发 
生 的 情形 。 通 和 营 ， 现 实 世 界 中 的 应 用 程序 会 对 目 身 命令 行 
参数 施 以 更 为 严格 的 检查 。 

















程序 清单 3-6 给 出 了 函数 getInt0 和 getLongO 的 实现 。 
程序 清单 3-5: get_num.c 的 头 文 件 








#ifndef GET NUM H 
#define GET_NUM_H 


#define GN_NONNEG 01 /* Value must be >= 0 */ 
#define GN_CT_O 02 /* Value must be > 0 */ 


/* By default, integers are decimal */ 





#define GN ANY BASE 0100 /* Can use any base - like strtol(3) */ 
#define GN BASE 8 0200 /* Value is expressed in octal */ 
#tdefine GN BASE 16 0400 /* Value is expressed in hexadecimal */ 


long getLong(const char *arg, int flags, const char *name); 
int getInt(const char *arg, int flags, const char *name); 


#endif 


lib/get_num.h 


lib/get_num.h 


程序 清单 3-6: 解析 数值 型 命令 行 参 数 的 函数 


#include <stdio.h> 
#include <stdlib.h> 
#include <string.h> 
#include <limits.h> 
#include <errno.h> 
#include "get_num.h" 


lib/get_num.c 


static void 
gnFail(const char *fname, const char *msg, const char *arg, const char *name) 
{ 
fprintf(stderr, "%s error”, fname); 
if (name != NULL) 
fprintf(stderr, " (in %s)", name); 


fprintf(stderr, ": %s\n", msg); 
if (arg != NULL && *arg != '\0') 
fprintf(stderr, " offending text: %s\n", arg); 


exit(EXIT FAILURE) ; 


} 


static long 
getNum(const char *fname, const char *arg, int flags, const char *name) 
{ 

long res; 

char *endptr; 

int base; 


if (arg == NULL || *arg == '\0') 
gnFail(fname, "null or empty string”, arg, name); 


base = (flags & GN ANY BASE) ? 0: (flags & GN BASE 8) ? 8: 
(flags & GN BASE 16) ? 16 : 10; 


errno = 0; 
res = strtol(arg, &endptr, base); 
if (errno != 0) 


gnFail(fname, “strtol{) failed", arg, name); 


if (*endptr != '\o') 
gnFail(fname, “nonnumeric characters", arg, name); 


if ((flags & GN_NONNEG) && res < 0) 
gnFail(fname, “negative value not allowed", arg, name); 


if ((flags & GN GT 0) && res <= 0) 
gnFail(fname, “value must be > 0", arg, name); 


return res; 


} 


long 
getLong(const char *arg, int flags, const char *name) 


return getNum("getLong", arg, flags, name); 


} 
int 
getInt(const char *arg, int flags, const char *name) 


{ 


long res; 


res = getNum("getInt", arg, flags, name); 


if (res > INT MAX || res < INT_MIN) 
gnFail("getInt", “integer out of range", arg, name); 


return (int) res; 


lib/get_num.c 


3.6 ”可 移植 性 问题 


本 节 将 探究 可 移植 性 系统 编程 方面 的 议题 。 除 了 会 介绍 特性 测试 
宏 ， 以 及 SUSV3 所 定义 的 标准 系统 数据 类 型 之 外 ， 还 会 关注 一 些 其 他 的 
可 移植 性 问题 。 


3.6.1 特性 测试 宏 


系统 调用 和 库 函 数 API 的 行为 受 各 种 标准 《参见 1.3 节 ) 的 制约 。 这 
些 标准 中 的 一 部 分 是 由 Open Group (SUS) 这 样 的 标准 机 构 来 制定 的 ， 
而 另 一 部 分 则 是 由 有 具有 重要 历史 意义 的 两 个 UNIX 实 现 BSD 和 System V 
Release4《〈 以 及 相关 的 System V 接 口 定 义 ) 来 定义 。 


编写 可 移植 性 应 用 程序 时 ， 有 时 会 希望 各 个 头 文件 只 显露 遵循 特定 
标准 的 定义 (常量 、 函 数 原型 等 ) 。 要 达到 这 一 目的 ， 在 编译 程序 时 需 
要 定义 下 列 一 个 或 多 个 特性 测试 宏 。 方 式 之 一 是 在 程序 源码 包含 @ 任 何 
头 文件 之 前 ， 定 义 如 下 宏 : 
#define BSD SOURCE 1 

此 外 ， 还 可 以 使 用 C 编 译 器 的 -D 选 项 : 


$ cc -D BSD SOURCE prog.c 











术语 “特性 测试 宏 ” 似 乎 易于 让 人 产生 误解 ， 但 只 要 从 
UNIX 实 现 的 角度 看 来 ， 读 者 便 会 发 现 这 一 称谓 其 实 鼎 有 道 
理 。 通 过 测试 (使 用 ##f》 应 用 程序 为 宏 所 定义 的 值 ， 实 现 
可 以 决定 应 该 让 哪些 〈 由 头 文件 提供 的 ) 特性 可 见 。 


以 下 特性 测试 宏 由 相关 标准 定义 而 成 ， 因 而 在 支持 这 些 标准 的 所 有 
系统 上 ， 对 这 些 宏 的 使 用 均 是 可 移植 的 : 


_POSIX_SOURCE 


一 经 定义 《任何 值 ) ， 头 文件 会 显露 符合 POSIX.1-1990 和 ISO 
C (1990) 标准 的 定义 。 该 宏 已 被 _ POSIX_C_SOURCE 取 代 。 


_POSIX_C_SOURCE 


若 定 义 为 1， 效 果 与 POSIX_SOURCE 相 同 。 若 将 其 值 定义 为 大 于 
等 于 199309， 头 文件 还 会 显露 遵从 POSIX.lb (SEIT) 标准 的 定义 。 若 将 
其 值 定 义 为 大 于 等 于 199506， 便 会 开局 对 POSIX.1c《〈 线 程 ) 定义 的 文 
寺 。 若 将 其 值 定 义 为 200112， 则 开启 对 POSIX.1-2001 基 本 规范 (排除 了 
XSI FE) 定义 的 支持 。 (2.3.3 版 本 之 前 ，glibc 头 文件 对 值 为 200112 的 
_POSIX_C_SOURCE 不 做 解释 。)〉 若 将 其 值 定 义 为 200809， 便 会 开启 对 
POSIX.1-2008 基 本 规范 定义 的 支持 。 〈2.10 版 本 之 前 ，glibc 头 文件 对 值 
为 200809 的 _POSIX_C_SOURCE 不 做 解释 。) 





_XOPEN_SOURCE 


一 经 定义 《任何 值 ) ， 头 文件 会 显露 对 POSIX.1、POSIX.2 和 
X/Open(XPG4) 标 准 的 定义 。 知 将 其 值 定 义 为 大 于 等 于 500， 还 会 开局 对 
SUSv2 (UNIX 98 和 XPG5) 扩 展 的 支持 。 寿 将 其 值 设 置 为 大 于 等 于 600， 
则 又 开启 了 对 SUSv3 XSI (UNIX 03) 扩 展 和 C99 扩 展 的 支持 。 (2.2 版 本 
之 前 ，glibc 头 文件 对 值 为 600 的 _XOPEN_SOURCE 不 做 解释 。) 若 将 其 
值 设 置 为 大 于 等 于 700， 便 会 开启 对 SUSv4 XSI 扩 展 的 支持 (2.10 版 本 之 
前 ，glibc 头 文件 对 值 为 700 的 _XOPEN_SOURCE 不 做 解释 ) 。 之 所 以 选 
择 500、600 和 700 作 为 取 值 ， 是 因为 SUSv2、SUSv3 和 SUSv4 分 别 是 
X/Open 规 范 的 第 5 号 、 第 6 号 和 第 7 号 。 


以 下 列 出 为 glibc 专 用 的 特性 测试 宏 : 
_BSD_SOURCE 


一 经 定义 《任何 值 ) ， 开 启 对 BSD 定 义 的 支持 。 此 外 ， 只 要 定义 了 
该 安 ， 便 以 值 199506 定 义 了 _POSIX_C_SOURCE。 极 少数 的 情况 下 ， 当 
标准 之 间 发 生 冲 突 时 ， 显 式 设 置 该 宏 会 导致 系统 向 BSD 定 义 倾斜 。 


_SVID_SOURCE 


一 经 定义 〈 任 何 值 ) ， 头 文件 会 显露 符合 System V 接 口 规范 
(SVID) 的 定义 。 











_GNU_SOURCE 


一 经 定义 《任何 值 ) ， 头 文件 除了 会 显露 符合 前 述 所 有 标准 的 定义 
(通过 设置 前 述 所 有 宏 来 提供 〉 外 ， 还 会 开启 对 各 种 GNU 扩 展 定 义 的 支 


持 。 


在 不 带 任何 特殊 选项 调用 GNU C 编 译 器 时 ， 即 默认 定义 了 
_POSIX_SOURCE、_POSIX_C_SOURCE=200809 (glibc 版 本 为 2.5-2.9 
时 ， 其 值 为 200112; glibc 版 本 低 于 2.4 时 ， 其 值 为 199506) 、 
_BSD_SOURCE 以 及 _SVID_SOURCE。 


在 对 个 别 宏 进行 了 定义 ， 或 以 其 标准 模式 之 一 去 调用 编译 器 时 《〈 比 
如 , cc -ansi 或 cc - std=c99) ， 只 会 按 需 提供 定义 。 不 过 ， 有 一 个 例 
Sb: 耕 未 对 _POSIX_C_SOURCE 为 行 定义 ， 且 未 以 标准 模式 之 一 去 调用 
编译 器 ， 则 _POSIX_C_SOURCE 的 值 会 被 定义 为 200809 (glibc 版 本 为 
2.4-2.9 时 ， 其 值 为 200112; glibc 版 本 低 于 2.4 时 ， 其 值 为 199506) 。 


定义 多 个 宏 有 登 加 效应 ， 故 而 缺 省 情况 下 所 提供 的 宏 设 置 ， 也 可 使 
用 如 下 cc 命令 来 明确 选择 : 


$ cc -D_POSIX_SOURCE -D_POSIX_C_SOURCE=199506 \ 
-D_BSD_SOURCE -D_SVID_SOURCE prog.c 








<features.h> 头 文件 和 feature_test_macros(7) 手 册页 ， 针 对 赋 给 每 个 
特性 测试 宏 的 值 ， 提 供 了 更 多 精确 信息 。 


_POSIX_C_SOURCE, _XOPEN_SOURCEL) & POSIX.1/SUS 


fEPOSIX.1-2001/SUSv3'F, {Xx} _POSIX_C_SOURCE#ll 
_XOPEN_SOURCE 特 性 测试 宏 进行 了 明确 定义 ， 应 用 程序 要 符合 该 标 
准 ， 应 分 别 将 上 述 两 宏 的 值 定 义 为 200112 和 600。 将 
_POSIX_C_SOURCE 值 定义 为 200112， 即 表示 应 用 程序 符合 POSIX.1- 
2001 基 本 规范 〈 即 符合 除 XSI 扩 展 规范 以 外 的 POSIX 规 范 ) 。 将 
_XOPEN_SOURCE 值 定义 为 600， 即 表示 应 用 程序 符合 SUSv3 规 范 〈 即 
符合 XSI 规 范 基 本 规范 加 XSI 扩 展 规范 ) 。 上 述 声明 同样 适用 于 
POSIX.1-2008/SUSvV4， 只 是 需要 将 上 述 两 个 特性 测试 宏 的 值 分 别 定 义 为 
200809 和 700。 


SUSv3 明文 规定 将 _ XOPEN_SOURCE 设置 为 600 所 提供 的 特性 ， 


就 包含 了 将 POSIX_C_SOURCE 设 置 为 200112 时 所 激活 的 所 有 特性 。 
此 ， 为 符合 SUSv3〔 即 XSI 规 范 ) ， 应 用 程序 只 需要 定义 
_XOPEN_SOURC。SUSv4 做 出 了 类 似 规定 ， 将 _XOPEN_SOURCE 设 置 
为 700 所 提供 的 特性 ， 包 含 了 _POSIX_C_SOURCE 值 被 设置 为 200809 时 
所 激活 的 所 有 特性 。 


函数 原型 及 源码 示例 中 的 特性 测试 宏 


手册 页 则 描述 了 欲 使 芭 个 特定 常量 定义 或 函数 声明 在 头 文件 中 可 
见 ， 应 该 定义 哪些 特性 测试 宏 。 为 本 书 编写 的 所 有 源码 示例 ， 编 译 时 采 
用 缺 省 的 GNU C 语 言 编译 器 选项 或 如 下 选项 : 


$ cc -std=c99 -D_XOPEN_SOURCE=600 


对 于 在 本 书 中 出 现 的 函数 ， 为 了 能 在 以 上 述 两 种 方式 编译 的 程序 中 
编译 通过 ， 在 其 原型 处 均 注 明了 使 用 这 些 函 数 所 必须 定义 的 任何 特性 测 
试 宏 。 手 册页 中 ， 对 于 启用 每 一 函数 声明 所 需 定 义 的 特性 测试 宏 ， 则 有 
更 为 精确 的 描述 。 


3.6.2 ”系统 数据 类 型 


不 同 实现 的 数据 类 型 ， 例 如 : 进程 ID、 用 户 ID 以 及 文件 偏 移 量 ， 
示 时 均 及 用 标准 C 语 言 类 型 。 尺 省 也 有 可 能 使 用 C 语 言 的 基本 类 型 ， 诸 
如 int 和 long， 来 声明 存储 此 类 信息 的 变量 ， 但 这 一 做 法 降低 了 不 同 
UNIX 系 统 间 相互 移植 的 难度 ， 分 析 如 下 。 


。 随 着 UNIX 实 现 的 不 同 〈 例 如 ，long 型 可 能 在 系统 A 上 长 度 为 4 字 
节 ， 在 系统 B 上 为 8 字 节 ) ， 有 时 甚至 是 同一 实现 中 编译 环境 的 不 
同 ， 这 些 基 本 类 型 的 大 小 各 不 相同 。 更 有 甚 者 ， 不 同 实现 可 能 会 使 
用 不 同类 型 来 表示 相同 信息 。 例 如 ， 进 程 ID 在 系统 A 上 为 int 型 ， 而 
在 系统 B 上 为 long 型 。 

。 即便 是 针对 同一 蒜 UNIX 实 现 ， 用 以 表征 信息 的 类 型 在 不 同 版 本 之 
间 也 会 有 所 不 同 。Linux 上 较为 知名 的 例子 是 用 户 ID 和 组 ID。 在 
Linux 2.2 及 其 之 前 ， 这 些 值 以 16 位 表示 。 在 2.4 及 其 之 后 ， 则 以 32 位 
表示 。 


为 避免 此 类 可 移植 性 问题 ，SUSv3 规 范 了 各 种 标准 系统 数据 类 型 ， 
并 要 求 各 个 实现 适当 加 以 定义 和 使 用 。 每 种 类 型 的 定义 均 使 用 C 语 言 的 





























typedef 特 性 。 例 如 ，pid_t 数 据 类 型 用 以 表示 进程 ID， 在 Linux/x86-32 


typedef int pid t; 


标准 系统 数据 类 型 中 的 大 多 数 ， 其 命名 均 以 _t 结 尾 。 其 中 的 许多 都 
声明 于 头 文件 <sys/types.h> 中 ， 余 下 的 少量 则 定义 于 其 他 头 文件 中 。 


应 用 程序 应 采用 这 些 类 型 定义 来 声明 其 使 用 的 变量 ， 才 能 保证 可 移 
植 性 。 例 如 ， 如 下 声明 将 允许 应 用 程序 在 任何 符合 SUSv3 标 准 的 系统 上 
正确 表示 进程 ID。 


pid t mypid; 


23-15) HHS ES Pe BY AB Od RAAK, PSP EY SE 
定 类 型 ，SUSv3 要 求 以 “运算 类 型 (arithmetic type) ”来 加 以 实现 。 这 意 
味 着 ， 实 现 所 选择 的 底层 类 型 ， 要 么 为 整数 类 型 ， 要 么 为 浮 点 《实数 或 
复数 ) 型 。 











表 3-1: 系统 数据 类 型 选 3 


录 





AR 文件 块 大 小 (15.1 节 ) 
无 名 终端 特殊 字符 (62.470 ) 
整 型 或 浮 点 型 实数 以 时 钟 周期 计量 的 系统 时 间 (10.7 节 ) 















PEE E 
coms [suso 经 由 压缩 处 理 的 时 钟 周期 (28.17) 


dev_t 运算 类 型 之 一 设备 号 ， 包 含 主 、 次 设备 写 〈15.1 节 ) 


























select() (63.2.1707) 中 的 文件 描述 符 集合 
符 文件 系统 块 数 量 〈14.11 节 ) 

符 件数 量 (14.11 节 ) 

数值 型 组 标识 符 (8.3 节 ) 


eich 以 存放 标识 符 的 通用 类 型 ， 其 大 小 至 少 可 放 
id t 整 型 

= 置 pid_t、uid_t 和 gid_t 类 型 
in_addr t ”|32 位 无 符号 整 型 IPv4 地 址 (59.445) 







































































立 无 各 IP 端 口号 (59.477) 

文件 i-node 号 〈15.1 节 ) 

运算 类 型 2 System V IPC 键 (45.2 节 ) 
文件 权限 及 类 型 (15.1 节 ) 


CE E POSIX 消 息 队 列 描述 符 
: System V 消 息 队 列 所 允许 的 字 节 数 (46.4 市 ) 
s 型 System V 消 息 队 列 中 的 消息 数量 (46.475) 



































nfds_t 无 符号 整 型 poll() 《63.2.2 节 ) 中 的 文件 描述 符 数 量 





FA E) 连接 数量 (15.17) 

















进程 ID、 进 程 组 ID 或 会 话 ID (6.357. 34.275, 


























两 指针 差 值 ， 为 有 符号 整 型 








资源 限制 (36.2 节 ) 


sa_family_t | 无 符号 整 型 套 接 字 地 址 族 (56.4 节 ) 






































stack_t 结构 类 型 对 备 选 信号 栈 的 描述 (21.3 节 ) 


有 符号 整 型 ， 范 围 为 | 微 秘 级 的 时 间 间隔 《10.1 节 
ies ii 
ee fo 无 符号 整 弄 终端 模式 标志 位 的 位 掩 码 62.2 节 ) 








自 所 谓 纪元 (Epoch) 〈10.1 节 ) 始 ， 以 秒 计 的 


日 历时 间 


POSIX.1b 间 隔 定时 器 函数 〈23.6 节 ) 的 定时 器 
标识 符 


数值 型 用 户 标识 符 (8.17) 


在 后 续 章 节 中 tt ERK 3-1 的 数据 类 型 时 ， 常会 作 如 下 表述 : 某 类 
型 “为 一 整数 类 型 〈 由 SUSv3 所 规定 ) ”。 这 是 指 SUSv3 要 求 以 整 型 来 定 
义 该 类 型 ， 但 不 要 求 使 用 某 一 特定 的 原生 (native) 数据 类 型 〈 例 如 : 
short、int 或 1ong) . (通常 ， 针 对 Linux 中 的 每 种 系统 数据 类 型 ， 书 中 
不 会 言明 实际 会 使 用 哪 种 原生 数据 类 型 加 以 表示 ， 因 为 编写 可 移植 应 用 
程序 时 无 需 关 注 这 点 。) 


打印 系统 数据 类 型 值 


当 需 要 打印 表 3-1 所 列 数值 型 系统 数据 类 型 〈 例 如 : pid_t 和 和 uid_t) 

的 值 时 ， 调 用 printfO 应 留意 不 要 引入 对 表现 形式 的 依赖 。 这 一 依赖 是 由 
于 C 语 言 的 〈 升 级 型 ) 自动 类 型 转换 造成 的 。 
int 型 ， Wn ng E \ 问 。 这 天意 味 着 传 入 printfO 的 要 
ont 要 么 为 long 型 。 然 而 ， a 
型 ， 调 用 者 必须 明确 其 格式 限定 符 为 9d 还 是 %ld。 问 题 在 于 在 printf() 中 
仪 就 一 种 限定 符 进 行 编码 会 导致 对 实现 的 依赖 。 常 见 的 应 对 策略 是 强制 
转换 相应 值 为 long 型 后 ， 再 使 用 %ld 的 限定 符 ， 如 下 所 示 : 

















pid t mypid; 


mypid = getpid(); /* Returns process ID of calling process */ 
printf("My PID is %ld\n", (long) mypid); 


上 述 技 术 有 个 例外 。 因 为 在 一 些 编译 环境 中 数据 类 型 off t 大 小 与 
long long 相 当 ， 所 以 会 将 off_t 强 制 转换 为 该 类 型 并 使 用 %lld 的 限定 符 ， 
如 5.10 节 所 述 。 


C99 标 准 为 printf 定 义 了 名 为 z 的 长 度 修饰 符 ， 以 表明 紧 
随 其 后 的 整 型 转换 是 与 size_t 或 ssize_t 类 型 相对 应 的 。 
而 ， 要 对 付 这 些 类 型 ， 就 可 以 用 9%zd 来 取代 %1d 外 加 类 型 转 
换 的 方法 了 。 尽 省 glibc 支 持 该 限定 符 ， 但 其 并 未 获得 所 有 
UNIX 实 现 的 文 持 ， 故 而 本 书 也 避免 采用 这 一 做 法 。 


C99 标 准 还 定义 有 名 为 j 的 长 度 修 饰 符 ， 并 规定 其 相应 
参数 的 类 型 为 intmax_t (或 uintmax_t) ， 该 类 型 之 大 ， 足 以 
用 其 表示 任何 类 型 的 整数 。 最 终 ， 使 用 intmax _t 强 制 转换 外 
加 %jd 限 定 符 的 方案 应 取代 long 强 制 转 换 外 加 %ld 限 定 符 的 
方案 ， 成 为 打印 数值 型 系统 数据 类 型 的 首选 ， 因 为 前 者 可 
以 处 理 long long 型 值 和 诸如 int128_t 之 类 的 任 一 可 扩展 整数 
类 型 。 然 而 ， 出 于 相同 的 原因 (未 获得 所 有 UNIX 实 现 的 文 
持 ) ， 本 书 没有 采用 这 一 技术 。 





3.6.3 ”其 他 的 可 移植 性 问题 
本 节 所 讨论 的 ， 是 进行 系统 编程 时 可 能 会 遇 到 的 一 些 其 他 可 移植 性 


问题 。 


初始 化 操作 和 使 用 络 构 


每 种 UNIX 实 现 ， 都 明确 定义 了 一 系列 标准 结构 ， 用 于 各 种 系统 调 
用 及 库 函 数 。 现 试 举 一 例 ， 请 考虑 用 来 表示 信号 量 操作 (通过 semop() 
系统 调用 去 执行 ) 的 结构 sembnuf: 


struct sembuf { 





unsigned short sem_num; /* Semaphore number */ 
short sem Op; /* Operation to be performed */ 
short sem flg; /* Operation flags */ 


}; 
尽管 SUSv3 定 义 了 诸如 sembuf 之 类 的 结构 ， 但 意识 到 如 下 两 点 尤为 
重要 。 
。 总 体 而 言 ， 未 对 此 类 结构 内 部 的 字段 顺序 作出 规范 。 
。 一 些 情况 下 ， 此 类 结构 内 会 包含 额外 的 、 与 实现 相关 的 字段 。 
因此 ， 以 如 下 方式 对 数据 结构 进行 初始 化 ， 其 代码 是 无 法 移植 的 : 


struct sembuf s = { 3, -1, SEM UNDO }; 


这 段 初 始 化 程序 尽管 在 Linux 上 运行 没有 问题 ， 但 在 其 他 一 些 实现 
上 ， 由 于 对 sembuf 结 构 的 定义 中 顺序 会 有 所 不 同 ， 故 而 将 无 法 工作 。 要 
在 初始 化 时 消除 此 类 移植 问题 ， 必 须 明 确 采 用 如 下 赋值 语句 : 


struct sembuf s; 








s.sem num = 3; 
s.sem op = -1; 
s.sem_flg = SEM_UNDO; 


如 果 采 用 的 是 C99 语 言 标准 ， 可 以 利用 该 语言 针对 结构 初始 化 的 新 
语法 ， 写 出 等 价 代码 : 


struct sembuf s = { .sem num = 3, .sem op = -1, .sem flg = SEM UNDO }; 


若 需 要 将 标准 结构 的 内 容 转 储 到 文件 时 ， 标 准 结构 的 成 员 顺 序 也 要 
加 以 考虑 。 此 时 要 消除 可 移植 性 问题 ， 简 单 地 将 结构 以 二 进 制 形式 写 入 
是 无 济 于 事 的 。 相 反 ， 必 须 将 结构 内 字段 以 特定 顺序 逐一 加 以 记录 (可 
能 是 以 文本 形式 ) 。 


使 用 未 见 诺 于 所 有 实现 的 宏 








有 了 时， 未 必 所 有 的 UNIX 实 现 都 对 一 个 宏 做 了 定义 。 例 如 ， 
WCOREDUMPO 宏 《用 于 检测 子 进程 是 否 生 成 了 核心 转 储 文件 ) 的 使 用 
非常 广泛 ， 但 SUSv3 却 并 未 对 其 进行 规范 。 因 此 ， 在 某 些 UNIX 实 现 
上 ， 该 宏 并 不 存在 。 要 妥善 处 理 此 类 潜在 的 可 移植 性 问题 ， 可 以 使 用 C 
语言 的 预 编译 指令 ##fdef， 如 下 所 示 : 

#ifdef WCOREDUMP 


/* Use WCOREDUMP() macro */ 
#endif 


不 同 实 现 间 所 需 头 文件 的 变化 


有 些 情况 下 ， 包 含 各 种 系统 调用 和 库 函 数 原 型 的 头 文 件 ， 在 不 同 
UNIX 实 现 之 间 会 有 所 不 同 。 本 书 仪 展示 Linux 的 需求 ， 并 注 明 其 与 
SUSv3 间 的 各 种 变化 。 


本 书 论 及 部 分 函数 时 ， 会 引入 特定 头 文件 ， 伴 之 以 %# 出 于 可 移植 
型 考虑 */” 形 式 的 注解 。 这 表明 Linux 和 SUSv3 都 不 需要 此 头 文件 ， 但 由 
于 某 些 其 他 (尤其 是 老 一 些 的 ) 实现 可 能 需要 ， 在 可 移植 程序 中 应 将 其 
纳入 。 

















POSIX.1-1990 兽 规定， 编程 时 如 需 使 用 其 所 规范 的 许 
多 函数 ， 在 包含 与 该 函数 相关 的 任何 其 他 头 文件 之 前 ， 必 
须 包 含 头 文件 <sys/types.h>。 可 是 ， 这 一 要 求 不 久 就 成 了 多 
此 一 举 。 绝 大 多 数 现代 UNIX 实 现 中 的 应 用 程序 ， 在 使 用 这 
些 函 数 时 都 无 需 包 含 此 头 文件 。SUSv1 因 而 删除 了 这 一 要 
求 。 然 而 ， 在 编写 可 移植 程序 时 ， 将 以 其 为 首 的 头 文 件 包 
括 在 内 ， 仍 不 失 为 明智 之 举 。 (不 过 ， 本 书 的 程序 示例 中 
省 去 这 一 头 文件 ， 因 为 在 Linux 平 台 下 此 举 实 属 多 余 ， 而 程 
FRARAS tH Kb T 





3.7 ”总结 


系统 调用 人 允许 进程 加 内核 请 求 服务 。 与 用 户 空间 的 函数 调用 相 比 ， 
哪 伯 是 最 简单 的 系统 调用 都 会 产生 显著 的 开销 ， 其 原因 是 为 了 执行 系统 
调用 ， 系 统 需要 临时 性 地 切换 到 核心 态 ， 此 外 ， 内 核 还 需 验证 系统 调用 
的 参数 、 用 户 内 存 和 内 核 内 存 之 间 也 有 数据 需要 传递 。 


标准 的 C 语 言 函 数 库 提 供 了 大 量 库 函 数 ， 功 能 五 花 八 门 。 有 些 库 函 
数 会 利用 系统 调用 来 完成 工作 ， 而 另 一 些 库 函数 则 完全 在 用 户 空 间 内 执 
行 任务 。 在 Linux 上 ， 一 般 情 况 下 ， 使 用 glibc 作 为 C 语 言 标准 库 的 实现 。 


大 多 数 系统 调用 和 库 函 数 都 会 返回 一 个 状态 值 ， 以 表明 调用 成 功 与 
人 否 。 对 这 一 返回 状态 进行 检查 是 一 条 编程 铁 律 。 


为 本 书 的 程序 示例 还 实现 有 一 批 函 数 。 其 所 执行 的 任务 包括 诊断 错 
误 和 解析 命令 行 参数 。 


本 章 也 提供 了 一 系列 指南 及 技术 ， 以 帮助 读者 编写 可 移植 的 系统 程 
序 ， 此 类 程序 可 在 任何 符合 标准 的 系统 上 运行 。 


编译 应 用 程序 时 ， 可 定义 不 同 的 特性 测试 宕 ， 以 控制 头 文件 显露 对 
特定 标准 的 定义 。 当 和 希望 确保 程序 符合 东 些 正式 或 由 实现 定义 的 标准 
时 ， 上 述 做 法 可 谓 是 非常 实用 。 


利用 定义 于 各 个 标准 中 《而 非 原 生 C 语 言 类 型 ) 的 系统 数据 类 型 ， 
能 够 改善 系统 编程 的 可 移植 性 。SUSv3 定 义 有 大 量 系统 数据 类 型 ， 
UNIX 实 现 应 加 以 支持 ， 应 用 程序 应 了 予以 采用 。 





























3.8 ”练习 


3-1. 使 用 Linux 专 有 的 reboot() 系 统 调 用 重启 系统 时 ， 必 须 将 第 二 个 
参数 magic2 定 义 为 一 组 magic 号 之 一 (例如 ， 
LINUX_REBOOT_MAGIC2) 。 oe X? (将 magic 号 转 
换 为 十 六 进 制 数 ， 对 解 题 会 有 所 帮助 。 





Dyt: #include. 
QRA: 以 宏 的 形式 。 


(3) 译 者 注 : H#include. 


第 4 音 ”文件 VO: 通用 的 VO 模型 


”现在 ， 我 们 开始 深入 研究 系统 调用 API。 作 为 UNIX 系 统 设计 思想 的 
核心 理念 ， 文 件 (file》 是 一 个 不 错 的 起 点 。 本 章 重 点 介绍 用 于 文件 输 
入 /输出 的 系统 调用 。 


本 章 开 篇 会 讨论 文件 描述 符 的 概念 ， 随 后 会 逐一 讲解 构成 通用 IO 
模型 的 系统 调用 ， 其 中 包括 : 打开 文件 、 关 团 文件 、 从 文件 中 读数 据 和 
器 文件 中 写 数 据 。 


本 章 所 关注 的 是 磁盘 文件 的 IO 操作 。 然 而 ， 鉴 于 可 以 采用 相同 的 
系统 调用 对 诸如 管道 、 终 端 等 所 有 类 型 的 文件 施 以 输入 /输出 操作 ， 故 
而 本 章 的 大 部 分 内 容 会 与 后 续 章 节 有 头 。 


第 5 章 会 在 本 章 基 础 上 对 文件 UO 做 深入 探讨 。 绥 冲 (buffering) 是 
文件 IO 的 另 一 要 点 ， 其 复杂 程度 足以 专 辟 一 章 讲述 。 第 13 章 惑 涵 盖 了 
内 核 和 stdio 库 中 的 IO 缓冲 。 








4.1 概述 


所 有 执行 IO 操作 的 系统 调用 都 以 文件 描述 符 ， 一 个 非 负 整数 〈 通 
党 是 小 整数 ) ， 来 指 代打 开 的 文件 。 文 件 摘 述 符 用 以 表示 所 有 类 型 的 已 
打开 文件 ， 包 括 管道 (pipe) ~ FIFO, socket, Aim, WAM 
件 。 针 对 每 个 进程 ， 文 件 描 述 符 都 自 成 一 套 。 


按照 惯例 ， 大 多 数 程序 都 期 望 能 够 使 用 3 种 标准 的 文件 描述 符 ， 见 
表 4-1。 在 程序 开始 运行 之 前 ，shell 代 表 程 序 打开 这 3 个 文件 描述 符 。 更 
确切 地 说 ， 程 序 继承 了 shell 文 件 描述 符 的 副本 一 一 在 shell 的 日 和 营 操作 
中 ， 这 3 个 文件 描述 符 始终 是 打开 的 。 在 交互 式 shell 中 ， 这 3 个 文件 描 
述 符 通 常 指 向 shell 运 行 所 在 的 终端 。) 如 果 命 令 行 指 定 对 输入 /输出 进行 
重 定向 操作 ， 那 么 shell 会 对 文件 描述 符 做 适当 修改 ， 然 后 再 启动 程序 。 











表 4-1: 标准 文件 描述 符 


文件 描述 符 用 途 POSIX 名 称 





标准 输入 STDIN_FILENO 
标准 输出 STDOUT_FILENO 
标准 错误 STDERR_FILENO 








在 程序 中 指 代 这 些 文件 描述 符 时 ， 可 以 使 用 数字 CO. 1. 2) K 
示 ， 或 者 采用 <unistd.h> 所 定义 的 POSIX 标 准 名 称 此 方法 更 为 可 
取 。 





虽然 stdin、stdout 和 stderr 变 量 在 程序 初始 化 时 用 于 指 代 
进程 的 标准 输入 、 标 准 输出 和 标准 错误 ， 但 是 调用 
freopen0 库 函数 可 以 使 这 些 变量 指 代 其 他 任何 文件 对 象 。 
作为 其 操作 的 一 部 分 ，freopen() 可 以 在 将 流 (stream) 重新 
打开 之 际 一 并 更 换 隐 匿 其 中 的 文件 描述 符 。 换 言 之 ， 针 对 


stdout 调 用 freopen0 函 数 后 ， 无 法 保证 stdout 变 量 值 仍然 为 
ile 


下 面 介绍 执行 文件 IO 操作 的 4 个 主要 系统 调用 《编程 语言 和 软件 包 
通 第 会 利用 WO 函数 库 对 它们 进行 间接 调用 〉。 


e fd = open(pathname, flags, mode) 函数 打开 pathname 所 标识 的 文件 ， 
并 返回 文件 描述 符 ， 用 以 在 后 续 函 数 调 用 中 指 代打 开 的 文件 。 如 果 
文件 不 存在 ，open0) 函 数 可 以 创建 之 ， 这 取 雇 于 对 位 撼 码 参数 flags 
的 设置 。flags 参 数 还 可 指定 文件 的 打开 方式 : 只 读 、 只 写 亦 或 是 读 
写 方式 。mode 参 数 则 指定 了 由 openO 调 用 创建 文件 的 访问 权限 ， 如 
果 open() 函 数 并 未 创建 文件 ， 那 么 可 以 忽略 或 省 略 mode 参 数 。 
numread = read(fd, buffer, count) 调用 从 fd 所 指 代 的 打开 文件 中 读 取 
至 多 count 字 节 的 数据 ， 并 存储 到 buffer 中 。readO 调 用 的 返回 值 为 实 
际 读 取 到 的 字 节 数 。 如 果 再 无 字 节 可 读 ( 例 如: 读 到 文件 结尾 符 
EOF 时 ) ， 则 返回 值 为 0。 

e numwritten = write(fd, buffer, count) 调用 从 buffer 中 读 取 多 达 count 字 
节 的 数据 写 入 由 fd 所 指 代 的 已 打开 文件 中 。write(0) 调 用 的 返回 值 为 
实际 写 入 文件 中 的 字 市 数 ， 且 有 可 能 小 于 count。 

e status = close(fqd) 在 所 有 输入 /输出 操作 完成 后 ， 调 用 dlose()， 释 放 文 
件 描 述 符 fd 以 及 与 之 相关 的 内 核资 源 。 

在 详细 说 明 这 些 系 统 调用 之 前 ， 程 序 清单 4-1 简 要 展示 了 它们 的 使 
用 方法 。 该 程序 实现 了 一 个 简 版 的 cp(1) 命 令 ， 将 源 文件 内 容 复 制 到 新 文 
件 中 。 在 命令 行 中 ， 程 序 的 第 一 个 参数 代表 已 存在 的 源 文件 ， 第 二 个 参 
数 则 代表 新 文件 。 程 序 清单 4-1 如 下 所 示 : 


$ ./copy oldfile newfile 














程序 清单 4-1: 使 用 MO 系统 调用 

















#include <sys/stat.h> 
#include <fcntl.h> 
#include "tlpi hdr.h" 


#ifndef BUF_SIZE /* Allow "cc -D" to override definition */ 
#define BUF SIZE 1024 
#endif 
int 
main(int argc, char *argv[]) 
{ 
int inputFd, outputFd, openFlags; 
mode_t filePerms; 
ssize_t numRead; 
char buf[BUF SIZE]; 
if (argc != 3 || strcmp(argv[1], "--help") == 0) 
usageErr("%s old-file new-file\n", argv[0]); 
/* Open input and output files */ 
inputFd = open{argv[1], O_RDONLY); 
if (inputFd == -1) 
errExit("opening file %s", argv[1]); 
openFlags = 0 CREAT | O WRONLY | 0 TRUNC; 
filePerms = S TRUSR | S TWUSR | S_IRGRP | S _TWGRP | 
S IROTH | S_IWOTH; /* yw-rw-rw- */ 
outputFd = open(argv[2], openFlags, filePerms); 
if (outputFd == -1) 
errExit("opening file %s", argv[2]); 
/* Transfer data until we encounter end of input or an error */ 
while ({numRead = read(inputFd, buf, BUF_SIZE)) > 0) 
if (write(outputFd, buf, numRead) != numRead) 
fatal("couldn't write whole buffer"); 
if (numRead == -1) 
errExit("read"); 
if (close({inputFd) == -1) 
errExit("close input"); 
if (close({outputFd) == -1) 
errExit("close output"); 
exit(EXIT SUCCESS); 
} 


fileio/copy.c 


fileio/copy.c 


4.2 ”通用 LO 


UNIX IO 模型 的 显著 特点 之 一 是 其 输入 /输出 的 通用 性 概念 。 这 意 
味 着 使 用 4 个 同样 的 系统 调用 open0、read0、write0 和 closeO 可 以 对 所 有 
类 型 的 文件 执行 1O 操 作 ， 包 括 终 端 之 类 的 设备 。 因 此 ， 仅 使 用 这 些 系 
统 调用 编写 的 程序 ， 将 对 任何 类 型 的 文件 有 效 。 例 如 ， 针 对 程序 清单 4- 
1 中 的 程序 ， 如 下 操作 都 是 有 效 的 : 


$ ./copy test test.old Copy a regular file 

$ ./copy a.txt /dev/tty Copy a regular file to this terminal 

$ ./copy /dev/tty b.txt Copy input from this terminal to a regular file 
$ ./copy /dev/pts/16 /dev/tty Copy input from another terminal 





要 实现 通用 IO， 瓯 必须 确保 每 一 文件 系统 和 设备 驱动 程序 都 实现 
本 相同 的 VO 系统 调用 集 。 由 于 文件 系统 或 设备 所 特有 的 操作 细 市 在 内 
核 中 处 理 ， 在 编程 时 通常 可 以 忽略 设备 专 有 的 因素 。 一 旦 应 用 程序 需要 
访问 文件 系统 或 设备 的 专 有 功能 时 ， 可 以 选择 瑞士 车 刀 般 的 ioct10) 系 统 
调用 (4.8 市 ) ， 该 调用 为 通用 VO 模型 之 外 的 专 有 特性 提供 了 访问 接 
O. 


4.3 打开 一 个 文件 : open() 


也 能 创建 并 打开 一 个 新 
| 





#include <sys/stat.h> 
#include <fcntl.h> 


int open(const char *pathname, int flags, ... /* mode_t mode */); 








Returns file descriptor on success, or -1 on crror 





要 打开 的 文件 由 参数 pathname 来 标识 。 如 果 pathname 是 一 符号 链 
接 ， 会 对 其 进行 解 引用 。 如 果 调 用 成 功 ，open() 将 返回 一 文件 描述 符 ， 
用 于 在 后 续 函 数 调用 中 指 代 该 文件 。 知 发 生 错误 ， 则 返回 -1， 并 将 errno 
置 为 相应 的 错误 标志 。 

参数 flags 为 位 掩 码 ， 用 于 指定 文件 的 访问 模式 ， 可 选择 表 4-2 所 示 
的 常量 之 一 。 


早期 的 UNIX 实 现 中 使 用 数字 0、1、2， 而 非 表 4-2 中 所 
列 的 常量 名 称 。 大 多 数 现 代 UNIX 实 现 将 这 些 常 量 定 义 为 上 
述 相 应 数字 以 期 与 早期 系统 保持 兼容 ) 。 由 此 可 见 ， 
O_RDWR 并 不 等 同 于 O_RDONLY |O_WRONLY， 后 者 
(或 组 合 ) 属于 逻辑 错误 。 


当 调 用 open(0) 创 建新 文件 时 ， 位 掩 码 参数 mode 指 定 了 文件 的 访问 权 
限 。 (SUSv3 规 定 ，mode 的 数据 类 型 mode_t 属 于 整数 类 型 。) 如 果 
open() 并 未 指定 O_CREAT 标 志 ， 则 可 以 省 略 mode 参 数 。 
表 4-2: 文件 访问 模式 
| | 

















访问 模式 es 


以 只 读 方式 打开 文件 





15.4 节 将 详细 摘 述 文件 权限 。 之 后 ， 读 者 会 了 解 到 新 建文 件 的 访问 
权限 不 仅仅 依赖 于 参数 mode， 而 且 受 到 进程 的 umask 值 (15.4.67) 和 





(可 能 存在 的 ) 父 目 录 的 默认 访问 控制 列表 〈17.6 节 ) 影响 。 与 此 同 

时 ， 需 要 注意 mode 参 数 可 以 指定 为 数字 〈 通 常 为 八进制 数 ) ， 更 为 可 
(15.4.1 节 )〉 中 所 列 位 掩 码 常 量 进行 逻辑 
或 (|) 操作 。 


程序 清单 4-2 展 示 了 openO 调 用 的 几 个 使 用 实例 ， 其 中 有 些 调用 用 到 
了 其 他 标志 位 ， 后 续 将 会 加 以 介绍 。 




















程序 清单 4-2: open 函 数 使 用 的 例子 








/* Open existing file for reading */ 


fd = open("startup", O_RDONLY); 
if (fd == -1) 
errExit("open") ; 


/* Open new or existing file for reading and writing, truncating to zero 
bytes; file permissions read+write for owner, nothing for all others */ 


fd = open("myfile", O_RDWR | O CREAT | O TRUNC, S_IRUSR | S IWUSR); 
if (fd == -1) 
errExit ("open"); 


/* Open new or existing file for writing; writes should always 
append to end of file */ 


fd = open("w.log", O WRONLY | O CREAT | O TRUNC | O APPEND, 
S IRUSR | S IWUSR); 
if (fd == -1) 
errExit("open"); 





open() 调 用 所 返回 的 文件 描述 符 数 值 


SUSv3 规定 ， 如 果 调 用 open0 成 功 ， 必 须 保证 其 返回 值 为 进程 未 用 
文件 描述 符 中 数值 最 小 者 。 可 以 利用 该 特性 以 特定 文件 摘 述 符 打 开 某 一 
文件 。 例 如 ， 如 下 代码 序列 就 会 确保 使 用 标准 输入 《文件 描述 符 0) FT 
Hs 
if (close(STDIN FILENO) == -1) /* Close file descriptor 0 */ 

errExit("close"); 


fd = open(pathname, O RDONLY); 
if (fd == -1) 
errExit ("open"); 


由 于 文件 描述 符 0 未 用 ， 所 以 open0 调 用 势必 使 用 此 描述 符 打开 文 
件 。 5.5 节 中 所 论 及 的 dup20 和 fcntlO 也 可 实现 类 似 功能 ， 但 对 于 文件 摘 
述 符 的 控制 更 加 灵活 。 该 节 还 将 举例 说 明 对 于 业已 打开 的 文件 ， 控 制 其 
摘 述 符 为 何 大 有 益处 。 


4.3.1 ”open() 调 用 中 的 flags 参 数 

在 程序 清单 4-2 展 示 的 一 些 open0 调 用 例子 中 ，flags 参 数 除了 使 用 文 
件 访问 标志 外 ， 还 使 用 了 其 他 操作 标志 〈O_CREAT、O_TRUNC 和 
O_APPEND) 。 现 在 将 详细 介绍 flags 参 数 。 表 4-3 总 ai SS 与 flags 参 


数 逐 位 或 运算 〈|) 的 一 鳌 套 前 量 。 最 后 一 列 显 示 种 量 标准 化 于 SUSv3 还 
是 SUSv4。 





表 4-3: open() 系 统 调 用 的 flags 参 数值 介 乡 
































O_CLOEXEC ”| 设置 close-on-exec 标 志 ( 自 Linux 2.6.23 版 本 开始 ) |v4 


Seb a 
如 果 pathname 不 是 目录 ， 则 失败 



































oma ano cmarsatn ， 专 门 用 于 创建 文件 
在 32 位 系统 中 使 用 此 标志 打开 大 文件 


调用 read0 时 ， 不 修改 文件 最 近 访 问 时 间 【〈 自 Linux 
SH} 5i H ghg GLIA > y- Bs te x 
oe (所 指向 的 终端 设备 ) 成 为 # 
v3 











截断 已 有 文件 ， 使 其 长 度 为 零 
总 在 文件 尾部 追加 数据 
当 IO 操 作 可 行 时 ， 产 生 信号 (signal) 通知 进程 


Ce ( 自 Linux 2.6.33 版 本 开 
口 
以 非 阻塞 方式 打开 


O_SYNC 以 同步 方式 写 入 文件 









































a) | | ee | 


表 4-3 中 季 量 分 为 如 下 几 组 。 


e 文件 访问 模式 标志 : 先前 描述 的 O RDONLY、O_WRONLY 和 
O_RDWR 标志 均 在 此 列 ， 调 用 open() 时 ， 上 述 三 者 在 flags 参 数 中 不 
能 同时 使 用 ， 只 能 指定 其 中 一 种 。 调 用 fcntl0 的 F_GETEFL 操 作 能 够 
检索 文件 的 访问 模式 〈 见 5.3 节 ) 。 

。 文件 创建 标志 : 这 些 标志 在 表 4-3 中 位 于 第 二 部 分 ， 其 控制 范围 不 
拘 于 open0 调 用 行为 的 方方面面 ， 还 涉及 后 续 IMO 操 作 的 各 个 选项 。 
这 些 标志 不 能 检索 ， 也 无 法 修改 。 

© 已 打开 文件 的 状态 标志 : 这 些 标志 是 表 4-3 中 的 剩余 部 分 ， 使 用 
fcntl() 的 F_GETFL 和 F_SETFL 操 作 可 以 分 别 检 索 和 修改 此 类 标志 。 
有 时 干脆 将 其 称 之 为 文件 状态 标志 。 


始 于 内 核 版 本 2.6.22， 读 取 位 于 /proc/PID/fdinfo 目 录 下 
的 linux 系 统 专 有 文件 ， 可 以 获取 系统 内 任 一 进程 中 文件 摘 
述 符 的 相关 信息 。 针 对 进程 中 每 一 个 已 打开 的 文件 描述 
符 ， 该 目录 下 都 有 相应 文件 ， 以 对 应 文件 描述 符 的 数值 命 
名 。 文 件 中 的 pos 字 段 表 示 当 前 的 文件 偏 移 量 〈4.7 节 ) 。 而 
flags 字 段 则 为 一 个 八进制 数 ， 表 征文 件 访问 标志 和 已 打开 
文件 的 状态 标志 。 “该 数字 的 解码 需要 参考 这 些 标志 在 C 语 
言 函 数 库 头 文件 中 所 定义 的 数值 。) 








如 下 是 flags 常 量 的 详细 描述 。 
O_APPEND 
总 是 在 文件 尾部 追加 数据 ，5.1 节 将 讨论 此 标志 的 意义 。 


O_ASYNC 





当 对 于 openO 调 用 所 返回 的 文件 描述 符 可 以 实施 IO 操作 时 ， 系 统 
会 产生 一 个 信号 通知 进程 。 这 一 特性 ， 也 被 称 为 信号 驱动 WO， 仪 对 特 
定 类 型 的 文件 有 效 ， 诸 如 终端 FIFOS 及 socket。〔 在 SUSv3 中 并 未 规定 
O_ASYNC 标 志 ， 但 大 多 数 UNIX 实 现 都 支持 此 标志 或 者 老 版 本 中 与 其 等 
效 的 FASYNC 标 志 。) 在 Linux 中 ， 调 用 open0 时 指定 O_ASYNC 标 志 没 
有 任何 实质 效果 。 要 启用 信号 驱动 VO 特性 ， 必 须 调用 fcnt1(0) 的 F_SETFL 
操作 来 设置 O0_ASYNC 标 志 《〈 见 5.3 节 ) 。〔 其 他 一 些 UNIX 系 统 的 实现 
有 类 似 行为 。) 关于 O_ASYNC 标 志 的 更 多 内 容 请 参考 63.3 节 。 


O_CLOEXEC ( 自 Linux 2.6.23 版 本 开始 支持 ) 


为 新 创建》 的 文件 描述 符 启用 close-on-flag 标 志 
(FD_CLOEXEC) 。27.4 市 将 描述 FD_CLOEXEC 标 志 。 使 用 
O_CLOEXEC 标 志 ( 打 开 文 件 ) ， 可 以 免 去 程序 执行 fcntl() 的 F_GETFD 
和 F_SETFD 操 作 来 设置 close-on-exec 标 志 的 额外 工作 。 在 多 线程 程序 中 
执行 fcntl0 的 FE_GETFD 和 F_SETFD 操 作 有 可 能 导致 竞争 状态 ， 而 使 用 
O_CLOEXEC 标 志 则 能 够 避免 这 一 点 。 可 能 引发 竞争 的 场景 是 : 线程 某 
甲 打开 一 文件 摘 述 符 ， 和 莹 试 为 该 摘 述 符 标 记 close-on-exec 标 志 ， 于 此 同 
时 ， 线 程 某 乙 执行 fork0 调 用 ， 然 后 调用 exec0 执 行 任意 一 个 程序 。〈 假 
设 在 某 甲 打开 文件 描述 符 和 调用 fcntl0 设 置 close-on-exec 标 志 之 间 ， 某 乙 
成 功 地 执行 了 fork() 和 exec() 操 作 。) 此 类 竞争 可 能 会 在 无 意 间 将 打开 的 
文件 描述 符 泄露 给 不 安全 的 程序 。 (更 多 关于 竞争 状态 的 内 容 请 参考 
Sis) 

















O_CREAT 


如 果 文 件 不 存在 ， 将 创建 一 个 新 的 空 文件 。 即 使 文件 以 只 读 方式 打 
开 ， 此 标志 依然 有 效 。 如 果 在 open0 调 用 中 指定 O_CREAT 标 志 ， 那 么 还 
人 否则， 会 将 新 文件 的 权限 设置 为 栈 中 的 茶 个 随机 


O_DIRECT 


无 系统 缓冲 的 文件 IO 操作 。 该 特性 将 在 13.6 节 中 详 述 。 为 使 
O_DIRECT 标 志 的 常量 定义 在 <fcntLh> 中 有 效 ， 必 须 定 义 
GNU _ SOURCE 功能 测试 宏 。 


O_DIRECTORY 


如 果 pathname 参 数 并 非 目 录 ， 将 返回 错误 (错误 号 errno 为 
ENOTDIR) 。 这 一 标志 是 专 为 实现 opendirO 函 数 〈18.8 节 ) 而 设计 的 扩 
展 标志 。 为 使 0_DIRECTORY 标 志 的 常量 定义 在 <fcntl.h> 中 有 效 ， 必 须 
定义 GNU_SOURCE 功 能 测试 宏 。 


O_DSYNC ( 自 Linux 2.6.33 版 本 开始 支持 ) 


根据 同步 JO 数据 完整 性 的 完成 要 求 由 来 执行 文件 写 操作 。 参 见 13.3 
节 中 关于 内 核 O 缓 冲 的 讨论 。 


O_EXCL 


此 标志 与 O_CREAT 标志 结合 使 用 表明 如 果 文 件 已 经 存在 ， 则 不 会 
打开 文件 ， 且 open0 调 用 失败 ， 并 返回 错误 ， 错 误 号 errno 为 EEXIST。 
换言之 ， 此 标志 确保 了 调用 者 〈open() 的 调用 进程 ) 就 是 创建 文件 的 进 
程 。 检 查 文件 存在 与 否 和 创建 文件 这 两 步 属 于 同一 原子 操作 。5.1 节 将 
讨论 原子 操作 的 概念 。 如 果 在 flags 参 数 中 同时 指定 了 O_CREAT 和 
O_EXCL 标 志 ， 且 pathname 参 数 是 符号 链接 ， 则 open0 函 数 调用 失败 
(错误 号 errno 为 EEXIST) 。SUSv3 之 所 以 如 此 规定 ， 是 要 求 有 特权 的 
应 用 程序 在 已 知 目录 下 创建 文件 ， 从 而 消除 了 如 下 安全 隐患 ， 使 用 符号 
链接 打开 文件 会 导致 在 另 一 位 置 创建 文件 (例如 ， 系 统 目 录 ) 。 


O_LARGEFILE 


支持 以 大 文件 方式 打开 文件 。 在 32 位 操作 系统 中 使 用 此 标志 ， 以 支 
持 大 文件 操作 。 尽 管 在 SUSv3 中 没有 规定 这 一 标志 ， 但 其 他 一 些 UNIX 
实现 都 支持 这 一 特性 。 此 标志 在 诸如 Alpha、IA-64 之 类 的 64 位 Linux 实 
现 中 是 无 效 的 。 更 多 的 内 容 将 在 5.10 节 中 讨论 。 


O_NOATIME (Linux 2.6.8 版 本 开始 ) 


在 读 文件 时 ， 不 更 新 文件 的 最 近 访 问 时 间 (15.1 节 中 所 描述 的 
st_atime 属 性 ) 。 要 使 用 该 标志 ， 要 么 调用 进程 的 有 效用 户 ID 必须 与 文 
件 的 拥有 者 相 匹 配 ， 要 么 进程 需要 拥有 特权 〈CAP_FOWNER) . F 
则 ，opengO 调 用 失败 ， 并 返回 错误 ， 错 误 号 errno 为 EPERM。 (事实 上 ， 
如 9.5 节 所 述 ， 对 于 非特 权 进 程 ， 当 以 O_NOATIME 标 志 打 开 文 件 时 ， 与 
文件 用 户 ID 必须 匹配 的 是 进程 的 文件 系统 用 户 ID， 而 非 进程 的 有 效用 户 
ID. ) 此 标志 是 Linux 特 有 的 非 标准 扩展 。 要 从 <fcntl.h> 中 启用 此 标志 ， 
必须 定义 _GNU_SOURCE 功 能 测试 宏 。O_NOATIME 标 志 的 设计 由 在 为 























索引 和 备份 程序 服务 。 该 标志 的 使 用 能 够 显著 减少 破 盘 的 活动 量 ， 省 却 
了 既 要 读 取 文件 内 容 ， 又 要 更 新 文件 -node 结构 中 最 近 访 问 时 间 的 繁 
琐 ， 进 而 节省 了 磁头 在 磁盘 上 的 反复 寻 道 时 间 〈14.4 节 ) =. ~mount() A 
数 中 MS_NOATIME 标 志 《〈14.8.1 节 ) 和 FS_NOATIME_FL 标 志 (15.5 
节 ) 与 O NOATIME 标 志 功 能 相似 。 


O_NOCTTY 


如 果 正 在 打开 的 文件 属于 终端 设备 ，O_NOCTTY 标 志 防 止 其 成 为 
控制 终端 。34.4 节 将 讨论 控制 终端 。 如 果 正 在 打开 的 文件 不 是 终端 设 
备 ， 则 此 标志 无 效 。 


O_NOFOLLOW 


通常 ， 如 果 pathname 参 数 是 从 与 链接 ，open() 孙 数 将 对 pathname 参 
数 进行 解 引用 。 一 旦 在 open0 函 数 中 指定 了 O_NOFOLLOW 标 志 ， 且 
pathname 参 数 属于 符号 链接 ， 则 open0 函 数 将 返回 失败 《错误 号 errmno 为 
ELOOP) 。 此 标志 在 特权 程序 中 极为 有 用 ， 能 够 确保 open(0) 函 数 不 对 符 
号 链接 进行 解 引用 。 为 使 Oo_ NOFOLLOW 标 志 在 <fcntLh> 中 有 效 ， 必 须 
定义 _GNU_SOURCE 功 能 测试 宏 。 





O_NONBLOCK 

以 非 阻 塞 方式 打开 文件 ， 参 照 5.9 节 。 
O_SYNC 

以 同步 IO 方式 打开 文件 ， 参 见 13.3 节 针对 内 核 O 缓 冲 的 讨论 。 
O_TRUNC 


如 果 文 件 已 经 存在 且 为 普通 文件 ， 那 么 将 清空 文件 内 容 ， 将 其 长 度 
置 0。 在 Linux 下 使 用 此 标志 ， 无 论 以 读 、 写 方式 打开 文件 ， 都 可 清空 文 
件 内 容 《〈 在 这 两 种 情况 下 ， 都 必须 拥有 对 文件 的 写 权 限 ) 。SUSv3 对 
O_RDONLY 与 O_TRUNC 标 志 的 组 合 未 作 规定 ， 但 多 数 其 他 UNIX 实 现 
与 Linux 的 处 理 方式 相同 。 





4.3.2 ”open0 函 数 的 错误 
知 打开 文件 时 发 生 错 误 ，open0 将 返回 -1， 错 误 号 ermo 标 识 错误 原 


因 。 以 下 是 一 些 可 能 发 生 的 错误 〈 除 了 在 上 节 参 数 描述 中 已 经 提 及 的 错 
误 之 外 ) 。 
EACCES 

文件 权限 不 允许 调用 进程 以 flags 参 数 指定 的 方式 打开 文件 。 无 法 访 
问 文件 ， 其 可 能 的 原因 有 目录 权限 的 限制 、 文 件 不 存在 并 且 也 无 法 创建 
该 文件 。 
EISDIR 

所 指定 的 文件 属于 目录 ， 而 调用 者 企图 打开 该 文件 进行 写 操作 。 不 
允许 这 种 用 法 。“ 另 一 方面 ， 在 某 些 场合 中 ， 打 开 目 录 进 行 读 操作 是 必 
要 的 。18.11 节 将 举例 说 明 。) 


EMFILE 


进程 已 打开 的 文件 描述 符 数量 达到 了 进程 资源 限制 所 设 定 的 上 限 
(在 36.3 节 将 描述 RLIMIT_NOFILE 参 数 ) 。 














ENFILE 
文件 打开 数量 已 经 达到 系统 允许 的 上 限 。 


ENOENT 





要 么 文件 不 存在 且 未 指定 O_CREAT 标 志 ， 要 么 指定 了 O CREAT 
标志 ， 但 pathname 参 数 所 指定 路 径 的 目录 之 一 不 存在 ， 或 者 pathname 参 
数 为 符号 链接 ， 而 该 链接 指向 的 文件 不 存在 〈 空 链接 ) 。 


EROFS 


所 指定 的 文件 隶属 于 只 读 文件 系统 ， 而 调用 者 企图 以 写 方式 打开 文 








ETXTBSY 


所 指定 的 文件 为 可 执行 文件 (程序 ) ， 且 正在 运行 。 系 统 不 允许 修 
改正 在 运行 的 程序 (比如 以 写 方式 打开 文件 ) 。 必 须 首 先 终止 程序 运 
行 ， 然 后 方 可 修改 可 执行 文件 。) 











后 续 在 描述 其 他 系统 调用 或 库 函 数 时 ， 一 般 不 会 再 以 上 述 方式 展现 
可 能 发 生 的 一 系列 错误 。 【每 个 系统 调用 或 库 函 数 的 错误 列表 可 从 相关 
操作 手册 中 查询 获得 。) 采用 上 述 方式 原因 有 二 ， 一 是 因为 open0) 是 本 
书 详细 描述 的 首 个 系统 调用 ， 而 上 述 列 表 表 明 任 一 原因 都 有 可 能 导致 系 
统 调 用 或 库 函 数 的 调用 失败 。 二 是 open0 调 用 失败 的 具体 原因 列表 本 吴 
就 占 为 值得 玩味 ， 它 展示 了 影响 文件 访问 的 车 干 因素 ， 以 及 访问 文件 时 
系统 所 执行 的 一 系列 检查 。 (上 述 错 误 列 表 并 不 完整 ， 更 多 open() 调 用 
失败 的 错误 原因 请 查看 open(2) 的 操作 手册 。) 





4.3.3 ”creat() 系 统 调 用 


在 早期 的 UNIX 实 现 中 ，openO 只 有 两 个 参数 ， 无 法 创建 新 文件 ， 而 
征 使 用 creatO 系 统 调用 来 创建 并 打开 一 个 新 文件 。 








#include <fcntl.h> 


int creat(const char *fathname, mode_t mode); 


Returns file descriptor, or -1 on error 





creat() #2 Val HA Hi pathname 2x GN EFF IT IF POC, AF 
存在 ， 则 打开 文件 ， 并 清空 文件 内 容 ， 将 其 长 度 清 0。creat0 返 回 一 文件 
描述 符 ， 供 后 续 系 统 调用 使 用 。creatO 系 统 调 用 等 价 于 如 下 openO 调 
用 : 


fd = open{pathname, O WRONLY | O CREAT | O TRUNC, mode); 


尽管 creatO 在 一 些 老 旧 程 序 的 代码 中 还 时 有 所 见 ， 但 由 于 open() 的 
flags 参 数 能 对 文件 打开 方式 提供 更 多 控制 (例如 : 可 以 指定 O_RDWR 标 
志 ， 代 蔡 O_WRONLY 标 志 ) ， 对 creat() 的 使 用 现在 已 不 多 见 。 





4.4 ” 读 取 文件 内 容 : read() 
read(0) 系 统 调用 从 文件 描述 符 旨 所 指 代 的 打开 文件 中 读 取 数 据 。 





#include <unistd.h> 


ssize_t read(int fd, void *buffer, size_t count); 


Returns number of bytes read, 0 on EOF, or -1 on crror 











count 参 数 指定 最 多 能 读 取 的 字 节 数 。 (〈size_t 数 据 类 型 属于 无 符号 
整数 类 型 。) buffer 参 数 提供 用 来 存放 输入 数据 的 内 存 绥 冲 区 地 址 。 绥 
冲 区 至 少 应 有 count 个 字 节 。 


系统 调用 不 会 分 配 内 存 缓冲 区 用 以 返回 信息 给 调用 
者 。 所 以 ， 必 须 预先 分 配 大 小 合适 的 缓冲 区 并 将 缓冲 区 指 
针 传递 给 系统 调用 。 与 此 相反 ， 有 些 库 辫 数 却 会 分 配 内 存 
缓冲 区 用 以 返回 信息 给 调用 者 。 


如 果 read() 调 用 成 功 ， 将 返回 实际 读 取 的 字 市 数 ， 如 果 遇 到 文件 结 
R (EOF) 则 返回 0， 如 有 果 出 现 错误 则 返回 -1。ssize_t 数 据 类 型 属于 有 符 
号 的 整数 类 型 ， 用 来 存放 《〈 读 取 的 ) 字 市 数 或 -1 (表示 错误 ) o 


一 次 read0 调 用 所 读 取 的 字 节 数 可 以 小 于 请 求 的 字 节 数 。 对 于 普通 
文件 而 言 ， 这 有 可 能 是 因为 当前 读 取 位 置 靠近 文件 尾部 。 


当 read0 应 用 于 其 他 文件 类 型 时 ， 比 如 管道 、FIFO、socket 或 者 终 
端 ， 在 不 同 环境 下 也 会 出 现 read0 调 用 读 取 的 字 贡 数 小 于 请 求 字 节 数 的 
情况 。 例 如 ， 默 认 情况 下 从 终端 读 取 字符 ， 一 过 到 换行 符 Cn) ，read0 
Ea ie recede ad) Seine eagle 
进行 探讨 。 








使 用 read() 从 终端 读 取 一 连 串 字符 ， 我 们 也 许 期 望 下 面 的 代码 会 起 
用 : 


#define MAX READ 20 
char buffer[MAX_READ]; 


if (read(STDIN FILENO, buffer, MAX READ) == -1) 
errExit("read"); 
printf("The input data was: %s\n", buffer); 


这 段 代 码 的 输出 可 能 会 很 奇怪 ， 因 为 输出 结果 除了 实际 输入 的 字符 
串 外 还 会 包括 其 他 字符 。 这 是 因为 read0 调 用 没有 在 printfO 函 数 打印 的 
字符 串 尾部 添加 一 个 表示 终止 的 空 字 符 。 思 索 片 刻 就 会 意识 到 这 肯定 是 
症结 所 在 ， 因 为 readO) 能 够 从 文件 中 读 取 任意 序列 的 字 节 。 有 些 情况 
下 ， 输 入 信息 可 能 是 文本 数据 ， 但 在 其 他 情况 下 ， 又 可 能 是 二 进 制 整数 
或 者 二 进 制 形式 的 C 语 言 数据 结构 。read0 无 从 区 分 这 些 数据 ， 故 而 也 无 
法 遵从 C 语 言 对 字符 串 处 理 的 约定 ， 在 字符 串 尾部 追加 标识 字符 串 结 
的 空 字 符 。 如 果 输 入 缓冲 区 的 结尾 处 需要 一 个 表示 终止 的 空 字符 ， 必 须 
显 式 妃 加 。 


char buffer[MAX READ + 1]; 
ssize t numRead; 





numRead = read(STDIN FILENO, buffer, MAX READ); 
if (numRead == -1) 
errExit ("read"); 


buffer[numRead] = '\o'; 
printf("The input data was: %s\n", buffer); 
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4.5 数据 写 入 文件 ，write() 
write() 系 统 调用 将 数据 写 入 一 个 已 打开 的 文件 中 。 





#include <unistd.h> 


ssize_t write(int fd, void *buffer, size_t count); 


Returns number of bytes written, or -1 on crror 











write() 调 用 的 参数 含义 与 read0 调 用 相关 似 。buffer 参 数 为 要 写 入 文 
件 中 数据 的 内 存 地 址 ，count 参 数 为 欲 从 buffer 写 入 文件 的 数据 字 节 数 ， 
fd 参数 为 一 文件 描述 符 ， 指 代数 据 要 写 入 的 文件 。 


如 果 writeO 调 用 成 功 ， 将 返回 实际 写 入 文件 的 字 节 数 ， 该 返回 值 可 
能 小 于 count 参 数值 。 这 被 称 为 “部 分 写 ”。 对 破 盘 文件 来 说 ， 造 成 < 部 分 
写 ” 的 原因 可 能 是 由 于 磁盘 已 满 ， 或 是 因为 进程 资源 对 文件 大 小 的 限 
fil], 〈 相 关 的 限制 为 RLIMIT_FSIZE， 将 在 36.3 节 描述 。) 





对 磁盘 文件 执行 IO 操作 时 ，write0 调 用 成 功 并 不 能 保证 数据 已 经 写 
入 磁盘 。 因 为 为 了 减少 磁盘 活动 量 和 加 快 write0 系 统 调用 ， 内 核 会 缓存 
磁盘 的 IO 操作 ， 第 13 章 将 会 详 加 介绍 。 


4.6 关闭 文件 : close() 


close0 系 统 调用 关闭 一 个 打开 的 文件 描述 符 ， 并 将 其 释放 回调 用 进 
程 ， 供 该 进程 继续 使 用 。 当 一 进程 终止 时 ， 将 自动 关闭 其 已 打开 的 所 有 
文件 描述 符 。 








#include <unistd.h> 
int close(int fd); 


Returns 0 on success, or -1 on error 














显 式 关 闭 不 再 需要 的 文件 描述 符 往 往 是 民 好 的 编程 习惯 ， 会 使 代码 
在 后 续 修 改 时 更 具 可 读 性 ， 也 更 可 徘 。 进 而 言 之 ， 文 件 描述 符 属于 有 限 
资源 ， 因 此 文件 描述 符 关 闭 失 败 可 能 会 导致 一 个 进程 将 文件 描述 符 资 源 
消耗 殉 尽 。 在 编写 需要 长 期 运行 并 处 理 大 量 文 件 的 程序 时 ， 比 如 shell 或 
者 网 络 服务 器 软件 ， 需 要 特别 加 以 关注 。 


Rd 应 对 closeO 的 调用 进行 错误 检查 ， 如 下 
ZN: 


if (close(fd) == -1) 
errExit("close"); 


上 述 代码 能 够 捕获 的 错误 有 : 企图 关闭 一 个 未 打开 的 文件 描述 符 ， 
或 者 两 次 关闭 同一 文件 描述 符 ， 也 能 捕获 特定 文件 系统 在 关闭 操作 中 诊 
断 出 的 错误 条 件 。 





针对 特定 文件 系统 的 错误 ，NFS《〈 网 络 文件 系统 ) 就 
是 一 例 。 如 果 NFS 出 现 提 交 失 败 ， 这 意味 着 数据 没有 抵达 
远程 磁盘 ， 随 之 将 这 一 错误 作为 close0 调 用 失败 的 原因 传 
递 给 应 用 系统 。 


4.7 ”改变 文件 偏 移 量 : Iseek() 


对 于 每 个 打开 的 文件 ， 系 统 内 核 会 记录 其 文件 偏 移 量 ， 有 时 也 将 文 
件 偏 移 量 称 为 读 写 偏 移 量 或 指针 。 文 件 偏 移 量 是 指 执 行 下 一 个 read0O 或 
writeO) 操 作 的 文件 起 始 位置 ， 会 以 相对 于 文件 头 部 起 始点 的 文件 当前 位 
置 来 表示 。 文 件 第 一 个 字 节 的 偶 移 量 为 0。 


文件 打开 时 ， 会 将 文件 偏 移 量 设置 为 指向 文件 开始 ， 以 后 每 次 
read() 或 write() 调 用 将 自动 对 其 进行 调整 ， 以 指 辣 已 读 或 已 写 数 据 后 的 下 
ra 因此 ， 连 续 的 read0 和 writeO 调 用 将 按 顺 序 递 进 ， 对 文件 进行 操 


针对 文件 描述 符 fd 参 数 所 指 代 的 已 打开 文件 ，lseek0O 系 统 调用 依照 
offset 和 whence 参 数值 调整 该 文件 的 偏 移 量 。 














#include <unistd.h> 


off t lseek(int fd, off_t offset, int whence); 


Returns new file offset if successful, or -1 on error 











offset 参 数 指定 了 一 个 以 字 节 为 单位 的 数值 。 (SUSv3 规 定 off_{t 数 据 
类 型 为 有 符号 整 型 数 。) whence 参 数 则 表明 应 参照 哪个 基点 来 解释 
offset 参 数 ， 应 为 下 列 其 中 之 一 : 


SEEK_SET 

将 文件 偏 移 量 设置 为 从 文件 头 部 起 始点 开始 的 offset 个 字 节 。 
SEEK_CUR 

相对 于 当前 文件 偏 移 量 ， 将 文件 偏 移 量 调整 offset 个 字 节 @。 


SEEK_END 


将 文件 偶 移 量 设置 为 起 始 于 文件 尾部 的 offset 个 字 节 。 也 就 是 次， 
offset 参 数 应 该 从 文件 最 后 一 个 字 节 之 后 的 下 一 个 字 市 算 起 。 


图 4-1 展 示 了 whence 参 数 的 含义 。 





文件 包含 N 文件 未 尾 之 后 未 
字 节 数据 PGR 





S 当前 文件 
REHE 


= 
| SEEK SET SEEK CUR SEEK END ; 
| » a 

I whence 参数 值 | 


图 4-1: 解释 lseek() 函 数 中 whence 参 数 


在 早期 的 UNIX 实 现 中 ，whence 参 数 用 整数 0、1、2 来 表示 ， 而 非 正 
文中 显示 的 SEEK_* 和 常量 。BSD 的 早期 版 本 使 用 男 一 套 命名 : L_SET、 
L_INCR 和 L_XTND 来 表示 whence 参 数 。 





如 果 whence 参 数值 为 SEEK_CUR 或 SEEK_END，offset 参 数 可 以 为 
正 数 也 可 以 为 负数 ;如 果 whence 参 数值 为 SEEK_SET，offset 参 数值 必须 
为 非 负 数 。 

lseek() 调 用 成 功 会 返回 新 的 文件 偏 移 量 。 下 面 的 调用 只 是 获取 文件 
偏 移 量 的 当前 位 置 ， 并 没有 修改 它 。 


curr = lseek(fd, 0, SEEK CUR); 





有 些 UNIX 系 统 〈Linux 不 在 此 列 ) 实现 了 非 标准 的 
tell(fd) 函 数 ， 其 调用 目的 与 上 述 lseekO 相 同 。 


这 里 给 出 了 lseekO 调 用 的 其 他 一 些 例子 ， 在 注释 中 说 明了 将 文件 偏 
移 量 移 到 的 具体 位 置 。 


lseek(fd, 0, SEEK_SET); /* Start of file */ 

lseek(fd, 0, SEEK_END); /* Next byte after the end of the file */ 
lseek(fd, -1, SEEK_END); /* Last byte of file */ 

lseek(fd, -10, SEEK_CUR); /* Ten bytes prior to current location */ 


lseek(fd, 10000, SEEK END); /* 10001 bytes past last byte of file */ 


Iseek() Vid H JA xe Wel BE A 4% FP SMC PIR PF AY SC PP A BI 





并 没有 引起 对 任何 物理 设备 的 访问 。 


5.4 节 将 进一步 描述 文件 侦 移 量 、 文 件 描 述 符 、 已 打开 文件 三 者 之 
间 的 关系 。 


lseek() 并 不 适用 于 所 有 类 型 的 文件 。 不 允许 将 lseek0) 应 用 于 管道 、 
FIFO、socket 或 者 终端 。 一 旦 如 些 ， 调 用 将 会 失败 ， 并 将 errno 置 为 
ESPIPE。 男 一 方面 ， 只 要 合情合理 ， 也 可 以 将 lseek0O 应 用 于 设备 。 例 
如 ， 在 磁盘 或 者 磁带 上 查找 一 处 具体 位 置 。 





lseekO 调 用 名 中 的 ] 源 于 这 样 一 个 事实 : offset 参 数 和 调 
用 返回 值 的 类 型 起 初 都 是 long 型 。 早 期 的 UNIX 系 统 还 提供 
了 seek0O 系 统 调 用 ， 当 时 这 两 个 值 的 类 型 为 int 型 。 


文件 空洞 


如 宁 程 序 的 文件 偶 移 量 已 然 跨越 了 文件 结尾 ， 然 后 再 执行 1O 操 
作 ， 将 会 发 生 什 么 情况 ? read0 调 用 将 返回 0， 表 示 文 件 结尾 。 有 点 令 人 
惊讶 的 是 ，write() 函 数 可 以 在 文件 结尾 后 的 任意 位 置 写 入 数据 。 


从 文件 结尾 后 到 新 写 入 数据 间 的 这 段 空 间 被 称 为 文件 空洞 。 从 编程 
角度 看 ， 文 件 空洞 中 是 存在 字 节 的 ， 读 取 空 洞 将 返回 以 0《〈 空 字 节 ) 填 
充 的 缓冲 区 。 


然而 ， 文 件 空洞 不 占用 任何 磁盘 空间 。 直 到 后 续 东 个 时 点 ， 在 文件 
空洞 中 写 入 了 数据 ， 文 件 系 统 才 会 为 之 分 配 磁盘 其 。 文 件 空洞 的 主要 优 
势 在 于 ， 与 为 实际 需要 的 空 字 贡 分 配 磁盘 块 相 比 ， 黎 距 填 充 的 文件 会 上 


























用 较 少 的 磁盘 空间 。 核 心 转 储 文件 (core dump) ( 见 22.1 节 ) 是 包含 空 
洞 文 件 的 常见 例子 。 








对 于 文件 空洞 不 占用 磁盘 空间 的 说 法 需要 稍微 限定 一 
Be KB ROCA, a TA OP Be WR A 
IY (14.3579) 。 块 的 大 小 取决 于 文件 系统 ， 通 常 是 1024 字 
节 、2048 字 节 、4096 字 节 。 如 果 空 洞 的 边界 落 在 块 内 ， 而 
非 恰 好 落 在 块 边界 上 ， 则 会 分 配 一 个 完整 的 块 来 存储 数 
据 ， 块 中 与 空洞 相关 的 部 分 则 以 空 字 节 填 充 。 


大 多 数 “原生 ?UNIX 文件 系统 都 文 持 文件 空洞 的 概念 ， 但 很 多 “ 非 原 
生 ” 文 件 系 统 〈 比 如 ， 微 软 的 VFAT) 并 不 支持 这 一 概念 。 不 支持 文件 空 
洞 的 文件 系统 会 显 式 地 将 空 字 节 写 入 文件 。 


空洞 的 存在 意味 着 一 个 文件 名 义 上 的 大 小 可 能 要 比 其 占用 的 磁盘 存 
忆 量 要 大 (有 时 会 大 出 许多 ) 。 回 文件 空洞 中 写 入 字 节 ， 内 核 需 要 为 
分 配 存 储 单元 ， 即 使 文件 大 小 不 变 ， 系 统 的 可 用 磁盘 空间 也 将 减少 。 
种 情况 并 不 常见 ， 但 也 需要 了 解 。 
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SUSv3 的 函数 posix_fallocate(fd, offset, len) 规 定 ， 针 对 
文件 描述 符 fd 所 指 代 的 文件 ， 能 确保 按照 由 offset 参 数 和 len 
参数 所 确定 的 字 节 范围 为 其 在 磁盘 上 分 配 存储 空间 。 这 
样 ， 应 用 程序 对 文件 的 后 续 writeO 调 用 不 会 因 磁盘 空间 耗 
尽 而 失败 《否则 ， 妆 文件 中 一 个 空洞 被 填 满 后 ， 或 者 因 其 
他 应 用 程序 消耗 了 磁盘 空间 时 ， 都 可 能 因 磁 盘 空 间 耗 尽 而 
引发 此 类 错误 ) 。 在 过 去 ，glibc 库 在 实现 posix_fallocate() 
函数 时 ， 通 过 回 指 定 范围 内 的 每 个 块 写 入 一 个 值 为 0 的 字 节 
以 达到 预期 结果 。 自 内 核 版 本 2.6.23 开 始 ，Linux 系 统 提供 
了 fallocate() 系 统 调用 ， 能 更 为 高 效 地 确保 所 需 存 储 空间 的 














分 配 。 当 fallocateO 调 用 可 用 时 ，glibc 库 会 利用 其 来 实现 
posix_fallocateO 函 数 的 功能 。 





14.4 市 将 描述 空洞 在 文件 中 的 表示 方式 。15.1 届 将 摘 述 stat0 系 统 调 
用 ， 该 调用 能 够 提供 文件 当前 大 小 和 实际 分 配给 文件 的 块 数量 等 信息 。 


示例 程序 


程序 清单 4-3 演 示 了 jlseekO 与 reaad0、writeO 的 协作 使 用 。 该 程序 的 第 
一 个 命令 行 参 数 为 将 要 打开 的 文件 名 称 ， 余 下 的 参数 则 指定 了 在 文件 上 
执行 的 输入 /输出 操作 。 每 个 表示 操作 的 参数 都 以 一 个 字母 开头 ， 紧 跟 
以 相关 值 “中 间 无 空格 分 隔 ) o 


e soffset: 从 文件 开始 检索 到 offset 字 节 位 置 。 

e rlength: 在 当前 文件 偏 移 量 处 ， 从 文件 中 读 取 length 字 节 数 据 ， 并 
以 文本 形式 显示 。 

e Rlength: 在 当前 文件 偏 移 量 处 ， 从 文件 中 读 取 length 字 节 数 据 ， 并 
以 十 六 进 制 形式 显示 。 

e wstr: 在 当前 文件 偏 移 量 处 ， 同 文件 写 入 由 str 指 定 的 字符 串 。 


























程序 清单 4-3: read()、write() 和 lseek() 的 使 用 示范 








fileio/seek_io. 


#include <sys/stat.h> 
#include <fcntl.h> 
#include <ctype.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


size t len; 

off t offset; 

int fd, ap, j; 

char *buf; 

ssize t numRead, numWritten; 


if (argc < 3 || strcmp(argv[1], "--help") == 0) 
usageErr("%s file {r<length>|R<length>|w<string>|s<offset>}...\n", 
argv[0]); 


fd = open(argv[1], O_RDWR | O CREAT, 
S IRUSR | S_IWUSR | S_IRGRP | S_IWGRP | 
S_IROTH | S IWOTH); /* rw-rw-rw- */ 
if (fd == -1) 
errExit("open"); 


for (ap = 2; ap < argc; aptt+) { 
switch (argv[ap][o]) { 
case 'r': /* Display bytes at current offset, as text */ 
case 'R': /* Display bytes at current offset, in hex */ 
len = getLong(&argv[ap][1], GN_ANY BASE, argv[ap]); 


buf = malloc({len); 
if (buf == NULL) 
errExit("malloc"); 


numRead = read(fd, buf, len); 
if (numRead == -1) 
errExit("read"); 


if (numRead == 0) { 
printf("%s: end-of-file\n", argv[ap]); 
} else { 
printf("%s: ", argv[ap]); 
for (j = 0; j < numRead; j++) { 
if (argv[ap][0] == 'r') 
printf("%c", isprint((unsigned char) buf[j]) ? 
buf[j] : '?'); 
else 
printf("%02x ", (unsigned int) buf[j]); 


} 
printf("\n"); 


free (buf); 
break; 


case 'w': /* Write string at current offset */ 
numWritten = write(fd, &argv[ap][1], strlen(&argv[ap][1])); 
if (numWritten == -1) 
errExit("write"); 
printf("%s: wrote %ld bytes\n", argv[ap], (long) numWritten); 
break; 


case 's': /* Change file offset */ 
offset = getLong(&argv[ap][1], GN_ANY BASE, argv[ap]); 
if (lseek(fd, offset, SEEK_SET) == -1) 
errExit("lseek"); 
printf("%s: seek succeeded\n", argv[ap]); 
break; 


default: 
cmdLineErr("Argument must start with [rRws]: %s\n", argv[ap]); 


} 
} 


exit(EXIT SUCCESS); 


Ta 


fileio/seek_io.c 


下 面 的 shell 会 话 演示 了 程序 清单 4-3 程 序 的 使 用 ， 还 显示 了 从 文件 
空洞 中 读 取 字 节 时 的 情况 ; 





$ touch tfile Create new, empty file 

$ ./seek_io tfile 5100000 wabc Seek to offset 100,000, write “abc” 
$100000: seek succeeded 

wabc: wrote 3 bytes 


$ 1s -1 tfile Check. size of file 
-ITW-IT--I-- 1 mtk users 100003 Feb 10 10:35 tfile 
$ ./seek_io tfile s10000 R5 Seek to offset 10,000, read 5 bytes from hole 


510000: seek succeeded 
R5: 00 00 00 00 00 Bytes in the hole contain Q 


4.8 通用 UVO 模 型 以 外 的 操作 : ioctl0) 


在 本 章 上 述 通用 IO 模型 之 外 ，ioct0 系 统 调用 又 为 执行 文件 和 设备 
操作 提供 了 一 种 多 用 途 机 制 。 





#include <sys/ioctl.h»> 


int ioctl(int fd, int request, ... /* argp */); 








Valuc returned on success depends on request, or -1 on crror 





fd 参数 为 某 个 设备 或 文件 已 打开 的 文件 描述 符 ，request 参 数 指定 了 
具体 设备 的 头 文件 定义 了 可 传递 给 request 参 


ioctlO 调 用 的 第 三 个 参数 采用 了 标准 C 语 言 的 省 略 符 号 〈…) 来 表示 
( 称 之 为 argp) ， 可 以 是 任意 数据 类 型 。ioctl0 根 据 request 的 参数 值 来 确 
定 argp 所 期 望 的 类 型 。 通 第 情况 下 ，argp 是 指 回 整数 或 结构 的 指针 ， 有 
些 情 况 下 ， 不 需要 使 用 argp。 


后 面 各 章 中 将 会 有 许多 ioctl0 的 用 法 展示 〔〈 例 如 15.5 节 ) 。 











SUSvV3 为 ioct10 制 定 的 唯一 规定 是 针对 流 (STREAM) 
设备 的 控制 操作 。 ( 流 是 System V 操 作 系统 中 的 特性 。 尽 
管 为 其 开发 有 一 些 插件 ， 主 流 的 Linux 内 核 并 不 支持 该 特 
性 。) 本 书 述 及 的 ioct10 的 其 他 操作 都 不 在 SUSV3 的 规范 之 
列 。 然 而 ， 从 早期 版 本 开始 ，ioct10 调 用 就 是 UNIX 系 统 的 
一 部 分 ， 因 此 本 书 所 描述 的 几 个 ioctl0 操 作 在 许多 其 他 
UNIX 系 统 中 都 已 实现 。 在 讨论 ioctlO 调 用 的 各 个 操作 时 ， 
会 点 出 存在 的 可 移植 性 问题 。 


AQ ”总结 

为 了 对 普通 文件 执行 WO 操作 ， 首 先 必须 调用 open() 以 获得 一 个 文件 
描述 符 。 随 之 使 用 read() 和 write() 执 行文 件 的 VO 操作 ， 然 后 应 使 用 close() 
A 
IO 操作 。 


所 有 类 型 的 文件 和 设备 驱动 都 实现 了 相同 的 VO 接口 ， 这 保证 了 LO 
操作 的 通用 性 ， 同 时 也 意味 着 在 无 需 针 对 特定 文件 类 型 编写 代码 的 情况 
下 ， 程 序 通 常 就 能 操作 所 有 类 型 的 文件 。 


对 于 已 打开 的 每 个 文件 ， 内 核 都 维护 有 一 个 文件 偏 移 量 ， 这 决定 了 
下 一 次 读 或 写 操作 的 起 始 位 置 。 读 和 写 操作 会 隐 式 修改 文件 偏 移 量 。 使 
用 lseek0) 函 数 可 以 显 式 地 将 文件 偏 移 量 置 为 文件 中 或 文件 结尾 后 的 任 一 
位 置 。 在 文件 原 络 尾 处 之 后 的 茶 一 位 置 写 入 数据 将 导致 文件 空调 。 从 文 
件 空洞 处 读 取 文 件 将 返回 全 0 字 节 。 


对 于 未 纳入 标准 IO 模型 的 所 有 设备 和 文件 操作 而 言 ，ioctO 系 统 调 


用 是 个 “百宝箱 ”。 


























410 ”练习 


4-1. tee 命 令 是 从 标准 输入 中 读 取 数据 ， 直 至 文件 结尾 ， 随 后 将 数 
据 写 入 标准 输出 和 命令 行 参数 所 指定 的 文件 。 〈44.7 节 讨论 FIFO 时 ， 会 
展示 使 用 tee 命 令 的 一 个 例子 。) 请 使 用 MO 系统 调用 实现 tee 命 令 。 默 认 
情况 下 ， 攻 已 存在 与 命令 行 参数 指定 文件 同名 的 文件 ，tee 命 令 会 将 其 窗 
六 。 如 文件 已 存在 ， 请 实现 -a 命令 行 选项 (tee-a file〉 在 文件 结尾 处 追 
加 数据 。 (请 参考 附录 B 中 对 getopt0) 函 数 的 描述 来 解析 命令 行 选项 。) 


4-2. 编写 一 个 类 似 于 cp 命令 的 程序 ， 当 使 用 该 程序 复制 一 个 包含 
oer KENE, BER Bp CPP A ad SCE 
圭一 致 。 





GD 译 者 注 : 所 谓 synchronized I/O data integration completion 在 SUS 的 base 
definition 3.374 中 有 详细 定义 ， 但 学 究 气 十 足 ， 语 看 不 详 。 建 议 参考 

《UNIX 环 境 高 级 编程 》v2 一 书 〈 后 续 译注 中 简称 为 APUEv2 ) 3.3 节 关 
于 O_DSYNC 的 描述 。 











DZE: 简 而 言 之 ， 相 对 于 文件 头 部 的 绝对 偏 移 量 = 当 前 文件 俩 移 量 


+offset. 


Adem Se. R 入 PRR 
第 5 半 ”深入 探究 文件 VO 
本 和 章 将 延续 上 一 章 的 讨论 ， 进 一 步 探究 文件 IO。 
在 后 续 的 关于 open() 系 统 调用 的 探讨 中 ， 将 引入 原子 (atomicity) 


操作 的 概念 一 一 将 东 一 系统 调用 所 要 完成 的 各 个 动作 作为 不 可 中 断 的 操 
E a 





本 章 还 将 介绍 另 一 个 与 文件 操作 相关 的 系统 调用 : 多 用 途 的 
fcntl()， 并 展示 其 应 用 之 一 读 取 和 设置 打开 文件 的 状态 标志 。 


随后 ， 本 章 将 审视 用 于 表示 文件 描述 符 和 已 打开 文件 的 内 核 数 据 结 
构 。 后 续 各 章 将 探讨 文件 VO 的 某 些微 妙 之 处 ， 理 解 这 些 数据 结构 之 间 
Oe E T E A eer 
述 符 。 


之 后 ， 本 章 将 讨论 一 些 文 持 扩展 读 写 功能 的 系统 调用 。 此 类 调用 可 
以 在 不 改变 文件 当前 侦 移 量 的 情况 下 ， 在 文件 的 特定 位 置 处 进行 读 写 操 
作 ， 以 及 对 程序 中 多 个 缓冲 区 进行 数据 〈 双 癌 ) 传输 。 


最 后 ， 将 简要 介绍 非 阻 竖 TO 的 概念 ， 并 述 及 一 些 用 于 读 写 大 文件 
的 扩展 接口 。 


此 外 ， 因 为 临时 文件 在 许多 系统 程序 中 有 广泛 的 应 用 ， 所 以 本 章 也 
会 介绍 一 些 相关 库 函 数 : 在 保证 随机 生成 唯一 文件 名 称 的 同时 ， 用 于 创 
建 和 操作 临时 文件 。 














5.1 JAP REVE Mae BARE 


在 探 完 系统 调用 时 会 反复 涉及 原子 操作 的 概念 。 所 有 系统 调用 都 是 
以 原子 操作 方式 执行 的 。 之 所 以 这 么 说 ， 是 指 内 核 保证 了 某 系 统 调用 中 
e 其 间 不 会 为 其 他 进程 或 
线程 所 中 断 。 


原子 性 是 某 些 操作 得 以 圆满 成 功 的 关键 所 在 。 特 别 是 它 规避 了 竞争 
状态 (race conditions) 〈《 有 时 也 称 为 竞争 冒险 ) 。 苋 争 状态 是 这 样 一 种 
情形 : 操作 共享 资源 的 两 个 进程 (或 线程 》， 其 结果 取决 于 一 个 无 法 预 
期 的 顺序 ， 即 这 些 进程 中 获得 CPU 使 用 权 的 先后 相对 顺序 。 


接 下 来 ， 将 讨论 涉及 文件 IO 的 两 种 竞争 状态 ， 并 展示 了 如 何 使 用 
全 全 来 保证 相关 文件 操作 的 原子 性 ， 从 而 消除 这 些 竞 争 状 


An 


22.9 节 将 介绍 sigsuspendO 系 统 调 用 。24.4 节 将 介绍 fork0O 调 用 ， 届 时 
将 再 次 探讨 竞争 状态 。 


以 独占 方式 创建 一 个 文件 


4.3.1 节 曾 述 及 : 当 同 时 指定 O_EXCL 与 O_CREAT 作 为 open0 的 标志 
位 时 ， 如 果 要 打开 的 文件 已 然 存 在 ， 则 open0 将 返回 一 个 错误 。 这 提供 
了 一 种 机 制 ， 保 证 进程 是 打开 文件 的 创建 者 。 对 文件 是 否 存在 的 检查 和 
创建 文件 属于 同一 原子 操作 。 要 理解 这 一 点 的 重要 性 ， 请 思考 程序 清单 
5-1 所 示人 代码， 该 段 代 码 中 并 未 使 用 O_EXCL 标 志 。 “在 此 ， 为 了 对 执行 
a a 进程 加 以 区 分 ， 在 输出 信息 中 打印 有 通过 调用 getpidO 所 返 
回 的 进程 号 。) 














程序 清单 5-1: 试图 以 独占 方式 打开 文件 的 错误 代码 


from fileio/bad exclusive open.c 
fd = open(argv[1], O WRONLY); /* Open 1: check if file exists */ 
if (fd != -1) { /* Open succeeded */ 
printf("[PID %ld] File \"%s\" already exists\n", 
(long) getpid(), argv[1]); 


close(fd); 
} else { 
if (errno != ENOENT) { /* Failed for unexpected reason */ 
errExit ("open"); 
} else { 


/* WINDOW FOR FAILURE */ 
fd = open(argv[1], O_WRONLY | O CREAT, S_IRUSR | S TWUSR); 
if (fd == -1) 

errExit("open"); 


printf("[PID %ld] Created file \"%s\" exclusively\n", 
(long) getpid(), argv[1]); /* MAY NOT BE TRUE! */ 


from fileio/bad_exclusive_open.c 


Re Ps 5-1 AAT ANE ARES, BRS BENS Rn hd Hopen AAR, 
还 潜伏 着 一 个 bug。 假 设 如 下 情况 : 当 第 一 次 调用 open0 时 ， 和 希望 打开 的 
文件 还 不 存在 ， 而 当 第 二 次 调用 open0 时 ， 其 他 进程 已 经 创建 了 该 文 
件 。 如 图 5-1 所 示 ， 若 内 核 调度 器 判断 出 分 配给 A 进程 的 时 间 片 已 经 耗 
尽 ， 并 将 CPU 使 用 权 交 给 B 进 程 ， 就 可 能 会 发 生 这 种 问题 。 再 比如 两 个 
进程 在 一 个 多 CPU 系统 上 同时 运行 时 ， 也 会 出 现 这 种 情况 。 图 5-1 展 示 
了 两 个 进程 同时 执行 程序 清单 5-1 中 代码 的 情形 。 在 这 一 场景 下 ， 进 程 A 
将 得 出 错误 的 结论 : 目标 文件 是 由 自己 创建 的 。 因 为 无 论 目 标 文 件 存在 
与 否 ， 进 程 A 对 open0) 的 第 二 次 调用 都 会 成 功 。 








进程 和 A 进程 B 





open(..., O WRONLY); 


调用 open() 失 败 
时 间 片 耗 尽 。 | 时间 片 开始 


|| 


调用 open() 失 败 














open(..., O_WRONLY 
| 0 :GREAT, sox.) 





调用 open() KI, 
N x 件 得 以 创建 
MUTE) Mirae PPO 


open{..., O_WRONLY 





| O CREAT, ...); 
调用 open() 成功 








图 5-1: 未 能 以 独占 方式 创建 文件 


虽然 进程 将 自己 误 认 为 文件 创建 者 的 可 能 性 相对 较 小 ， 但 毕竟 是 存 
在 的 ， 这 已 然 将 此 段 代码 置 于 不 可 靠 的 境地 。 操 作 的 结果 将 依赖 于 对 两 
个 进程 的 调度 顺序 ， 这 一 事实 也 就 意味 看 出 现 了 竞争 状态 。 


为 了 说 明 这 段 代 码 的 确 存 在 问题 ， 可 以 用 一 段 代码 蔡 换 程序 清单 5- 
1 中 的 注释 行 “处 理 文 件 不 存在 的 情况 ”， 在 检查 文件 是 否 存 在 与 创建 文 
件 这 两 个 动作 之 间 人 为 制造 一 个 长 时 间 的 等 待 。 


printf("[PID %ld] File \"%s\" doesn't exist yet\n", (long) getpid(), argv[1]); 
if (argc > 2) { /* Delay between check and create */ 
sleep(5); /* Suspend execution for 5 seconds */ 
printf("[PID %ld] Done sleeping\n", (long) getpid()); 








sleep0 库 函数 可 将 当前 执行 的 进程 挂 起 指定 的 秒 数 。23.4 节 将 讨论 
该 函数 。 


如 果 同 时 运行 程序 清单 5-1 中 程序 的 两 个 实例 ， 两 个 进程 都 会 声称 


目 己 以 独占 方式 创建 了 文件 。 


$ ./bad_exclusive_open tfile sleep & 

[PID 3317] File "tfile" doesn't exist yet 

[1] 3317 

$ ./bad_exclusive_open tfile 

[PID 3318] File "tfile" doesn't exist yet 

[PID 3318] Created file "tfile" exclusively 

$ [PID 3317] Done sleeping 

[PID 3317] Created file "tfile" exclusively Not true 





从 上 面 输出 的 倒数 第 二 行 可 以 发 现 ，shell 提 示 符 里 夹 
杂 了 第 一 个 实例 的 输出 信息 。 





由 于 第 一 个 进程 在 检查 文件 是 否 存 在 和 创建 文件 之 间 发 生 了 中 断 ， 
造成 两 个 进程 都 声称 自己 是 文件 的 创建 者 。 结 合 O_CREAT 和 O_EXCL 
标志 来 一 次 性 地 调用 open0 可 以 防止 这 种 情况 ， 因 为 这 确保 了 检查 文件 
和 创建 文件 的 步骤 属于 一 个 单一 的 原子 〈 即 不 可 中 断 的 ) 操作 。 


[SCF Fe aE I Ada 


用 以 说 明 原 子 操作 必要 性 的 第 二 个 例子 是 : 多 个 进程 同时 疝 同 一 个 
文件 (例如 ， 全 局 日 志文 件 ) 尾部 添加 数据 。 为 了 达到 这 一 目的 ， 也 许 
可 以 考虑 在 每 个 写 进 程 中 使 用 如 下 代码 。 


if (lseek(fd, 0, SEEK END) == -1) 
errExit("Iseek"); 

if (write(fd, buf, len) != len) 
fatal{"Partial/failed write"); 




















(xe, IBSEN RSP A RR RE 
程 执行 到 lseekO0 和 write0 之 间 ， 被 执行 相同 代码 的 第 二 个 进程 所 中 断 ， 
那么 这 两 个 进程 会 在 号 入 数据 前 ， 将 文件 偶 移 量 设 为 相同 位 置 ， 而 当 第 
一 个 进程 再 次 获得 调度 时 ， 会 履 盖 第 二 个 进程 已 写 入 的 数据 。 此 时 再 次 
出 现 了 竞争 状态 ， 因 为 执行 的 结果 依赖 于 内 核对 两 个 进程 的 调度 顺序 。 


要 规避 这 一 问题 ， 需 要 将 文件 仿 移 量 的 移动 与 数据 写 操 作 纳 入 同一 


原子 操作 。 在 打开 文件 时 加 入 O_APPEND 标 志 就 可 以 保证 这 一 点 。 


有 些 文件 系统 (例如 NFS) 不 支持 O_APPEND 标志 。 
在 这 种 情况 下 ， 内 核 会 选择 按 如 上 代码 所 示 的 方式 ， 施 之 
以 非 原子 操作 的 调用 序列 ， 从 而 可 能 导致 上 述 的 文件 脏 写 
入 问题 。 





5.2 文件 控制 操作 : fentl() 
fcnt10 系 统 调用 对 一 个 打开 的 文件 描述 符 执行 一 系列 控制 操作 。 





#include <fcntl.h> 


int fentl(int fd, int cmd, ...); 





Return on success depends on cmd, or -1 on error 








cmd 参 数 所 支持 的 操作 范围 很 广 。 本 章 随后 各 节 会 对 其 中 的 部 分 操 
作 加 以 研讨 ， 剩 下 的 操作 将 在 后 续 各 章 中 进行 论述 。 


fcntlO 的 第 三 个 参数 以 省 略 号 来 表示 ， 这 意味 着 可 以 将 其 设置 为 不 
同 的 类 型 ， 或 者 加 以 省 略 。 内 核 会 依据 cmd 参 数 (如果 有 的 话 〉 的 值 来 
确定 该 参数 的 数据 类 型 。 








5.3 ”打开 文件 的 状态 标志 


fcntl() 的 用 途 之 一 是 针对 一 个 打开 的 文件 ， 获 取 或 修改 其 访问 模式 
和 状态 标志 (这 些 值 是 通过 指定 openO 调 用 的 flag 参 数 来 设置 的 ) 。 要 获 
取 这 些 设置 ， 应 将 fcntl() 的 cmd 参 数 设 置 为 F_GETFL。 
int flags, accessMode; 


flags = fcntl(fd, F GETFL); /* Third argument is not required */ 
if (flags == -1) 
errExit("fentl"); 


在 上 述 代码 之 后 ， 可 以 以 如 下 代码 测试 文件 是 否 以 同步 写 方式 打 
开 : 





if (flags & 0 SYNC) 
printf("writes are synchronized\n"); 


SUSv3 规 定 : 针对 一 个 打开 的 文件 ， 只 有 通过 open() 或 
后 续 fcntl() 的 F_SETFL 操 作 ， 才 能 对 该 文件 的 状态 标志 进行 
设置 。 然 而 在 如 下 方面 ，Linux 实 现 与 标准 有 所 偏离 : 如 果 
一 个 程序 编译 时 采用 了 5.10 节 所 提 及 的 打开 大 文件 技术 ， 
那么 当 使 用 F_GETFL 命 令 获 取 文 件 状态 标志 时 ， 标 志 中 将 
总 是 包含 O_ LARGEEFILE 标 志 。 








判定 文件 的 访问 模式 有 一 点 复杂 ， 这 是 因为 O_RDONLY(0)、 
O_WRONLY(1) 和 O_RDWR(2) 这 3 个 常量 并 不 与 打开 文件 状态 标志 中 的 
单个 比特 位 对 应 。 因 此 ， 要 判定 访问 模式 ， 需 使 用 掩 码 O_ACCMODE 
与 flag 相 与 ， 将 结果 与 3 个 常量 进行 比 对 ， 示 例 代 人 码 如 下 : 
accessMode = flags & O ACCMODE; 


if (accessMode == 0 WRONLY || accessMode == O RDWR) 
printf("file is writable\n"); 


可 以 使 用 fcntlO0 的 FE_SETFL 命 令 来 修改 打开 文件 的 某 些 状 态 标志 。 
允许 更 改 的 标志 有 O_APPEND、O_NONBLOCK、O_NOATIME、 
O_ASYNC 和 O_DIRECT。 系 统 将 忽略 对 其 他 标志 的 修改 操作 。 (有 些 
其 他 的 UNIX 实 现 允 许 fcnt10 修 改 其 他 标志 ， 如 O_SYNC。) 


使 用 fcnt10 修 改 文件 状态 标志 ， 尤 其 适用 于 如 下 场景 。 


。 文件 不 是 由 调用 程序 打开 的 ， 所 以 程序 也 无 法 使 用 open() 调 用 来 控 
制 文件 的 状态 标志 例如， 文件 是 3 个 标准 输入 输出 描述 符 中 的 一 
员 ， 这 些 描述 符 在 程序 启动 之 前 就 被 打开 〉。 

e 文件 描述 符 的 获取 是 通过 open(0) 之 外 的 系统 调用 。 比 如 pipeO 调 用 ， 
该 调用 创建 一 个 管道 ， 并 返回 两 个 文件 描述 符 分 别 对 应 管道 的 两 
端 。 再 比如 socketO 调 用 ， 该 调用 创建 一 个 套 接 字 并 返回 指向 该 套 
接 字 的 文件 描述 符 。 

为 了 修改 打开 文件 的 状态 标志 ， 可 以 使 用 fcnt10 的 F_GETFL 命 令 来 
获取 当前 标志 的 副本 ， 然 后 修改 需要 变更 的 比特 位 ， 最 后 再 次 调用 
fcntl() 函 数 的 F_SETFL 命 令 来 更 新 此 状态 标志 。 因 此 ， 为 了 添加 
O_APPEND 标 志 ， 可 以 编写 如 下 代码 : 


int flags; 








flags = fcntl(fd, F_GETFL); 

if (flags == -1) 
errExit("fentl"); 

flags |= 0 APPEND; 

if (fcntl(fd, F_SETFL, flags) == -1) 
errExit("fentl"); 


5.4 文件 描述 竺 和 打开 文件 之 间 的 关系 


到 目前 为 止 ， 文 件 描述 竺 和 打开 的 文件 之 间 似 乎 呈现 出 一 一 对 应 的 
关系 。 然 而 ， 实 际 并 非 如 此 。 多 个 文件 描述 符 指 向 同一 打开 文件 ， 这 既 
有 可 能 ， 也 属 必 要 。 这 些 文件 描述 符 可 在 相同 或 不 同 的 进程 中 打开 。 


要 理解 具体 情况 如 何 ， 需 要 查看 由 内 核 维护 的 3 个 数据 结构 。 


© 进程 级 的 文件 描述 符 表 。 
© 系统 级 的 打开 文件 表 。 
e 文件 系统 的 i-node 表 。 


针对 每 个 进程 ， 内 核 为 其 维护 打开 文件 的 描述 符 Copen file 
o 表 。 该 表 的 每 一 条 目 都 记录 了 单个 文件 描述 符 的 相关 信息 ， 
RATAN e 


o 控制 文件 描述 符 操 作 的 一 组 标志 。 目前 ， 此 类 标志 仅 定 义 了 一 
个 ， 即 close-on-exec 标 志 ， 将 在 27.4 节 了 予以 介绍 。) 


。 对 打开 文件 句柄 的 引用 。 


内 核对 所 有 打开 的 文件 维护 有 一 个 系统 级 的 描述 表格 (open file 
description table) > AHF, WRZ NHF XER Copen file table) ， 并 
将 表 中 各 条 目 称 为 打开 文件 句柄 Copen file handle) ©. —AH FXE 
柄 存储 了 与 一 个 打开 文件 相关 的 全 部 信息 ， 如 下 所 示 。 


(调用 read() 和 write() 时 更 新 ， 或 使 用 lseek() 直 接 修 
改 ) 。 

打开 文件 时 所 使 用 的 状态 标志 〈 即 ，open() 的 flags 参 数 ) 。 

(如 调用 openO 时 所 设置 的 只 读 模 式 、 只 写 模 式 或 读 
写 模式 ) o 

与 信号 驱动 VO 相关 的 设置 ( 见 63.3 节 ) 。 

对 该 文件 i-node 对 象 的 引用 。 


每 个 文件 系统 都 会 为 驻 留 其 上 的 所 有 文件 建立 一 个 i-node 表 。 第 14 
章 将 详细 讨论 inode 结 构 和 文件 系统 的 总 体 结构 。 这 里 只 是 列 出 每 个 文 
件 的 i-node 人 信息， 具体 如 下 。 














文件 类 型 (例如 ， 常 规 文件 、 套 接 字 或 FIFO〉 和 访问 权限 。 
一 个 指针 ， 指 向 该 文件 所 持 有 的 锁 的 列表 。 
ers 包括 文件 大 小 以 及 与 不 同类 型 操作 相关 的 时 间 


此 处 将 忽略 i-node 在 磁盘 和 内 存 中 的 表示 差异 。 人 磁盘 上 
的 i-node 记 录 了 文件 的 固有 属性 ， 诸 如 : 文件 类 型 、 访 问 权 
限 和 时 间 戳 。 访 问 一 个 文件 时 ， 会 在 内 存 中 为 inode 创 建 一 
个 副本 ， 其 中 记录 了 引用 该 inode 的 打开 文件 句柄 数量 以 及 
该 inode 所 在 设备 的 主 、 从 设备 号 ， 还 包括 一 些 打开 文件 时 
与 文件 相关 的 临时 属性 ， 例 如 : 文件 锁 。 





图 5-2 展 示 了 文件 描述 符 、 打 开 的 文件 句柄 以 及 i-node 之 间 的 关系 。 
在 下 图 中 ， 两 个 进程 拥有 诸多 打开 的 文件 描述 符 。 


进程 A 打开 文件 表 i-node 表 
文件 描述 符 类 (系统 级 ) (系统 级 ) 








进程 B 
文件 描述 符 表 





crn | 文件 





图 5-2: 文件 描述 符 、 打 开 的 文件 句柄 和 i-node 之 间 的 关系 


在 进程 A 中 ， 文 件 描 述 符 1 和 20 痢 指向 同一 个 打开 的 文件 句柄 〈 标 


号 为 23) 。 这 可 能 是 通过 调用 dupO、dup20 或 fant10 而 形成 的 (参见 5.5 


T 


o 


进程 A 的 文件 描述 符 2 和 进程 B 的 文件 描述 得 2 都 指 癌 同一 个 打开 的 


文件 句柄 〈 标 号 为 73) 。 这 种 情形 可 能 在 调用 forkO 后 出 现 〈 即 ， 进 程 A 
与 进程 B 之 间 是 父子 关系 ) ， 或 者 当 某 进程 通过 UNIX 域 套 接 字 将 一 个 打 
开 的 文件 描述 符 传 递 给 另 一 进程 时 ， 也 会 发 生 〈 人 参见 61.13.3 节 ) 。 





此 外 ， 进 程 A 的 描述 符 0 和 进程 B 的 描述 符 3 分 别 指 回 不 同 的 打开 文 


件 句 柄 ， 但 这 些 句柄 均 指 同 inode 表 中 的 相同 条 目 〈1976) ， 换 言 之 ， 
指 回 同 一 文件 。 发 生 这 种 情况 是 因为 每 个 进程 各 目 对 同一 文件 发 起 了 
open() 调 用 。 同 一 个 进程 两 次 打开 同一 文件 ， 也 会 太 生 类 似 情况 。 








上 述 讨 论 揭 示 出 如 下 要 反 。 


两 个 不 同 的 文件 描述 符 ， 若 指向 同一 打开 文件 句柄 ， 将 共享 同一 文 
件 偏 移 量 。 因 此 ， 如 果 通 过 其 中 一 个 文件 描述 符 来 修改 文件 偏 移 量 
《由 调用 read0、write0 或 lseekO 所 致 ) ， 那 么 从 另 一 文件 摘 述 符 中 
也 会 观察 到 这 一 变化 。 无 论 这 两 个 文件 描述 符 分 属于 不 同 进 程 ， 还 
是 同属 于 一 个 进程 ， 情 况 都 是 如 此 。 

要 获取 和 修改 打开 的 文件 标志 【例如 ，O_APPEND、 
O_NONBLOCK 和 O_ASYNC) ， 可 执行 fcntlO0 的 FE_GETEFL 和 
F_SETFL 操 作 ， 其 对 作用 域 的 约束 与 上 一 条 颇 为 类 似 。 

相形 之 下 ， 文 件 描 述 符 标 志 ( 亦 即 ，dlose-on-exec 标 志 ) 为 进程 和 
文件 描述 符 所 私有 。 对 这 一 标志 的 修改 将 不 会 影响 同一 进程 或 不 同 
进程 中 的 其 他 文件 描述 符 。 





5.5 复制 文件 描述 符 


Bourne shell 的 1//O 重 定 问 语法 2>&1， 意 在 通知 shell 把 标准 错误 〈( 文 
件 描述 符 2) 重 定 回 到 标准 输出 《文件 描述 符 1) 。 因 此 ， 下 列 命 令 将 把 
(因为 shell 按 从 左 至 右 的 顺序 处 理 WVO 重 定 同 语句 ) 标准 输出 和 标准 错 
误 写 入 result.log 文 件 : 





$ ./myscript > results.log 2>&1 


shell 通 过 复制 文件 描述 符 29 实 现 了 标准 错误 的 重 定 向 操作 ， 因 此 文 
件 描述 符 2 与 文件 描述 符 1 指 向 同一 个 打开 文件 句柄 《类 似 于 图 5-2 中 进 
程 A 的 描述 符 1 和 20 指 向 同一 打开 文件 句柄 的 情况 ) 。 可 以 通过 调用 
dup0 和 dup20 来 实现 此 功能 。 


请 注意 ， 要 满足 shell 的 这 一 要 求 ， 仅 仅 简 单 地 打开 results.log 文 件 两 
次 是 远 远 不 够 的 〈 第 一 次 在 描述 符 1 上 打开 ， 第 二 次 在 描述 符 2 上 打 
F) 。 首 先 两 个 文件 摘 述 符 不 能 共享 相同 的 文件 偏 移 量 指针 ， 因 此 有 可 
能 导致 相互 覆 亲 彼 此 的 输出 。 再 者 打开 的 文件 不 一 定 就 是 磁盘 文件 。 在 
如 下 命令 中 ， 标 准 错误 就 将 和 标准 输出 一 起 送 达 同一 管道 : 
$ ./myscript 2>&1 | less 

dup0 调 用 复制 一 个 打开 的 文件 摘 述 符 oldfd， 并 返回 一 个 新 描述 


符 ， 二 者 都 指 同 同一 打开 的 文件 句柄 。 系 统 会 保证 新 描述 符 一 定 是 编号 
值 最 低 的 未 用 文件 描述 符 。 











#include <unistd.h> 


int dup(int oldfd) ; 


Returns (new) file descriptor on success, or -1 on error 











假设 发 起 如 下 调用 : 
newfd = dup(1); 


再 假定 在 正 第 情况 下 ，shell 已 经 代表 程序 打开 了 文件 揪 述 符 0、1 和 
2， 且 没有 其 他 摘 述 符 在 用 ，dup0 调 用 会 创建 文件 描述 符 1 的 副本 ， 返 回 
的 文件 描述 符 编号 值 为 3。 


如 果 和 希望 返回 文件 描述 符 2， 可 以 使 用 如 下 技术 : 


close(2); /* Frees file descriptor 2 */ 
newfd = dup(1); /* Should reuse file descriptor 2 */ 


只 有 当 描 述 符 0 已 经 打开 时 ， 这 段 代码 方 可 工作 。 如 果 想 进一步 简 
化 上 述 术 代 码 ， 同 时 总 是 能 获得 所 期 望 的 文件 描述 符 ， 可 以 调用 dup20。 





ftinclude <unistd.h> 


int dup2(int oldfd, int newfd); 


Returns (new) file descriptor on success, or -1 on error 





dup20 系 统 调 用 会 为 oldfd 参 数 所 指定 的 文件 描述 符 创 建 副 本 ， 其 编 
号 由 newfd 参 数 指定 。 如 果 由 newfd 参 数 所 指定 编号 的 文件 描述 符 之 前 已 
经 打开 ， 那 么 dup20 会 首先 将 其 关闭 。 (dup20 调 用 会 默然 忽略 newfd 关 
闭 期 间 出 现 的 任何 错误 。 故 此 ， 编 码 时 更 为 安全 的 做 法 是 : 在 调用 
dup20 之 前 ， 夺 newfd 已 经 打开 ， 则 应 显 式 调用 close() 将 其 关闭 。) 


前 述 调用 close0 和 dupO 的 代码 可 以 简化 为 : 


dup2(1, 2); 


若 调用 dup20 成 功 ， 则 将 返回 副本 的 文件 描述 符 编号 即 newfd 参 数 
8 定 的 值 》。 


如 果 oldfd 并 非 有 效 的 文件 描述 符 ， 那 么 dup20 调 用 将 失败 并 返回 错 
误 EBADF， 且 不 关闭 newfd。 如 果 oldfd 有 效 ， 且 与 newfd 值 相等 ， 那 么 
dup20 将 什么 也 不 做 ， 不 关闭 newfd， 并 将 其 作为 调用 结果 返回 。 


fcntlO0 的 FE_DUPFD 操 作 是 复制 文件 描述 符 的 另 一 接口 ， 更 具有 灵活 


newfd = fcntl(oldfd, F_DUPFD, startfd); 


该 调用 为 oldfd 创 建 一 个 副本 ， 且 将 使 用 大 于 等 于 startfd 的 最 小 未 用 
FARR T 该 调用 还 能 保证 新 描述 符 (newfd) 编号 落 在 特定 
的 区 间 范 围 内 。 总 是 能 将 dup0 和 aup20) 调 用 改写 为 对 close0 和 fcnt0 的 调 
用 ， 虽然 前 者 更 为 简洁 。 a dup2() 
和 fcnt0 二 者 返回 的 errno 错 误 码 存在 一 些 差别 。 


由 图 5-2 可 知 ， 文 件 描述 符 的 正 、 副 本 之 间 共 享 同 一 打开 文件 句柄 
所 合 的 文件 偏 移 量 和 状态 标志 。 然 和 而， 新 文件 描述 符 有 其 上 自己 的 一 套 文 
件 描述 符 标 志 ， 且 其 close-on-exec 标 志 (FD_CLOEXEC) 总 是 处 于 关闭 
状态 。 下 面 将 要 介绍 的 接口 ， 可 以 直接 控制 新 文件 描述 符 的 close-on- 


exec 标 志 。 


dup30 系 统 调用 完成 的 工作 与 dup20 相 同 ， 只 是 新 增 了 一 个 附加 参 
数 flag， 这 是 一 个 可 以 修改 系统 调用 行为 的 位 掩 码 。 











#define GNU SOURCE 
#include <unistd.h> 


int dup3(int oldfd, int newfd, int flags); 








Returns (new) file descriptor on success, or -1 on error 





目前 ，dup30 只 支持 一 个 标志 O_CLOEXEC， 这 将 促使 内 核 为 新 文 
件 描述 符 设 置 close-on-exec 标 志 (FD_CLOEXEC) 。 设 计 该 标志 的 缘 
由 ， 类 似 于 4.3.1 节 对 open0 调 用 中 O_CLOEXEC 标 志 的 描述 。 


dup30 系 统 调 用 始 见于 Linux 2.6.27， 为 Linux 所 特有 。 


Linux 从 2.6.24 开 始 支 持 fcntl(0) 用 于 复制 文件 描述 符 的 附加 命令 : 
F_DUPFD_CLOEXEC。 该 标志 不 仪 实 现 了 与 F_DUPFD 相 同 的 功能 ， 还 
为 新 文件 描述 符 设 置 close-on-exec 标 志 。 同 样 ， 此 命令 之 所 以 得 以 一 显 
身手 ， 其 原因 也 类 似 于 open0 调 用 中 的 O _CLOEXEC 标 志 。SUSv3 并 未 
论 及 FE_DUPFD_CLOEXEC 标 志 ， 但 SUSv4 对 其 作 了 规范 。 








5.6 ”在 文件 特定 仿 移 量 处 的 VO: pread0 和 
pwrite() 
系统 调用 pread0 和 pwrite0) 完 成 与 read0 和 writeO0 相 类 似 的 工作 ， 只 


是 前 两 者 会 在 offset 参 数 所 指定 的 位 置 进行 文件 WO 操作 ， 而 非 始 于 文件 
的 当前 偏 移 量 处 ， 且 它们 不 会 改变 文件 的 当前 偏 移 量 。 





#include <unistd.h> 
ssize t pread(int fd, void *huf, size_t count, off t offset); 

Returns number of bytes read, 0 on EOF, or -1 on error 
ssize_t pwrite(int fd, const void *buf, size_t count, off_t offset); 


Returns number of bytes written, or -1 on crror 











pread() 调 用 等 同 于 将 如 下 调用 纳入 同一 原子 操作 : 
off t orig; 


orig = lseek(fd, 0, SEEK CUR); /* Save current offset */ 
lseek(fd, offset, SEEK SET); 

s = read(fd, buf, len); 

lseek(fd, orig, SEEK_SET); /* Restore original file offset */ 


对 pread0 和 pwrite0 而 言 ，fd 所 指 代 的 文件 必须 是 可 定位 的 〈 即 允许 
对 文件 摘 述 符 执 行 lseekO 调 用 ) 。 


多 线程 应 用 为 这 些 系 统 调用 提供 了 用 武之 地 。 正 如 第 29 章 所 述 ， 进 
程 下 辖 的 所 有 线程 将 共享 同一 文件 描述 符 表 。 这 也 意味 着 每 个 已 打开 文 
件 的 文件 偏 移 量 为 所 有 线程 所 共享 。 当 调用 pread0) 或 pwrite0 时 ， 多 个 线 
程 可 同时 对 同一 文件 描述 符 执行 JO 操 作 ， 且 不 会 因 其 他 线程 修改 文件 
偏 移 量 而 受到 有 影响。 如果 还 试图 使 用 lseek() 和 read()( 或 write()) 来 代 巷 
pread()( 或 pwrite()， ， 那 么 将 引发 竞争 状态 ， 这 类 似 于 5.1 市 讨论 
O_APPEND 标 志 时 的 描述 ( 当 多 个 进程 的 文件 描述 符 指向 相同 的 打开 文 
fi 时 ， 使 用 pread0 和 pwrite() 系 统 调 用 同样 能 够 避免 进程 间 出 现 竞 

IRR) ào 














如 果 需 要 反复 执行 lseek0， 并 伴 之 以 文件 1O， 那 么 
pread() 和 pwrite() 系 统 调用 在 某 些 情况 下 是 具有 性 能 优势 
的 。 这 是 因为 执行 单个 pread() (或 pwrite()〉 系统 调用 的 成 
本 要 低 于 执行 lseek() 和 read() 〈 或 write0 ) 两 个 系统 调用 。 
然而 ， 较 之 于 执行 JO 实 际 所 需 的 时 间 ， 系 统 调用 的 开销 就 
有 些 相形 见 细 了 所 。 


5.7 ”分散 输入 和 集中 输出 〈Scatter-Gather 
I/O) : readv() 


和 writev() readv() 和 writev() 系 统 调用 分 别 实现 了 分 散 输 入 和 集中 输 
出 的 功能 。 





#include <sys/uio.h> 
ssize_t readv(int fd, const struct iovec *zov, int zovent); 
Returns number of bytes read, 0 on EOF, or -1 on error 


ssize_t writev(int fd, const struct iovec *7ov, int zovent); 





Returns number of bytes writicn, or -1 on crror 








这 些 系统 调用 并 非 只 对 单个 缓冲 区 进行 读 写 操作 ， 而 是 一 次 即 可 传 
输 多 个 缓冲 区 的 数据 。 数 组 iov 定 义 了 一 组 用 来 传输 数据 的 缓冲 区 。 整 
Me 了 iov 的 成 员 个 数 。iov 中 的 每 个 成 员 都 是 如 下 形式 的 数 
RELEE 
struct iovec { 


void *iov_base; /* Start address of buffer */ 
size_t iov_len; /* Number of bytes to transfer to/from buffer */ 





1 





SUSv3 标 准 允 许 系 统 实现 对 iov 中 的 成 员 个 数 加 以 限 
制 。 系 统 实现 可 以 通过 定义 <limits.h> 文 件 中 IOV_MAX 来 
通告 这 一 限额 ， 程 序 也 可 以 在 系统 运行 时 调用 sysconf 
(SC_IOV_MAX) 来 获取 这 一 限额 。 〈11.2 节 将 介绍 
sysconf(). ) SUSvV3 要 求 该 限额 不 得 少 于 16。Linux 将 
IOV_MAX 的 值 定义 为 1024， 这 是 与 内 核对 该 向 量 大 小 的 限 
fill (由 内 核 常量 UIO_MAXIOV 定 义 ) 相 对 应 的 。 








然而 ，glibc 对 readvO 和 writev0) 的 封装 函数 9 还 悄悄 做 


了 些 额外 工作 。 知 系统 调用 因 iovcnt 参 数值 过 大 而 失败 ， 外 
壳 函 数 将 临时 分 配 一 块 缓冲 区 ， 其 大 小 足以 容纳 iov 参 数 所 
有 成 员 所 描述 的 数据 绥 冲 区， 随后 再 执行 read0 或 writeO) 调 
用 《参见 后 文 对 使 用 write0 实 现 writev0O 功 能 的 讨论 ) 。 





图 5-3 展 示 的 是 一 个 关于 iov、iovcnt 以 及 iov 指 向 缓冲 区 之 间 关 系 的 
示例 。 


iovent bufferO 
__ | zow base m 
=z len) —~ 


iov_len = lenO 
var 
len] 


iou_ base 
: huffer2 
tov_len = len2 buffe 


w@— len? 一 

























图 5-3: iovec 数 组 及 其 相关 缓冲 区 的 示例 
分 散 输入 


readv() 系 统 调用 实现 了 分 散 输 入 的 功能 :从 文件 描述 符 fd 所 指 代 的 
文件 中 读 取 一 片 连续 的 字 节 ， 然 后 将 其 散 置 〈“ 分 散 放置 >) 于 iov 指 定 的 
缓冲 区 中 。 这 一 散 置 动作 从 iov[0] 开 始 ， 依 次 填 满 每 个 缓冲 区 。 


原子 性 是 readv0O 的 重要 属性 。 换 言 之 ， 从 调用 进程 的 角度 来 看 ， 当 
调用 readvO0 时 ， 内 核 在 fd 所 指 代 的 文件 与 用 户 内 存 之 间 一 次 性 地 完成 了 
数据 转移 。 这 意味 着 ， 假 设 即 使 有 另 一 进程 〈 或 线程 ) 与 其 共享 同一 文 
件 偏 移 量 ， 且 在 调用 readv() 的 同时 企图 修改 文件 偏 移 量 ，readvO 所 读 取 
的 数据 仍 将 是 连续 的 。 


调用 readv0 成 功 将 返回 读 取 的 字 节 数 ， 若 文件 结束 © 将 返回 9。 调 用 
者 必须 对 返回 值 进行 检查 ， 以 验证 读 取 的 字 节 数 是 否 满足 要 求 。 若 数据 
不 足以 填充 所 有 缓冲 区 ， 则 只 会 占用 ”部 分 缓冲 区 ， 其 中 最 后 一 个 缓冲 
区 可 能 只 存 有 部 分 数据 。 











程序 清单 5-2 展 示 了 readv() 的 用 法 。 





在 本 书 中 ， 当 以 函数 名 称 冠 以 所 ?来 命名 示例 程序 时 
(例如 ; 程序 清单 5-2 中 的 程序 treadv.c) ， 意 在 表明 该 程 


序 主 要 用 于 展示 单个 系统 调用 或 库 函 数 的 用 法 。 


程序 清单 5-2: 使 























jreadv() 执 行 分 散 输 入 


#include <sys/stat.h> 
#include <sys/uio.h> 
#include <fcntl.h> 
#include "tlpi_hdr.h" 


int 


main(int argc, char *argv[]) 


{ 


int fd; 
struct iovec iov[3]; 
struct stat myStruct; 


/* First buffer */ 


int x; /* Second buffer */ 
#define STR SIZE 100 


char str[STR SIZE]; 
ssize t numRead, totRequired; 


if (argc != 2 || strcmp(argv[1], "--help") == 


usageErr("%s file\n", argv[0]); 


fd = open(argv[1], O_RDONLY); 
if (fd == -1) 
errExit("open"); 


totRequired = 0; 


iov[0].iov_base = &myStruct; 
iov[0].iov len = sizeof{struct stat); 
totRequired += iov[0].iov_len; 


iov[1].iov_base = &x; 
iov[1].iov_len = sizeof{x); 
totRequired += iov[1].iov_ len; 


iov[2].iov_base = str; 
iov[2].iov len = STR SIZE; 
totRequired += iov[2].iov_len; 


numRead = readv(fd, iov, 3); 
if (numRead == -1) 
errExit("readv"); 


if (numRead < totRequired) 


/* Third buffer */ 


0) 


printf("Read fewer bytes than requested\n"); 


printf("total bytes requested: %ld; bytes read: %ld\n", 
(long) totRequired, (long) numRead) ; 


exit(EXIT SUCCESS); 


集中 输出 


fileio/t_readv.c 


fileio/t_readv.c 


writev() 系 统 调用 实现 了 集中 输出 : 将 iov 所 指定 的 所 有 缓冲 区 中 的 
数据 拼接 (“集中”) 起 来 ， 然 后 以 连续 的 字 贡 序列 写 入 文件 描述 符 fa 指 
代 的 文件 中 。 对 缓冲 区 中 数据 的 “集中 ?” 始 村 iov[0] 所 指定 的 缓冲 区 ， 并 
按 数 组 顺序 展开 。 


像 readv0O 调 用 一 样 ，writevO 调 用 也 属于 原子 操作 ， 即 所 有 数据 将 一 
次 性 地 从 用 户 内 存 传输 到 fd 指 代 的 文件 中 。 因 此 ， 在 向 普通 文件 写 入 数 
据 时 ，writevO 调 用 会 把 所 有 的 请 求 数据 连续 写 入 文件 ， 而 不 会 在 其 他 
进程 〈 或 线程 ) 写 操作 的 影响 下 电 分 散 地 写 入 文件 号。 


如 同 write0 调 用 ，writevO 调 用 也 可 能 存在 部 分 写 的 问题 。 因 此 ， 必 
须 检 查 writev0O 调 用 的 返回 值 ， 以 确定 写 入 的 字 节 数 是 否 与 要 求 相 符 。 


readv0 调 用 和 writevO 调 用 的 主要 优势 在 于 便捷 。 如 下 两 种 方案 ， 任 
选 其 一 都 可 蔡 代 对 writev0O 的 调用 。 


。 编码 时 ， 首 先 分 配 一 个 大 缓冲 区 ， 随 即 再 从 进程 地 址 空间 的 其 他 位 
置 将 数据 复制 过 来 ， 最 后 调用 write() 输 出 其 中 的 所 有 数据 。 
。 及 起 一 系列 write0 调 用 ， 逐 一 输出 每 个 缓冲 区 中 的 数据 。 


尽管 方案 一 在 语义 上 等 同 于 writevO 调 用 ， 但 需要 在 用 户 空 间 内 分 
配 缓冲 区 ， 进 行 数据 复制 ， 很 不 方便 《效率 也 低 ) 。 


方案 二 在 语义 上 就 不 同 于 单 次 的 writev0 调 用 ， 因 为 发 起 多 次 write0) 
调用 将 无 法 保证 原子 性 。 更 何况 ， 执 行 一 次 writev0 调 用 比 执行 多 次 
write() 调 用 开销 要 小 (参见 3.1 节 关于 系统 调用 的 讨论 ) 。 
在 指定 的 文件 偏 移 量 处 执行 分 散 输 入 /集中 输出 


Linux 2.6.30 版 本 新 增 了 两 个 系统 调用 : preadv()、pwritev()， 将 分 
散 输 入 /集中 输出 和 于 指定 文件 偏 移 量 处 的 VO 二 者 集 于 一 里。 它们 并 非 
标准 的 系统 调用 ， 但 获得 了 现代 BSD 的 支持 。 

















#define _BSD_SOURCE 
#include <sys/uio.h> 
ssize t preadv(int fd, const struct iovec *zov, int souvent, off_t offset); 
Returns number of bytes read, 0 on EOF, or -1 on error 
ssize_t pwritev(int fd, const struct iovec *zov, int zovent, off_t offset); 


Returns number of bytes written, or -1 on crror 











preadv0 和 pwritevO 系 统 调用 所 执行 的 任务 与 reaadv0 和 writevO 相 
lr, NTO 的 位 置 将 由 offset 参 数 指定 (类 似 于 pread() 和 pwrite() 系 统 
调用 ) ©. 


对 于 那些 既 想 从 分 散 -集中 MO 中 受益 ， 又 不 愿 受 制 于 当前 文件 侦 移 
量 的 应 用 程序 《比如 ， 多 线程 的 应 用 程序 ) 而 言 ， 这 些 系统 调用 恰好 可 
以 派 上 用 场 。 





5.8 ”截断 文件 truncate0 和 ftruncate() 系 统 调用 


truncate() 和 ftruncate() 系 统 调用 将 文件 大 小 设置 为 length 参 数 指定 的 
Is 





#include <unistd.h> 


int truncate(const char *pathname, off_t length); 
int ftruncate(int fd, off_t length); 


Both return 0 on success, or -1 on error 








若 文件 当前 长 度 大 于 参数 length， 调 用 将 丢弃 超出 部 分 ， 若 小 于 参 
数 length， 调 用 将 在 文件 尾部 添加 一 系列 空 字 节 或 是 一 个 文件 空洞 。 


两 个 系统 调用 之 间 的 差别 在 于 如 何 指定 操作 文件 。truncateO 以 路 径 
名 字符 串 来 指定 文件 ， 并 要 求 可 访问 该 文件 由 ， 且 对 文件 拥有 写 权 限 。 
各 文件 名 为 符号 链接 ， 那 么 调用 将 对 其 进行 解 引 用 。 而 调用 ftruncate0) 
之 前 ， 需 以 可 写 方式 打开 操作 文件 ， 获 取 其 文件 描述 符 以 指 代 该 文件 ， 
该 系统 调用 不 会 修改 文件 偏 移 量 。 


若 ftruncate() 的 length 参 数值 超出 文件 的 当前 大 小 ，SUSvV3 人 允许 两 种 
TA: 要 么 扩展 该 文件 (如 Linux) ， 要 么 返回 错误 。 而 符合 XSI 标 准 的 
系统 则 必须 采取 前 一 种 行为 。 相 同 的 情况 ， 对 于 truncate() 系 统 调用 ， 
SUSv3 则 要 求 总 是 能 扩展 文件 。 














truncate() 无 需 先 以 open() (或 是 一 些 其 他 方法 ) 来 获取 
文件 描述 符 ， 却 可 修改 文件 内 容 ， 在 系统 调用 中 可 谓 独 树 


一 帜 。 


5.9 非 阻塞 IO 
在 打开 文件 时 指定 O_ NONBLOCK 标 志 ， 目 的 有 二 。 


e 各 open(0) 调 用 未 能 立即 打开 文件 ， 则 返回 错误 ， 而 非 陷 入 阻塞 。 有 
一 种 情况 属于 例外 ， 调 用 open0 操 作 FIFO 可 能 会 陷入 阻塞 〈 人 参见 
44.77) o 

Vil JopenQ sa, JaZeANV/OPETET SERA ZEN. ATO AZ A 
未 能 立即 完成 ， 则 可 能 会 只 传输 部 分 数据 ， 或 者 系统 调用 失败 ， 并 
返回 EAGAIN 或 EWOULDBLOCK 和 错误。 有 具体 返回 何 种 错误 将 依赖 
Linux 系 统 与 许多 UNIX 实 现 一 样 ， 将 两 个 错误 常量 视 
为 同 义 。 


管道 、FIFO、 套 接 字 、 设 备 〈 比 如 终端 、 伪 终端 ) 都 支持 非 阻塞 模 
式 。 “因为 无 法 通过 open() 来 获取 管道 和 套 接 字 的 文件 描述 符 ， 所 以 要 
启用 非 阻 塞 标志 ， 就 必须 使 用 5.3 节 所 述 fcntl0) 的 F_SETFL 命 令 。) 

正如 13.1 节 所 述 ， 由 于 内 核 缓冲 区 保证 了 普通 文件 MO 不 会 陷入 阻 


塞 ， 故 而 打开 普通 文件 时 一 般 会 忽略 O_NONBLOCK 标 志 。 然 而 ， 当 使 
用 强制 文件 锁 时 〈55.4 节 ) ，O_NONBLOCK 标 志 对 普通 文件 也 是 起 作 














更 多 关于 非 阻塞 IO 的 信息 请 参见 44.9 节 和 第 63 章 。 


JEE, IKE K System V 的 系统 提供 有 O_NDELAY 标 
志 ， 语 义 上 类 似 于 O_NONBLOCK 标 志 。 二 者 主要 的 区 别 
ÆT: 在 System V 系 统 中 ， 知 非 阻 塞 的 writeO 调 用 未 能 完成 
写 操 作 ， 或 者 非 阻塞 的 read0 调 用 无 输入 数据 可 读 时 ， 则 两 
个 调用 将 返回 0。 这 对 于 read0 调 用 来 说 会 有 问题 ， 因 为 程 
序 将 无 法 区 分 返回 0 的 read0 到 底 是 没有 可 用 的 输入 数据 ， 
还 是 遇 到 了 文件 结尾 也 。 故 而 POSIX.1 标 准 在 初版 中 引入 了 
O_NONBLOCLK 标 志 。 有 些 UNIX 实 现 一 直 还 在 支持 旧 语 


义 的 O_NDELAY 标 志 。Linux 系 统 虽 然 也 定义 了 
O_NDELAY 常 量 ， 但 其 与 O NONBLOCK 标 志 同 义 。 





5.10 ”大 文件 IO 


通常 将 存放 文件 偏 移 量 的 数据 类 型 off t 实现 为 一 个 有 符号 的 长 整 
型 。 (之 所 以 采用 有 符号 数据 类 型 ， 是 要 以 -1 来 表示 错误 情况 。)〉 在 32 
位 体系 架构 中 比如 x86-32) ， 这 将 文件 大 小 置 于 231-1 个 字 节 〈( 即 
2GB) 的 限制 之 下 。 


然而 ， 磁 盘 驱 动 器 的 容量 早已 超出 这 一 限制 ， 因 此 32 位 UNIX 实 现 
有 处 理 超 过 2GB 大 小 文件 的 需求 ， 这 也 在 情理 之 中 。 由 于 问题 较为 普 
W, UNIX) 商 联 盟 在 大 型 文件 峰会 (Large File Summit) 上 就 此 进行 了 
协商 ， 并 针对 必需 的 大 文件 访问 功能 ， 形 成 了 对 SUSv2 规 范 的 扩展 。 本 
节 将 概述 LFS 的 增强 特性 。《〈 完 整 的 LFS 规 范 定稿 于 1996 年 ， 可 通过 
http://opengroup.org/platform/lfs.html 访 问 。) 


始 于 内 核 版 本 2.4，32 位 Linux 系 统 开始 提供 对 LFS 的 支持 (glibc 版 
本 必须 为 2.2 或 更 高 )。 男 一 个 前 提 是 ， 相 应 的 文件 系统 也 必须 支持 大 
文件 操作 。 大 多 数 “ 原 生 拒 inux 文 件 系统 提供 了 LFS 文 持 ， 但 一 些 “ 非 原 
生 ” 文 件 系 统 则 未 提供 该 功能 (微软 的 VFAT 和 NFSv2 系 统 是 其 中 较为 
知名 的 范例 ， 无 论 系 统 是 否 启 用 了 LFS 扩 展 功能 ，2GB 的 文件 大 小 限制 
都 是 硬 杠 枉 ) 。 








由 于 64 位 系统 架构 (例如 ，Alpha、IA-64) 的 长 整 型 
类 型 长 度 为 64 位 ， 故 而 LFS 增 强 特性 所 要 突破 的 限制 对 其 
而 言 并 不 是 问题 。 然 而 ， 即 便 在 64 位 系统 中 ， 一 些 “ 原 
生 ”Linux 文 件 系统 的 实现 细节 还 是 将 文件 大 小 的 理论 值 默 
认为 不 会 超过 263-1 个 字 节 。 在 大 多 数 情 况 下 ， 此 限额 远 远 
超出 了 目前 的 磁盘 容量 ， 故 而 这 一 对 文件 大 小 的 限制 并 无 
SEINE Mo 





应 用 程序 可 使 用 如 下 两 种 方式 之 一 以 获得 LFS 功 能 。 


o 使 用 支持 大 文件 操作 的 备 选 API。 该 API 由 LFS 设 计 ， 意 在 作为 SUS 
规范 的 “过 渡 型 扩展 "。 因 此 ， 尺 管 大 部 分 系统 都 支持 这 一 API， 但 
这 对 于 符合 SUSv2 或 SUSv3 规 范 的 系统 其 实 并 非 必须 。 这 一 方法 现 
已 过 时 。 

。 在 编译 应 用 程序 时 ， 将 宏 _FILE_OFFSET_BITS 的 值 定义 为 64。 这 
一 方法 更 为 可 取 ， 因 为 符合 SUS 规 范 的 应 用 程序 无 需 修改 任何 源码 
即 可 获得 LFS 功 能 。 








过 渡 型 LFS API 


要 使 用 过 渡 型 的 LFS API， 必 须 在 编译 程序 时 定义 
_LARGEFILE64_SOURCE 功 能 测试 宏 ， 该 定义 可 以 通过 命令 行 指定 ， 
也 可 以 定义 于 源 文件 中 包含 所 有 头 文件 之 前 的 位 置 。 该 API 所 属 函 数 具 
有 人 处理 64 位 文件 大 小 和 文件 偏 移 量 的 能 力 。 这 些 函 数 与 其 32 位 版 本 命名 
相同 ， 只 是 尾部 级 以 64 以 示 区 别 。 其 中 包括 : fopen64()、open64()、 
lseek64()、truncate64()、stat64()、mmap64() 和 setrlimit64()。 (针对 这 些 
a 本 书 前 面 已 然 讨论 了 一 部 分 ， 还 有 一 些 将 在 后 续 章 市 

苗 述 。) 








要 访问 大 文件 ， 可 以 使 用 这 些 函数 的 64 位 版 本 。 例 如 ， 打 开 大 文件 
的 编码 示例 如 下 : 


fd = open64(name, O CREAT | O RDWR, mode); 
if (fd == -1) 
errExit ("open"); 


调用 open640)， 相 当 于 在 调用 open0 时 指定 
O_LARGEFILE 标 志 。 若 调用 open0 时 未 指定 此 标志 ， 且 欲 
打开 的 文件 大 小 大 于 2GB， 那 么 调用 将 返回 错误 。 


另外 ， 除 去 上 述 提 及 的 函数 之 外 ， 过 渡 型 LFS API 还 增加 了 一 些 新 
的 数据 类 型 ， 如 下 所 示 。 


e struct stat64: 类 似 于 stat 结 构 〈 人 参见 15.1 节 ) ， 文 持 大 文件 尺寸 。 
e off64 t: 64 位 类 型 ， 用 于 表示 文件 偏 移 量 。 


如 程序 清单 5-3 所 示 ， 除 去 使 用 了 该 API 中 的 其 他 64 位 函数 之 外 ， 
lseek64() 就 用 到 了 数据 类 型 off64_t。 该 程序 接受 两 个 命令 行 参数 ， 欲 打 
开 的 文件 名 称 和 给 定 的 文件 偏 移 量 〈 整 型 ) 值 。 程 序 首先 打开 指定 的 文 
件 ， 然 后 检索 至 给 定 的 文件 偏 移 量 处 ， 随 即 写 入 一 串 字 符 。 如 下 所 示 的 
shell 会 话 中 ， 程 序 检索 到 一 个 超大 的 文件 偏 移 量 处 (超过 10GB) ， 再 
写 入 一 些 字 节 : 
$ ./large_ file x 10111222333 


$ ls -1 x Check size of resulting file 
-IW------- 1 mtk Users 10111222337 Mar 4 13:34 x 























程序 清单 5-3: 访问 大 文件 














fileio/large_file.c 
#tdefine _LARGEFILE64_SOURCE 
#include <sys/stat.h> 
#include <fcntl.h> 
#include “tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


int fd; 

of f64 t off; 

if (argc != 3 || strcmp{argv[1], "--help") == 0) 
usageErr("%s pathname offset\n", argv[0]); 


fd = open64(argv[1], O RDWR | O CREAT, S IRUSR | S IWUSR); 
if (fd == -1) 
errExit("open64") ; 
off = atoll(argv[2]); 
if (lseek64(fd, off, SEEK SET) == -1) 
errExit("lseek64"); 
if (write(fd, "test", 4) == -1) 


errExit("write"); 
exit(EXIT SUCCESS); 


fileio/large_ file.c 
_FILE_OFFSET_BITS% 


要 获取 LFS 功 能 ， 推 荐 的 作法 是 : 在 编译 程序 时 ， 将 宏 


_FILE_ OFFSET BITS 的 值 定 义 为 64。 做 法 之 一 是 利用 C 语 言 编译 器 的 命 
令 行 选项 : 


$ cc -D_FILE_OFFSET BITS=64 prog.c 


为 外 一 种 方法 ， 是 在 C 语 言 的 源 文件 中 ， 在 包含 所 有 头 文 件 之 前 添 
加 如 下 宏 定 义 : 


#define FILE OFFSET BITS 64 


所 有 相关 的 32 位 函数 和 数据 类 型 将 上 自动 转换 为 64 位 版 本 。 因 而 ， 例 
如 ， 实 际会 将 open0 转 换 为 open640， 数 据 类 型 off t 的 长 度 也 将 转 而 定义 
为 64 位 。 换 言 之 ， 无 需 对 源码 进行 任何 修改 ， 只 要 对 已 有 程序 进行 重新 
编译 ， 就 能 够 实现 大 文件 操作 。 


显然 ， 使 用 宏 _FILE_OFFSET_BITS 要 比 采 用 过 渡 型 的 LFS API 更 为 
简单 ， 但 这 也 要 求 应 用 程序 的 代码 编写 必须 规范 (例如 ， 声 明 用 于 放置 
文件 偏 移 量 的 变量 ， 应 正确 地 使 用 off t+， 而 不 能 使 用 “原生 ”的 C 语 言 整 
A). 


LFS 规范 对 于 支持 _ FILE_ OFFSET_BITS 宏 未 作 硬 性 规定 ， 仅 仅 提 
及 将 该 宏 作 为 指定 数据 类 型 off t 大 小 的 可 选 方案 。 一 些 UNIX 实现 使 
用 不 同 的 特性 测试 宏 来 获取 此 功能 。 

















若 试图 使 用 32 位 函数 访问 大 文件 〈 即 在 编译 程序 时 ， 
未 将 宏 FILE_OFFSET _BITS 的 值 设 置 为 64) ， 调 用 可 能 会 
返回 EOVERFLOW 错 误 。 例 如 ， 为 获取 大 小 超过 2G 文 件 的 
言 上 息 ， 阁 使 用 stat 的 32 位 版 本 时 就 会 遇 到 这 一 错误 。 


向 printfO 调 用 传递 off_t 值 


LFS 扩 展 功能 没有 解决 的 问题 之 一 是 ， 如 何 同 printfO 调 用 传递 off _t 
值 。3.6.2 市 曾 特 别 指出 ， 对 于 预定 义 的 系统 数据 类 型 (诸如 pid_t、 
uid_t) ， 展 示 其 值 的 可 移植 方法 是 将 该 值 强制 转换 为 long 型 ， 并 在 





printfO 中 使 用 限定 符 %ld。 然 而 ， 一 旦 使 用 了 LFS 扩 展 功能 ，9%1d 将 不 足 
以 处 理 off_t 数 据 类 型 ， 因 为 对 该 数据 类 型 的 定义 可 能 会 超出 long 类 型 的 
范围 ， 一 般 为 1ong long 类 型 。 据 此 ， 辱 要 显示 off_t 类 型 的 值 ， 则 先 要 将 
eee long 类 型 ， 然 后 使 用 printfO 函 数 的 %lld 限 定 符 显 示 ， 
HR PATA: 


#define FILE OFFSET BITS 64 





off t offset; /* Will be 64 bits, the size of ‘long long’ */ 
/* Other code assigning a value to ‘offset’ */ 
printf("offset=%lld\n", (long long) offset); 


在 处 理 stat 结 构 所 使 用 的 blkcnt t 数据 类型 时 ， 也 应 予以 类 似 关注 
《参见 15.1 节 的 描述 ) 。 





如 需 在 独立 的 编译 模块 之 间 传 递 off_t 或 stat 类 型 的 参数 
值 ， 则 需 确 保 在 所 有 模块 中 ， 这 些 数据 类 型 的 大 小 相同 
( 即 编译 这 些 模块 时 ， 要 么 将 宏 _FILE_OFFSET_BITS 的 值 
都 定义 为 64， 要 么 都 不 做 定义 ) 。 








5.11 /dev/fd 日 录 


对 于 每 个 进程 ， 内 核 都 提供 有 一 个 特殊 的 虚拟 目录 /dev/fd。 该 目录 
中 包含 /dev/fd/n” 形 式 的 文件 名 ， 其 中 n 是 与 进程 中 的 打开 文件 描述 符 相 
对 应 的 编号 。 因 此 ， 例 如 ，/dewfd/0 就 对 应 于 进程 的 标准 输入 。 
(SUSv3 对 /dewfd 特 性 未 做 规定 ， 但 有 些 其 他 的 UNIX 实 现 也 提供 了 这 一 
特性 。) 


打开 /devfd 目 录 中 的 一 个 文件 等 同 于 复制 相应 的 文件 描述 符 ， 所 以 
下 列 两 行 代码 是 等 价 的 : 


fd = open("/dev/fd/1", O WRONLY); 
fd = dup({1); /* Duplicate standard output */ 


在 为 open() 调 用 设置 flag 参 数 时 ， 需 要 注意 将 其 设置 为 与 原 描述 符 相 


同 的 访问 模式 。 这 一 场景 下 ， 在 flag 标 志 的 设置 中 引入 其 他 标志 ， 诸 如 
O_CREAT， 是 毫 无 意义 的 《系统 会 将 其 忽略 ) 。 





/dev/fd 实 际 上 是 一 个 符号 链接 ， 链 接 到 Linux 所 专 有 
的 /proc/self/fd 目 录 。 后 者 义 是 Linux 特 有 的 /proc/PID/fd 目 录 
族 的 特例 之 一 ， 此 目录 族 中 的 每 一 目录 都 包含 有 符号 链 
接 ， 与 一 进程 所 打开 的 所 有 文件 相对 应 。 





程序 中 很 少 会 使 用 /dev/fd 目 录 中 的 文件 。 其 主要 用 途 在 shell 中 。 许 
多 用 户 级 shell 命 令 将 文件 名 作为 参数 ， 有 时 需要 将 命令 输出 至 管道 ， 并 
将 茶 个 参数 将 换 为 标准 输入 或 标准 输出 。 出 于 这 一 目的 ， 有 些 命令 〈 例 
如 ，diff、ed、tar 和 comm) 提供 了 一 个 解决 方法 ， 使 用 “-” 符 写作 为 命令 
的 参数 之 一 ， 用 以 表示 标准 输入 或 输出 〔 视 情况 而 定 )。 所 以 ， 要 比较 
ls 命令 输出 的 文件 名 列表 与 之 前 生成 的 文件 名 列表 ， 命 令 束 可 以 写成 : 


$ 1s | diff - oldfilelist 








这 种 方法 有 不 少 问题 。 首 先 ， 该 方法 要 求 每 个 程序 都 对 “-” 符 写 做 
专门 处 理 ， 但 是 许多 程序 并 未 实现 这 样 的 功能 ， 这 些 命令 只 能 处 理 文 
件 ， 不 文 持 将 标准 输入 或 输出 作为 参数 。 其 次 ， 有 些 程序 还 将 单 
个 “-” 符 解释 为 表征 命令 行 选项 结束 的 分 隔 符 。 


使 用 /dev/fd 目 录 ， 上 述 问题 将 迎刃而解 ， 可 以 把 标准 输入 、 标 准 输 
出 和 标准 错误 作为 文件 名 参数 传递 给 任何 需要 它们 的 程序 。 所 以 ， 可 以 
将 前 一 个 shell 命 令 改写 成 如 下 形式 : 
$ 1s | diff /dev/fd/o oldfilelist 


方便 起 见 ， 系 统 还 提供 了 3 个 符号 链接 : /dev/stdin、/dev/stdout 
和 /dev/stderr， 分 别 链接 到 /dev/fd/0、/dev/fd/1 和 和 /dev/fd/2。 








5.12 创建 临时 文件 


有 些 程序 需要 创建 一 些 临时 文件 ， 仅 供 其 在 运行 期 间 使 用 ， 程 序 终 
止 后 即行 删除 。 例 如 ， 很 多 编译 器 程序 会 在 编译 过 程 中 创建 临时 文件 。 
GNU C 语 言 函 数 库 为 此 而 提供 了 一 系列 库 函 数 。 (之 所 以 有 “一 系列 ”的 
库 函 数 ， 部 分 原因 是 由 于 这 些 函 数 分 别 继承 自 各 种 UNIX 实 现 。) 本 节 
将 介绍 其 中 的 两 个 函数 : mkstemp() 和 tmpfile()。 


基于 调用 者 提供 的 模板 ，mkstemp0O 函 数 生 成 一 个 唯一 文件 名 并 打 
开 该 文件， 返回 一 个 可 用 于 IO 调用 的 文件 描述 符 。 








#include <stdlib.h> 


int mkstemp(char *template) ; 








Returns file descriptor on success, or -1 on error 








模板 参数 采用 路 径 名 形式 ， 其 中 最 后 6 个 字符 必须 为 XXXXXX。 这 
6 个 字符 将 被 蔡 换 ， 以 保证 文件 名 的 唯一 性 ， 且 修改 后 的 字符 串 将 通过 
template 参 数 传 回 。 因 为 会 对 传 入 的 template 参 数 进行 修改 ， 所 以 必须 将 
其 指定 为 字符 数组 ， 而 非 字 符 串 常量 。 


文件 拥有 者 对 mkstemp0 〇 函数 建立 的 文件 拥有 读 写 权限 (其 他 用 户 
则 没有 任何 操作 权限 ) ， 且 打开 文件 时 使 用 了 O_EXCL 标 志 ， 以 保证 调 
用 者 以 独占 方式 访问 文件 。 


通常 ， 打 开 临 时 文件 不 入， 程序 就 会 使 用 unlink 系 统 调用 (参见 
18.3 节 ) 将 其 删除 。 故 而 ，mkstemp0 〇 函数 的 示例 代码 如 下 所 示 : 








int fd; 
char template[] = "/tmp/somestringXXXXXX"; 


fd = mkstemp(template) ; 
if (fd == -1) 
errExit("mkstemp" ); 
printf("Generated filename was: %s\n", template); 
unlink{template) ; /* Name disappears immediately, but the file 
is removed only after close() */ 


/* Use file I/O system calls - read(), write(), and so on */ 


if (close(fd) == -1) 
errExit("close"); 


使 用 tmpnam()、tempnam() 和 mktemp() 函 数 也 能 生成 唯 
一 的 文件 名 。 然 而 ， 由 于 这 会 导致 应 用 程序 出 现 安全 漏 
洞 ， 应 当 避 免 使 用 这 些 函 数 。 关 于 这 些 函数 的 进一步 细节 
请 参考 手册 页 。 


tmpfile() 函 数 会 创建 一 个 名 称 唯一 的 临时 文件 ， 并 以 读 写 方 式 将 其 
打开 。【〔 打 开 该 文件 时 使 用 了 O_EXCL 标 志 ， 以 防 一 个 可 能 性 极 小 的 冲 
突 ， 即 妃 一 个 进程 已 经 创建 了 一 个 同名 文件 。) 





ftinclude <stdio.h> 


FILE *tmpfile(void) ; 








Returns file pointer on success, or NULL on error 





tmpfile() 函 数 执行 成 功 ， 将 返回 一 个 文件 流 供 stdio 库 函数 使 用 。 文 
件 流 关闭 后 将 自动 删除 临时 文件 。 为 达到 这 一 目的 ，tmpfileO 函 数 会 在 
打开 文件 后 ， 从 内 部 立即 调用 unlink0 来 删除 该 文件 名 @@。 





5.13 总结 


本 章 介 绍 了 原子 操作 的 概念 ， 这 对 于 一 些 系统 调用 的 正确 操作 至 关 
重要 。 特 别 是 ， 指 定 O_EXCL 标 志 调 用 open()， 这 确保 了 调用 者 就 是 文 
件 的 创建 者 。 而 指定 O_APPEND 标 志 来 调用 open()， 还 确保 了 多 个 进程 
在 对 同一 文件 妃 加 数据 时 不 会 履 盖 彼此 的 输出 。 


系统 调用 fcntl0 可 以 执行 许多 文件 控制 操作 ， 其 中 包括 : 修改 打开 
文件 的 状态 标志 、 复 制 文件 描述 符 。 使 用 dup0 和 dup20 系 统 调用 也 能 实 
现 文件 描述 符 的 复制 功能 。 


本 章 接 着 研究 了 文件 描述 符 、 打 开 文 件 句 柄 和 文件 inode 之 间 的 关 
系 ， 并 特别 指出 这 3 个 对 象 各 自 包 含 的 不 同 信息 。 文 件 摘 述 符 及 其 副本 
e EHARA SCPE AIA, MAEKA CE RAS E 2 SCE 
多 量 。 

之 后 摘 述 的 诸多 系统 调用 ， 是 对 常规 read0 和 write0 系 统 调 用 的 功 
能 扩展 。pread() 和 pwrite() 系 统 调 用 可 在 文件 的 指定 位 置 处 执行 WO 功 
能 ， 且 不 会 修改 文件 偏 移 量 。readv() 和 writevO 系 统 调 用 实现 了 分 散 输 入 
和 集中 输出 的 功能 。preadv() 和 pwritev() 系 统 调用 则 集 上 述 两 对 系统 调用 
的 功能 于 一 身 。 

使 用 truncate0 和 ftruncate0) 系 统 调用 ， 既 可 以 丢弃 多 余 的 字 节 以 缩 
小 文件 大 小 ， 又 能 使 用 填充 为 0 的 文件 空洞 来 增加 文件 大 小 。 


本 章 还 简单 介绍 了 非 阻塞 O 的 概念 ， 后 续 章 节 中 还 将 继续 讨论 。 


LFS 规 范 定 义 了 一 和 僚 扩 展 功能 ， 允 许 在 32 位 系统 中 运行 的 进程 来 操 
作 无 法 以 32 位 表示 的 大 文件 。 


运用 虚拟 目录 /devwfd 中 的 编号 文件 ， 进 程 就 可 以 通过 文件 描述 符 编 
号 来 访问 自己 打开 的 文件 ， 这 在 shell 命 令 中 尤其 有 用 。 


mkstemp() 和 tmpfile() 函 数 允 许 应 用 程序 去 创建 临时 文件 。 














5.14 练习 


5-1. 请 使 用 标准 文件 MO 系统 调用 Copen()#lllseek()) 和 off_t 数 据 类 
型 修改 程序 清单 5-3 中 的 程序 。 将 宏 _FILE_OFFSET_BITS 的 值 设 置 为 64 
进行 编译 ， 并 测试 该 程序 是 否 能 够 成 功 创建 一 个 大 文件 。 


5-2. 编写 一 个 程序 ， 使 用 O_APPEND 标志 并 以 写 方式 打开 一 个 已 
存在 的 文件 ， 且 将 文件 偏 移 量 置 于 文件 起 始 处 ， 再 写 入 数据 。 数 据 会 显 
示 在 文件 中 的 哪个 位 置 ? 为 什么 ? 


5-3. 本 习题 的 设计 目的 在 于 展示 为 何以 O_APPEND 标 志 打 开 文件 
来 你 障 操作 的 原子 性 是 必要 的 。 请 编写 一 程序， 可 接收 多 达 3 个 命令 行 


参 








$ atomic_append filename num-bytes [x] 


该 程序 应 打开 所 指定 的 文件 (如 有 必要 ， 则 创建 之 ) ， 然 后 以 每 次 
调用 writeO) 写 入 一 个 字 节 的 方式 ， 癌 文件 尾部 追加 num-bytes 个 字 节 。 缺 
省 情况 下 ， 程 序 使 用 O_APPEND 标 志 打 开 文 件 ， 但 若 存在 第 三 个 命令 行 
参数 (x) ， 那 么 打开 文件 时 将 不 再 使 用 O_APPEND 标 志 ， 代 之 以 在 每 
次 调用 write() 前 调用 lseek(fd,0,SEEK_END)。 同 时 运行 该 程序 的 两 个 实 
例 ， 不 带 x 参数 ， 将 100 万 个 字 节 写 入 同一 文件 : 


$ atomic append f1 1000000 & atomic append f1 1000000 


重复 上 述 操作 ， 将 数据 写 入 为 一 文件 ， 但 运行 时 加 入 x 参数 : 


$ atomic_append f2 1000000 x & atomic_append f2 1000000 x 


使 用 ]s-1 命 令 检 查 文件 红 和 f2 的 大 小 ， 并 解释 两 文件 大 小 不 同 的 原 














5-4. 使 用 fcntO0 和 close0《〈 吞 有 必要 ) 来 实现 dup0 和 dup20。 (对 
于 某 些 错误 ，dup20 和 fcntl0 返 回 的 errno 值 并 不 相同 ， 此 处 可 不 予 考 
虑 。) 务必 牢记 dup20 需 要 处 理 的 一 种 特殊 情况 ， 即 oldfd 与 newfd 相 
等 。 这 时 ， 应 检查 oldfd 是 否 有 效 ， 测 试 fcnt] (oldfd，F_GETFL) 是 否 成 功 
就 能 达到 这 一 目的 。 夺 oldfd 无 效 ， 则 dup20 将 返回 -1， 并 将 ermo 置 为 
EBADF。 





5-5. 编写 一 程序 ， 验 证 文件 描述 符 及 其 副本 是 人 否 共 至 了 文件 仿 移 
量 和 打开 文件 的 状态 标志 。 


5-6. 说 明 下 列 代码 中 每 次 执行 write0 后 ， 输 出 文件 的 内 容 是 什 
Ar AltA 


fd1 = open(file, O_RDWR | O_CREAT | O_TRUNC, S_IRUSR | S_IWUSR); 
fd2 = dup(fd1); 

fd3 = open(file, O_RDWR); 

write(fd1, "Hello,", 6); 

write(fd2, "world", 6); 

lseek(fd2, 0, SEEK_SET); 

write(fd1, "HELLO,", 6); 

write(fd3, "Gidday", 6); 


5-7. 使 用 read()、 Wa a 数 包 ( 见 7.1.2 节 〉 中 的 必要 
函数 以 实现 readv0 和 writev(0) 功 能 





DZE: 或 线程 。 


QZP: 为 避免 混淆 ， 译 文 将 原文 中 的 open file description table 和 
open file description 分 别 以 “打开 文件 表 ” 和 “打开 文件 句柄 ” 蔡 换 。 但 在 给 
译 者 的 回信 中 ， 作 者 尽管 承认 这 一 表述 方式 容易 使 读者 产生 混 消 ， 但 仍 
坚持 open file description table 和 open file description 的 称谓 ， 原 因 有 二 : 
—, open file description 是 相关 标准 所 采用 的 术语 ， 而 与 标准 保持 一 致 
实 属 必要 ， 二 ，handle 通 常用 于 引用 用 户 空 间 中 的 应 用 对 象 ， 而 此 处 的 
open file description 则 无 法 由 用 户 空间 中 的 应 用 直接 访问 。 


OFFRE: 将 文件 描述 符 1 复制 到 文件 描述 符 2。 


OFRE: 执行 实际 IO 的 开销 要 远大 于 执行 系统 调用 ， 系 统 调 用 的 性 
能 优势 作用 有 限 。 


@@ 译 者 注 : 又 称 外 壳 函 数 。 

@) 译 者 注 : EOF. 

C@) 译 者 注 : 按 iov 数 组 顺序 。 

@ 译 者 注 : 即 不 受 其 他 进 〈 线 ) 程 改 变 文 件 偏 移 量 的 影响 。 











@ 译 者 注 : 应 当 指 出 ，readv0 和 writev0O 会 改变 打开 文件 句柄 的 当前 文件 


偏 移 量 。 


WFE: 作者 于 此 处 暗示 ， 这 两 个 系统 调用 所 执行 的 VO 将 不 影响 文 
件 的 当前 偏 移 量 。 


QD 译 者 注 : 即 对 组 成 路 径 名 的 各 目录 拥有 可 执行 (x)〉 权限 。 


MZEE: 此 处 所 谓 非 阻塞 意 指 O_NDELAY。 另 外 ， 原 文 表述 似 有 错 
误 ， 酌 改 ， 请 参见 APUEvV2 第 14.2 节 。 


(3 译 者 注 : 进程 终止 时 会 关闭 所 有 打开 的 文件 描述 符 ， 关 闭 文件 就 会 删 
除 这 些 临 时 文件 《参考 mkstmp 代 码 示例 中 的 注释 ) ， 由 此 可 以 推导 
出 ， 进 程 退出 时 将 目 动 删除 临时 文件 。 











POR FE 


本 章 将 研究 进程 结构 ， 并 将 重点 关注 进程 虚拟 内 存 的 布局 及 内 容 。 
同时 ， 还 会 对 进程 的 某 些 属 性 进行 考察 。 后 续 章 节 会 对 进程 属性 做 进 一 
步 的 探 完 《例如 第 9 章 的 进程 赁 证， 第 35 章 的 进程 优先 权 及 进程 调 
a i E 论 如 何 创建 、 终 止 进程 ， 以 及 进程 如 何 执行 
新 的 程序 。 








6.1 进程 和 程序 


HFE (process) 是 一 个 可 执行 程序 (program) WYSE. ARE 





IDE REE MM, FP SE SREP ZA EX Fil 


程序 是 包含 了 一 系列 信息 的 文件 ， 这 些 信 息 描 述 了 如 何在 运行 时 创 


建 一 个 进程 ， 所 包括 的 内 容 如 下 所 示 。 





二 进 制 格式 标识 : 每 个 程序 文件 都 包含 用 于 描述 可 执行 文件 格式 的 
元 信息 Cmetainformation) 。 内 核 (kernel) 利用 此 信息 来 解释 文件 
中 的 其 他 信息 。 历 史上 ，UNIX 可 执行 文件 曾 有 两 种 广泛 使 用 的 格 
式 ， 分 别 为 最 初 的 aout〈 汇 编程 序 输出 ) 和 更 加 复杂 的 COFF ( 通 
用 对 象 文件 格式 ) 。 现 在 ， 大 多 数 UNIX 实 现 〈 包 括 Linux) 采用 可 
人 


机 器 语言 指令 : 对 程序 算法 进行 编码 。 

程序 入 口 地 址 : 标识 程序 开始 执行 时 的 起 始 指令 位 置 。 

数据 : 程序 文件 包含 的 变量 初始 值 和 程序 使 用 的 字面 常量 (literal 
constant) 值 〈 比 如 字符 串 ) 。 

符号 表 及 重 定 位 表 : 描述 程序 中 函数 和 变量 的 位 置 及 名 称 。 这 些 表 
格 有 多 种 用 途 ， 其 中 包括 调试 和 运行 时 的 符号 解析 (动态 链接 ) 。 
共享 库 和 动态 链接 信息 : 程序 文件 所 包含 的 一 些 字 段 ， 列 出 了 程序 
运行 时 需要 使 用 的 共享 库 ， 以 及 加 载 共 享 库 的 动态 链接 器 的 路 径 


名 。 
a aa 
Eo 














可 以 用 一 个 程序 来 创建 许多 进程 ， 或 者 反 过 来 说 ， 许 多 进程 运行 的 





可 以 是 同一 程序 。 


在 此 将 本 节 开 始 时 给 出 的 进程 定义 重新 改写 为 ， 进 程 是 由 内 核定 义 


的 抽象 的 实体 ， 并 为 该 实体 分 配 用 以 执行 程序 的 各 项 系统 资源 。 


从 内 核 角 度 看 ， 进 程 由 用 户 内 存 空间 (user-space memory) 和 一 系 





列 内 核 数 据 结 构 组 成 ， 其 中 用 户 内 存 空间 包含 了 程序 代码 及 代码 所 使 用 
的 变量 ， 而 内 核 数 据 结 构 则 用 于 维护 进程 状态 信息 。 记 录 在 内 核 数 据 结 





构 中 的 信息 包括 许多 与 进程 相关 的 标识 号 ADs) 、 虚 拟 内 存 表 、 打 开 
文件 的 描述 符 表 、 信 号 传递 及 处 理 的 有 关 信 息 、 进 程 资源 使 用 及 限制 、 
当前 工作 目录 和 大 量 的 其 他 信息 。 


6.2 vite Ss Hues 


每 个 进程 都 有 一 个 进程 号 (PID) ， 进 程 号 是 一 个 正 数 ， 用 以 唯一 
标识 系统 中 的 某 个 进程 。 对 各 种 系统 调用 而 言 ， 进 程 号 有 时 可 以 作为 传 
入 参数 ， 有 时 可 以 作为 返回 值 。 比 如 ， 系 统 调用 kill() 〈20.5 节 ) 人 允许 调 
用 者 向 拥有 特定 进程 号 的 进程 发 送 一 个 信号 。 当 需要 创建 一 个 对 某 进 程 
而 言 唯一 的 标识 符 时 ， 进 程 号 就 会 派 上 有 用场。 常见 的 例子 是 将 进程 号 作 
为 与 进程 相关 文件 名 的 一 部 分 。 


系统 调用 getpid0 返 回调 用 进程 的 进程 号 。 








#include <unistd.h> 


pid t getpid(void); 


Always successfully returns process ID of caller 











getpid0 返 回 值 的 数据 类 型 为 pid_t， 该 类 型 是 由 SUSv3 所 规定 的 整数 
类 型 ， 专 用 于 存储 进程 号 。 

除了 少数 系统 进程 外 ， 比 如 init 进 程 (进程 号 为 1) ， 程 序 与 运行 该 
程序 进程 的 进程 号 之 间 没 有 固定 关系 。 

Linux 内 核 限 制 进程 号 需 小 于 等 于 32767。 新 进程 创建 时 ， 内 核 会 按 


顺序 将 下 一 个 可 用 的 进程 号 分 配给 其 使 用 。 每 当 进程 号 达到 32767 的 限 
制 时 ， 内 核 将 重 置 进程 号 计数 占 ， 以 便 从 小 整数 开始 分 配 。 








一 旦 进程 号 达到 32767， 会 将 进程 号 计数 器 重 置 为 
300， 而 不 是 1。 之 所 以 如 此 ， 是 因为 低 数 值 的 进程 号 为 系 
统 进程 和 守护 进程 所 长 期 占用 ， 在 此 范围 内 搜索 尚未 使 用 
的 进程 号 只 会 是 浪费 时 间 。 








在 Linux2.4 版 本 及 更 早 版 本 中 ， 进 程 号 的 上 限 32767， 


由 内 核 常量 PID_MAX 所 定义 。 在 Linux 2.6 版 本 中 ， 情 况 有 
所 改变 。 尽 管 进程 号 的 默认 上 限 仍 是 32767， 但 可 以 通过 

Linux 系 统 特有 的 /proc/sys/kernel/pid_max 文 件 来 进行 调整 

(其 值 = 最 大 进程 号 +1) 。 在 32 位 平台 中 ，pid_max 文 件 的 
最 大 值 为 32768， 但 在 64 位 平台 中 ， 该 文件 的 最 大 值 可 以 高 
IA BI272 (A400) ， 系 统 可 能 容纳 的 进程 数量 会 非常 庞 

IS 





每 个 进程 都 有 一 个 创建 自己 的 父 进 程 。 使 用 系统 调用 getppidO 可 以 
检索 到 父 进程 的 进程 号 。 





#include <unistd.h> 


pid t getppid(void) ; 








Always successfully returns process ID of parent of caller 





实际 上 ， 每 个 进程 的 父 进程 号 属性 反映 了 系统 上 所 有 进程 间 的 树 状 
关系 。 每 个 进程 的 父 进程 双 有 自己 的 父 进程 ， 以 此 类 推 ， 回 溯 到 1 号 进 
程 一 一 init 进 程 ， 即 所 有 进程 的 始祖 。 使 用 pstree(1) 命 令 可 以 查看 到 这 
一 “家 族 树 ”(family tree) 。 

如 果子 进程 的 父 进 程 终止 ， 则 子 进程 束 会 变 成 “ 沂 儿 ”，init 进 程 随 
即将 收养 该 进程 ， 子 进程 后 续 对 getppid0) 的 调用 将 返回 进程 号 1 (参照 
26.273) « 


通过 查看 由 Linux 系 统 所 特有 的 /proc/PID/status 文 件 所 提供 的 PPid 字 
段 ， 可 以 获知 每 个 进程 的 父 进 程 。 





6.3 ”进程 内 存 布局 


每 个 进程 所 分 配 的 内 存 由 很 多 部 分 组 成 ， 通 常 称 之 为 “ 段 
(segment) ”。 如 下 所 示 。 


© 文本 段 包 含 了 进程 运行 的 程序 机 器 语言 指令 。 文 本 段 具 有 只 读 属 
性 ， 以 防止 进程 通过 错误 指针 意外 修改 自身 指令 。 因 为 多 个 进程 可 
同时 运行 同一 程序 ， 所 以 又 将 文本 段 设 为 可 共享 ， 这 样 ， 一 份 程序 
代码 的 拷贝 可 以 映射 到 所 有 这 些 进程 的 虚拟 地 址 空间 中 。 

初始 化 数据 段 包含 显 式 初始 化 的 全 局 变量 和 静态 变量 。 当 程序 加 载 
到 内 存 时 ， 从 可 执行 文件 中 读 取 这 些 变量 的 值 。 

未 初始 化 数据 段 包含 了 未 进行 显 式 初始 化 的 全 局 变量 和 静态 变量 。 
程序 启动 之 前 ， 系 统 将 本 段 内 所 有 内 存 初 始 化 为 0。 出 于 历史 原 
因 ， 此 上 段 常 被 称 为 BSS 段 ， 这 源 于 老 版 本 的 汇编 语言 助 记 符 “block 
started by symbol”。 将 经 过 初始 化 的 全 局 变量 和 静态 变量 与 未 经 初 
始 化 的 全 局 变量 和 静态 变量 分 开 存放 ， 其 主要 原因 在 于 程序 在 磁盘 
上 存储 时 ， 没 有 必要 为 未 经 初始 化 的 变量 分 配 存 储 空间 。 相 反 ， 可 
执行 文件 只 需 记 录 未 初始 化 数据 段 的 位 置 及 所 需 大 小 ， 直 到 运行 时 
再 由 程序 加 载 器 来 分 配 这 一 空间 。 

栈 (stack) 是 一 个 动态 增长 和 收缩 的 段 ， 由 栈 帧 〈stack frames) 组 
成 。 系 统 会 为 每 个 当前 调用 的 函数 分 配 一 个 栈 帧 。 栈 帧 中 存储 了 画 
数 的 局 部 变量 〈 所 谓 自 动 变 量 ) 、 实 参 和 返回 值 。6.5 节 将 深入 讨 
WIRI 

HE Cheap) 是 可 在 运行 时 (为 变量 ) 动态 进行 内 存 分 配 的 一 块 区 
域 。 堆 顶端 称 作 program break. 


对 于 初始 化 和 未 初始 化 的 数据 段 而 言 ， 不 太 第 用 、 但 表述 更 清晰 的 
称谓 分 别 是 用 户 初 始 化 数据 段 (user-initialized data segment) PEJ 
化 数据 段 (zero-initialized data segment) 。 


size(1) 命 令 可 显示 二 进 制 可 执行 文件 的 文本 段 、 初 始 化 数据 段 、 非 
初始 化 数据 段 (bss) 的 段 大 小 。 























正文 中 使 用 的 术语 “ 段 (segment) ”不 应 与 一 些 硬件 体 


系 架 构 ， 比 如 x86-32 中 使 用 的 人 硬件 分 段 (segmentation) 相 
混淆 。 相 反 ， 本 文中 的 段 是 对 UNIX 系 统 中 进程 虚拟 内 存 的 
逻辑 划分 。 有 时， 会 使 用 术语 “区 (section) “RACE, 
因为 在 当下 风行 的 可 执行 文件 格式 (ELF) 规范 中 ， 采 用 
的 术语 与 “区 ”更 趋 一 致 。 





本 书 会 在 多 处 涉及 这 种 情况 ， 库 函 数 返回 的 指针 指 问 
静态 分 配 的 内 存 。 这 意味 着 ， 该 内 存 既 可 在 初始 化 数据 段 
中 分 配 ， 也 可 在 非 初 始 化 数据 段 中 分 配 。〔 某 些 情况 下 ， 
库 函 数 转 而 会 在 堆 上 对 内 存 做 一 次 性 动态 分 配 ， 然 而 ， 这 
一 实现 细节 与 这 里 所 要 表达 的 意思 无 天 。) 库 函 数 有 时 会 
通过 静态 分 配 的 内 存 来 返回 信息 ， 了 解 这 一 情况 至 关 重 
要 ， 因 为 这 片 内 存 的 存在 独立 于 函数 调用 ， 后 续 对 同一 困 
数 的 调用 可 能 会 将 其 敢 靖 〈 有 时 ， 后 续 对 相关 函数 的 调用 
也 有 相同 的 效应 )。 使 用 静态 分 配 的 内 存 会 使 冰 数 不 可 重 
入 (nonreentrant) 。21.1.2 节 和 31.1 节 将 深入 讨论 重 入 
Creentrancy) 问题 。 











程序 清单 6-1 展 示 了 不 同类 型 的 C 语 言 变量 ， 并 以 注释 说 明 每 种 变量 
分 属于 哪个 段 。 这 些 说 明正 确 的 前 提 是 假定 使 用 了 非 优化 的 编译 器 ， 且 
在 应 用 程序 二 进 制 接 口 ABI〉 中 ， 古 通过 栈 来 传递 所 有 参数 的 。 实 际 
上 ， 优 化 编译 器 会 将 频 过 使 用 的 变量 分 配 于 寄存 喜 中 ， 或 者 索性 将 变量 
彻底 剔除 风 。 此 外 ， 一 些 ABI 需 要 通过 寄存 器 ， 而 不 是 栈 ， 来 传递 函数 
A E 
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程序 清单 6-1: 程序 变量 在 进程 内 存 各 段 中 的 位 置 























#include <stdio.h> 
#include <stdlib.h> 


char globBuf[65536]; 
int primes[] = { 2, 3, 5, 7 }; 


static int 
square(int x) 


int result; 
result = x * x; 
return result; 


} 


static void 
doCalc(int val) 


JE 
/* 


* 


~ 


* 


~~ 


proc/mem_segments.c 


Uninitialized data segment */ 
Initialized data segment */ 


Allocated in frame for square() */ 


Allocated in frame for square() */ 


Return value passed via register */ 


/* Allocated in frame for doCalc() */ 


printf("The square of %d is %d\n", val, square(val)); 


if (val < 1000) { 
int t; 


t = val * val * val; 


/* Allocated in frame for doCalc() */ 


printf("The cube of %d is %d\n", val, t); 


} 


int 
main(int argc, char *argv[]) 


static int key = 9973; 


static char mbuf[10240000]; 


char *p; 
p = malloc(1024); 
doCalc(key); 


exit(EXIT_ SUCCESS); 


/+* 
FE 
/* 
/* 


/* 


Allocated in frame for main() */ 


Initialized data segment */ 
Uninitialized data segment */ 
Allocated in frame for main() */ 


Points to memory in heap segment */ 


proc/mem_segments.c 


应 用 程序 二 进 制 接口 ABD 是 一 套 规则 ， 规 定 了 二 





进 制 可 执行 文件 在 运行 时 应 如 何 与 某 些 服务 (诸如 内 核 或 
图 数 库 所 提供 的 服务 ) 交换 信息 。 


ABI 特 别 规定 了 使 用 哪 


些 寄 存 器 和 栈 地 址 来 交换 信息 以 及 所 交换 值 的 含义 ， 一 旦 
针对 某 个 特定 ABI 进 行 了 编译 ， 其 二 进 制 可 执行 文件 应 能 

在 ABI 相 同 的 任何 系统 上 运行 。 与 之 相反 ， 标 准 化 的 

API (如 SUSv3) 仅 能 通过 编译 源 代码 来 保证 应 用 程序 的 可 
移植 性 。 





虽然 SUSv3 未 作 规 定 ， 但 在 大 多 数 UNIX 实 现 〈 包 括 Linux) 中 C 语 
言 编程 环境 提供 了 3 个 全 局 符号 (symbol) : etext、edata 和 end， 可 在 程 
序 内 使 用 这 些 符 号 以 获取 相应 程序 文本 段 、 初 始 化 数据 段 和 非 初始 化 数 
据 段 结尾 处 下 一 字 节 的 地 址 。 使 用 这 些 符号 ， 必 须 显 式 声 明 如 下 : 


extern char etext, edata, end; 
/* For example, &etext gives the address of the end 
of the program text / start of initialized data */ 


图 6-1 展 示 了 各 种 内 存 段 在 x86-32 体系 结构 中 的 布局 ， 该 图 的 顶部 
标记 为 argv、environ 的 空间 用 来 存储 程序 命令 行 实 参 〈 通 过 C 语 言 中 
main0 函 数 的 argv 参 数 获 得 ) 和 进程 环境 列表 〈 稍 后 讨论 ) ， 图 中 十 六 
进 制 的 地 址 会 因 内 核 配 置 和 程序 链接 选项 差异 而 有 所 不 同 。 图 中 标 灰 的 
区 域 表 示 这 些 范围 在 进程 虚拟 地 址 空间 中 不 可 用 ， 也 惑 是 说 ， 没 有 为 这 
些 区 域 创建 页 表 (page table) (参考 以 下 关于 虚拟 内 存 管理 的 讨论 〉。 








虚拟 内 存 地 址 


(十 六 进 制 ) 
/proc/kallsyms 
Kernel 在 该 区 域 提 拱 了 内 
映射 到 进程 虚拟 坪 一 核 符号 的 地 址 (在 
内 存 ， 但 程序 内 核 24 及 其 之 前 版 
无 法 访问 本 的 /proc/ksyms 中 ) 
0xC0000000 m 
栈 
(向 下 增长 ) 
Ri 一 > 
(未 分 配 的 内 存 ) 
程序 中 断 一 FH ------ | SE 
堆 
(向 上 增长 ) 
<< Send 


<< Cedata 
二 -一 Celexi 
— EEE 


图 6-1: 在 Linux/x86-32 中 典型 的 进程 内 存 结构 


48.5 节 将 更 为 详细 地 重新 讨论 进程 内 存 布局 的 读 题 ， 还 将 论 及 共 且 
内 存 和 共享 库 在 进程 虚拟 内 存 中 的 放置 位 置 。 


虚拟 地 址 递增 方向 


0x08048000 





6.4 虚拟 内 存 管 理 


上 述 关 于 进程 内 存 布局 的 讨论 忽略 了 一 个 事实 : 这 一 布局 存在 于 虚 
拟 内存 中 。 因 为 对 虚拟 内 存 的 理解 将 有 助 于 后 续 对 诸如 forkO 系 统 调 
用 、 共 至 内 存 和 了 映射 文件 之 类 主题 的 阐述 ， 所 以 这 里 将 探讨 一 些 有 关 虚 
拟 内 存 的 详细 内 容 。 


Linuxz， 像 多 数 现 代 内 核 一 样 ， 采 用 了 虚拟 内 存 管理 技术 。 该 技术 
利用 了 大 多 数 程序 的 一 个 典型 特征 ， 即 访问 局 部 性 (ocality of 
reference) ， 以 求 高 效 使 用 CPU 和 RAM (物理 内 存 ) 资源 。 大 多 数 程序 
都 展现 了 两 种 类 型 的 局 部 性 。 


e ZEME (Spatial locality) : 是 指 程序 倾 回 于 访问 在 最 近 访 问 过 
的 内 存 地 址 附近 的 内 存 〈( 由 于 指令 是 顺序 执行 的 ， 且 有 时 会 按 顺 序 
处 理 数 据 结构 ) 。 

e 时 间 局 部 性 〈Temporal locality) : 是 指 程序 倾向 于 在 不 久 的 将 来 再 
次 访问 最 近 刚 访问 过 的 内 存 地 址 〈 由 于 循环 ) 。 


正 是 由 于 访问 局 部 性 特征 ， 使 得 程序 即便 仅 有 部 分 地 址 空间 存在 于 
RAM 中 ， 依 然 可 能 得 以 执行 。 


虚拟 内 存 的 规划 之 一 是 将 每 个 程序 使 用 的 内 存 切 割 成 小 型 的 、 固 定 
大 小 的 “页 ”(page) 单元 。 相 应 地 ， 将 RAM 划 分 成 一 系列 与 虚 存 页 尺寸 
相同 的 页 帧 。 任 一 时 刻 ， 每 个 程序 仅 有 部 分 页 需要 驻 留 在 物理 内 存 页 帧 
中 。 这 些 页 构成 了 所 谓 驻 留 集 (resident set) 。 程 序 未 使 用 的 页 拷贝 保 
存在 交换 区 (swap area) 内 一 这 是 破 盘 空间 中 的 保留 区 域 ， 作 为 计算 
机 RAM 的 补充 仅 在 需要 时 才 会 载 入 物理 内 存 。 知 进程 欲 访 问 的 
页 面目 前 并 未 驻 留 在 物理 内 存 中 ， 将 会 发 生 页 面 错误 (page fault) ， 内 
核 即 刻 挂 起 进程 的 执行 ， 同 时 从 磁盘 中 将 该 页 面 载 入 内 存 。 






































在 x86-32 中 ， 页 面 大 小 为 4096 个 字 节 。 其 他 一 些 Linux 
实现 使 用 的 页 面 比 4096 个 字 节 更 大 。 例 如 ，Alpha 使 用 的 页 
面 大 小 为 8192 个 字 节 ，IA-64 使 用 的 页 面 大 小 是 可 变 的 ， 默 


认为 16384 个 字 节 。 程 序 可 调用 sysconf(_SC_PAGESIZE) 来 
获取 系统 虚拟 内 存 的 页 面 大 小 ， 有 具体 参见 11.2 节 的 描述 。 


为 文 持 这 一 组 织 方 式 ， 内 核 需 要 为 每 个 进程 维护 一 张 页 表 (page 
table) (ULAIG-2) 。 访 页 表 描 述 了 每 页 在 进程 虚拟 地 址 空间 (virtual 
address space) 中 的 位 置 ( 可 为 进程 所 用 的 所 有 虚拟 内 存 页 面 的 集 
合 ) 。 页 表 中 的 每 个 条 目 要 么 指出 一 个 虚拟 页 面 在 RAM 中 的 所 在 位 
置 ， 要 么 表明 其 当前 驻 留 在 磁盘 上 。 





物理 内 存 

(RAM) 

(页 帧 ) 
进程 虚拟 
地 址 空间 





虚拟 地 址 递增 方向 





图 6-2: 虚拟 内 存 概览 


在 进程 虚拟 地 址 空间 中 ， 并 非 所 有 的 地 址 范围 都 需要 页 表 条 目 。 通 
常情 况 下 ， 由 于 可 能 存在 大 有 段 的 虚拟 地 址 空间 并 未 投入 使 用 ， 故 而 也 无 
必要 为 其 维护 相应 的 页 表 条 上 日 。 若 进程 试图 访问 的 地 址 并 无 页 表 条 目 与 
之 对 应 ， 那 么 进程 将 收 到 一 个 SIGSEGV 信 号 。 


由 于 内 核能 够 为 进程 分 配 和 释放 页 (和 页 表 条 目 ) ， 所 以 进程 的 有 











效 虚 拟 地 址 范围 在 其 生命 证 周期 中 可 以 及 生变 化 。 这 可 能 会 发 生 于 如 下 场 


景 o 


由 于 栈 向 下 增长 超出 之 前 曾 达到 的 位 置 。 
。 当 在 堆 中 分 配 或 释放 内 存 时 ， 通 过 调用 brkO0、sbrk0 或 malloc 函 数 族 
(第 7 章 ) 来 提升 program break 的 位 置 。 


° 当 调 用 shmat() 连 接 System V 共 享 内 存 区 时 ， 或 者 当 调 用 shmdt() 
脱离 共享 内 存 区 时 《第 48 章 ) 。 


° 当 调 用 mmapO 创 建 内 存 映 射 时 ， 或 者 当 调用 munmapO 解 除 内 
存 映 射 时 (第 49 章 ) 。 








虚拟 内 存 的 实现 需要 硬件 中 分 页 内 存 管理 单元 
(PMMU) 的 文 持 。PMMU 把 要 访问 的 每 个 虚拟 内 存 地 址 
转换 成 相应 的 物理 内 存 地 址 ， 当 特定 虚拟 内 存 地 址 所 对 应 
的 页 没有 驻 留 于 RAM 中 时 ， 将 以 页 面 错误 通知 内 核 。 


oo a x 间隔 离开 
来 ， 这 带 来 许多 优点 


。 进程 与 进程 、 进 程 与 内 核 相 互 隔离 ， 所 以 一 个 进程 不 能 读 取 或 修改 
另 一 进程 或 内 核 的 内 存 。 这 是 因为 每 个 进程 的 页 表 条 目 指向 
RAM (或 交换 区 ) 中 截然 不 同 的 物理 页 面 集合 。 

。 适当 情况 下 ， 两 个 或 者 更 多 进程 能 够 共享 内 存 。 这 是 由 于 内 核 可 以 
使 不 同 进程 的 页 表 条 目 指向 相同 的 RAM 页 。 内 存 共 享 常 发 生 于 如 
下 两 种 场景 。 

o 执行 同一 程序 的 多 个 进程 ， 可 共享 一 份 〈 只 读 的 ) 程序 代码 副 
本 。 TAN e PE CAF CARAT k 享 库 ) 
时 ， 会 隐 式 地 实现 这 一 类 型 的 共 

。 进 程 可 以 使 用 shmget0 和 mmap0 系 统 调用 显 式 地 请 求 与 其 他 进 
程 共享 内 存 区 。 这 么 做 是 出 于 进程 间 通 信 的 目的 。 



































。 便于 实现 内 存 保护 机 制 ， 也 就 是 说 ， 可 以 对 页 表 条 目 进行 标记 ， 以 
表示 相关 页 面 内 容 是 可 读 、 可 写 、 可 执行 亦 或 是 这 些 保护 措施 的 组 
合 。 多 个 进程 共享 RAM 页 面 时 ， 人 允许 每 个 进程 对 内 存 采 取 不 同 的 
保护 措施 。 例 如 ， 一 个 进程 可 能 以 只 读 方 式 访问 某 页 面 ， 而 另 一 进 
程 则 以 读 写 方式 访问 同一 页 面 。 

° a 链接 喜之 类 的 工具 无 需 关 注 程序 在 RAM 中 的 物 
理 布 局 。 

。 因为 需要 驻 留 在 内 存 中 的 仅 是 程序 的 一 部 分 ， 所 以 程序 的 加 载 和 运 
行 都 很 快 。 而 且 ， 一 个 进程 所 占用 的 内 存 ( 即 虚拟 内 存 大 小 〉 能够 
超出 RAM 容 量 。 


虚拟 内 存 管理 的 最 后 一 个 优点 是 : 由 于 每 个 进程 使 用 的 RAM 减 少 
了 ，RAM 中 同时 可 以 容纳 的 进程 数量 就 增多 了 。 这 增 大 了 如 下 事件 的 
MES: 在任 一 时 刻 ，CPU 都 可 执行 至 少 一 个 进程 ， 因 而 往往 也 会 提高 
CPU 的 利用 率 。 

















6.5 Be FBG Mt 


函数 的 调用 和 返回 使 栈 的 增长 和 收缩 呈 线 性 。X86-32 体 系 架构 之 上 
的 Linux (和 多 数 其 他 Linux 和 UNIX 实 现 ) ， 栈 驻 留 在 内 存 的 高 端 并 向 
BiH GUYER AD) 。 专 用 寄存 器 一 一 栈 指 针 (stack pointer) ， 用 于 
跟 踩 当前 栈 顶 。 每 次 调用 函数 时 ， 会 在 栈 上 新 分 配 一 帧 ， 每 当 函 数 返回 
时 ， 再 从 栈 上 将 此 帧 移 去 。 





虽然 栈 向 下 增长 ， 但 仍 将 栈 的 增长 端 称 为 栈 顶 ， 因 为 
抽象 地 说 来 ， 情 况 本 就 如 此 。 栈 的 实际 增长 方向 是 个 〈 属 
于 硬件 范畴 的 ) 实现 细节 。 在 HP PA-RISC 的 Linux 实 现 
中 ， 栈 的 增长 方 同 就 是 同上 的 。 


就 虚拟 内 存 而 言 ， 分 配 栈 帧 后 ， 栈 段 的 大 小 将 会 增 
长 ， 但 在 大 多 数 (Linux〉 实 现 中 ， 释 放 这 些 栈 帧 后 ， 栈 的 
大 小 并 未 减少 (在 分 配 新 的 栈 帧 时 ， 会 对 这 些 内 存 重 新 加 
以 利用 ) 。 当 谈论 栈 段 的 增长 和 收缩 时 ， 只 是 从 逻辑 视角 
来 看 待 栈 帧 在 栈 中 的 增 减 情况 。 


有 时 ， 会 用 用 户 栈 〈user stack) 来 表示 此 处 所 讨论 的 栈 ， 以 便 与 内 
核 栈 区 分 开 来 。 内 核 栈 是 每 个 进程 保留 在 内 核 内 存 中 的 内 存 区 域 ， 在 执 
行 系统 调用 的 过 程 中 供 《〈 内 核 ) 内 部 函数 调用 使 用 。 由 于 用 户 栈 驻 留 
eee E 
Jo ) 


FA CHP) RERU Pia. 


。 函数 实 参 和 局 部 变量 : HP EE E ie ZED H R AT S aE 
的 ， 因 此 在 C 语 言 中 称 其 为 自动 变量 。 函 数 返回 时 将 上 自动 销毁 这 些 











变量 《因为 栈 帧 会 被 释放 ) ， 这 也 是 目 动 变量 与 静态 《以 及 全 局 ) 
变量 主要 的 语义 区 别 : 后 者 与 函数 执行 无 天 ， 且 长 期 存在 。 

。 (KZO 调用 的 链接 信息 : 每 个 函数 都 会 用 到 一 些 CPU 寄存 器， 比 
如 程序 计数 顷 ， 其 指 问 下 一 条 将 要 执行 的 机 器 语言 指令 。 每 当 一 函 
数 调用 男 一 函数 时 ， 会 在 被 调用 函数 的 栈 帧 中 保存 这 些 寄存 器 的 副 
本 ， 以 便 函 数 返 回 时 能 为 函数 调用 者 将 寄存 器 恢复 原状 。 


因为 函数 能 够 先 套 调用 ， 所 以 栈 中 可 能 有 多 个 栈 帧 。《〈 大 一 函数 递 
归 调 用 上 自身， 则 该 函数 在 栈 中 将 有 多 个 栈 帧 。) 参考 程序 清单 6-1， 在 
square() PA UT HATE), Bet Le AY Mot A 6-3 ATA - 
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图 6-3: 一 个 进程 栈 的 示例 


6.6 命令 行 参数 (argc, argv) 


每 个 C 语 言 程 序 都 必须 有 一 个 称 为 main() 的 函数 ， 作 为 程序 启动 的 
起 点 。 当 执行 程序 时 ， 命 令 行 参数 (command-line argument) (shell 
逐一 解析 ) 通过 两 个 入 参 提供 给 main() 函 数 。 第 一 个 参数 int argc, FAN 
命令 行 参数 的 个 数 。 第 二 个 参数 char *argv[]， 是 一 个 指 同 命令 行 参数 的 
指针 数组 ， 每 一 参数 又 都 是 以 空 字符 Cull) 结尾 的 字符 串 。 第 一 个 
字符 串 ， 亦 即 argv[0] 指 向 的 ，〈 通 常 ) 是 该 程序 的 名 称 。argv 中 的 指针 
列表 以 NULL 指 针 结 尾 〈 即 argv[argc] 为 NULL ) 。 


argv[0] 包 含 了 调用 程序 的 名 称 ， 可 以 利用 这 一 特性 玩 个 实用 的 小 技 
巧 。 首 先 为 同一 程序 创建 多 个 链接 〈 即 名 称 不 同 ) ， 然 后 让 该 程序 查看 
argv[0]， 并 根据 调用 程序 的 名 称 来 执行 不 同 任务 。gzip(1)、gunzip(1) 和 
zcat(1) 命 令 是 该 技术 应 用 的 一 个 例子 ， 这 些 命令 链接 的 都 是 同一 可 执行 
文件 。《 使 用 该 技术 ， 必 须 小 心 处 理 如 下 情况 : 用户 通 过 链接 调用 程 
序 ， 但 链接 名 又 在 该 程序 的 意料 之 外 。) 














图 6-4 展 示 了 执行 程序 清单 6-2 中 程序 所 传 入 参 argc 和 argv 的 数据 结 
构 。 该 图 使 用 C 语 言 符 号 “\0” 来 表示 每 个 字符 串 末 尾 的 终止 空 字 节 。 
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图 6-4: 命令 “necho hello world” 的 argc 和 argv 值 











程序 清单 6-2 中 的 程序 回 显 了 其 命令 行 参数 ， 逐 一 按 行 输出 ， 前 面 
还 冠 以 要 显示 的 argv 成 员 名 称 。 





程序 清单 6-2: 回 显 命令 行 参数 








proc/necho.c 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


int j; 


for (j = 0; j < argc; j++) 
printf("argv[%d] = %s\n", j, argv[j]); 


exit(EXIT_SUCCESS) ; 


proc/necho.c 


因为 argvy 列 表 以 NULL 值 终止 ， 所 以 可 以 将 程序 清单 6-2 中 的 程序 主 
体 改写 如 下 ， 且 每 行 只 输出 一 个 命令 行 实 参 : 


char **p; 





for (p = argv; *p != NULL; p++) 
puts(*p); 





argc/argv 2 SL till AY Jeu BR FE Fk ee (MY main( eh BLA H o 
在 保证 可 移植 性 的 同时 ， 为 使 这 些 命令 行 参数 能 为 其 他 函数 所 用 ， 必 须 
把 argv 以 参数 形式 传递 给 这 些 函 数 ， 或 是 设置 一 个 指 同 argv 的 全 局 变 


里 o 





要 想 从 程序 内 任 一 位 置 访问 这 些 信 息 的 部 分 或 者 全 部 内 容 ， 还 有 两 
个 方法 ， 但 是 会 破坏 程序 的 可 移植 性 。 


。 通过 ]inux 系 统 专 有 的 /proc/PID/cmdline 文件 可 以 读 取 任 一 进程 的 命 
令 行 参数 ， 每 个 参数 都 以 空 dD 字 节 终止 。《〈 程 序 可 以 通 
过 /proc/self/cmdline 文 件 访问 自己 的 命令 行 参数 。) 

。 GNU C 语 言 库 提供 有 两 个 全 局 变量 ， 可 在 程序 内 任 一 位 置 使 用 以 获 
取 调 用 该 程序 时 的 程序 名 称 《〈 即 命令 行 的 第 一 个 参数 ) 。 第 一 个 全 
局 变量 program_invocation_name， 提 供 了 用 于 调用 该 程序 的 完整 路 
径 名 。 第 二 个 全 局 变量 program_invocation_short_name， 提 供 了 不 
含 目 录 的 程序 名 称 ， 即 路 径 名 的 基本 名 称 (basename) 部 分 ， 定 义 
_GNU_SOURCE 宏 后 即 可 从 <errno.h> 中 获得 对 这 两 个 全 局 变量 的 声 
明 。 





正如 图 6-1 所 示 ，argv 和 environ 数 组 ， 以 及 这 些 参数 最 初 指 癌 的 字符 





串 ， 都 驻 留 在 进程 栈 之 上 的 一 个 单一 、 连 续 的 内 存 区 域 。 (下 一 节 将 描 
述 environ 参 数 ， 该 参数 用 于 存储 程序 的 环境 列表 。) 此 区 域 可 存储 的 字 
节 数 有 上 限 要 求 ，SUSv3 规 定 使 用 ARG_MAX 常 量 (定义 于 <limits.h>) 
或 者 调用 sysconf (_SC_ARG_MAX) 函数 以 确定 该 上 限 值 〈 将 在 11.2 节 
fii sysconf()r A) ， 并 且 SUSv3 还 要 求 ARG_MAX 常 量 的 下 限 为 
_POSIX_ARG_MAX (4096) 个 字 节 ， 而 大 多 数 UNIX 实 现 的 限制 都 远 
高 于 此 。 但 SUSv3 并 未 规定 对 ARG_MAX 限 制 的 实现 中 是 否 要 将 一 些 开 
销 字 节 计 算 在 内 《比如 终止 空 字符 、 字 节 对 齐 、argv 和 environ 指 针 数 
ZH) o 





Linux 中 的 ARG_MAX 参 数值 曾 一 度 固 定 为 32 个 页 面 

(在 Linux/x86-32 中 即 为 131072 个 字 节 ) ， 且 包含 了 开销 字 
节 。 自 内 核 2.6.23 版 本 开始 ， 可 以 通过 资源 限制 
RLIMIT_STACK 来 控制 argv 和 environ 参 数 所 使 用 的 空间 总 
量 上 限 ， 在 这 种 情况 下 ， 人 允许 argv 和 environ 参 数 使 用 的 空 
间 上 限 要 比 以 前 大 出 许多 ， 具 体 限 额 为 资源 软 限制 
RLIMIT_STACK 的 四 分 之 一 ，RLIMIT_STACK 在 调用 
execve() 时 已 经 生效 。 更 多 详细 信息 请 参照 execve(2) 手 册 
页 


SS 12) 





许多 程序 〈 包 括 本 书 中 的 几 个 例子 ) 使 用 getoptO0 库 函数 解析 命令 行 
0 0 0 


6.7 ”环境 列表 


每 一 个 进程 都 有 与 其 相关 的 称 之 为 环境 列表 (environment list) 的 
字符 串 数 组 ， 或 简称 为 环境 (environment) 。 其 中 每 个 字符 串 都 以 名 称 
= 值 Cname=value) 形式 定义 。 因 此 ， 环 境 是 “名 称 - 值 ? 的 成 对 集合 ， 可 
存储 任何 信息 。 第 将 列表 中 的 名 称 称 为 环境 变量 (environment 


variables) 。 


新 进程 在 创建 之 时 ， 会 继承 其 父 进程 的 环境 副本 。 这 是 一 种 原始 的 
进程 间 通 信 方 式 ， 却 颅 为 常用 。 环 境 (environment) 提供 了 将 信息 从 父 
进程 传递 给 子 进 程 的 方法 。 由 于 子 进程 只 有 在 创建 时 才能 获得 其 父 进程 
的 环境 副本 ， 所 以 这 一 信息 传递 是 单 问 的、 一 次 性 的 。 子 进程 创建 后 ， 
父 、 子 进程 均 可 更 改 各 目的 环境 变量 ， 且 这 些 变更 对 对 方 而 言 不 再 可 
Ws 




















环境 变量 的 常见 用 途 之 一 是 在 shell 中 。 通 过 在 自身 环境 中 放置 变量 
值 ，shel 就 可 确保 把 这 些 值 传递 给 其 所 创建 的 进程 ， 并 以 此 来 执行 用 户 
命令 。 例 如 ， 环 境 变量 SHELL 被 设置 为 shell 程 序 本 身 的 路 径 名 ， 如 果 程 
序 需要 执行 shell 时 ， 大 多 会 将 此 变量 视 为 需要 执行 的 shell 名 称 。 

可 以 通过 设置 环境 变量 来 改变 一 些 库 函数 的 行为 。 正 因 如 此 ， 用 户 
无 需 修 改 程序 代码 或 者 重新 链接 相关 库 ， 就 能 控制 调用 该 函数 的 应 用 程 
序 行为 。getopt0) 函 数 就 是 其 中 一 例 〈( 附 录 B) ， 可 通过 设置 
POSIXLY_CORRECT 环 境 变 量 来 改变 此 函数 的 行为 。 


大 多 数 shell 使 用 export 命 令 同 环境 中 添加 变量 值 。 


$ SHELL=/bin/bash Create a shell variable 
$ export SHELL Put variable into shell process's environment 




















在 bash shell 和 Korn shell 中 ， 可 以 简写 为 : 


$ export SHELL=/bin/bash 


在 C shell 中 ， 使 用 的 则 是 setenv 命 令 : 


% setenv SHELL /bin/bash 


上 述 命令 把 一 个 值 永久 地 添加 到 shell 环 境 中 ， 此 后 这 个 shell 创 建 的 


所 有 子 进 程 都 将 继承 此 环境 。 在 任 一 时 刻 ， 可 以 使 用 unset 命令 撤销 一 
个 环境 变量 (在 C shell 中 则 使 用 unsetenv 命 令 ) 。 


在 Bourne shell 和 其 衍生 shell 〈 诸 如 bash shell 和 Korn shell) 中， 可 使 
用 下 列 语 法 回执 行 某 应 用 程序 的 环境 中 添加 一 个 变量 值 ， 而 不 影响 其 父 
shell (和 后 续 命 令 ) : 


此 命令 仅 同 执行 特定 程序 的 子 进程 环境 添加 了 一 个 “环境 变量 ) 定 
义 。 如 果 和 希望 〈 多 个 变量 对 该 程序 有 效 ) ， 可 以 在 program 前 放置 多 对 
赋值 《以 空格 分 隅 ) o 








env 命 令 在 运行 程序 时 使 用 了 一 份 经 过 修改 的 shell 环 境 
列表 副本 。 可 同时 为 shel 环 境 列 表 副 本 增加 和 移 除 环境 变 
量 定义 ， 以 修改 此 环境 列表 。 详 细 内 容 请 参阅 env(1) 手 册 。 


Printenv 命 令 显示 当前 的 环境 列表 ， 此 处 是 其 输出 的 一 例 : 


$ printenv 

LOGNAME=mtk 

SHELL=/bin/bash 

HOME=/home/mtk 
PATH=/usr/local/bin:/usr/bin:/bin: . 
TERM=xterm 


Jae ORIN Fa K&B LR A He (也 可 参阅 
environ(7) 手 册 ) 。 

由 以 上 输出 可 知 ， 环 境 列 表 的 排列 是 无 序 的 ， 列 表 中 的 字符 串 顺 序 
不 过 是 最 易于 实现 的 排列 形式 。 一 般 而 言 ， 无 序 的 环境 列表 不 是 问题 ， 
因为 通常 都 是 访问 单个 的 环境 变量 ， 而 非 环境 列表 中 按 序 排列 的 一 串 。 


通过 Linux 专 有 的 /proc/PID/environ 文 件 检 查 任 一 进程 的 环境 列表 ， 




















每 一 个 “NAME=value” 对 都 以 空 字 节 终 止 。 
从 程序 中 访问 环境 
在 C 语 言 程序 中 ， 可 以 使 用 全 局 变量 char **environ 访 问 环境 列表 。 
(C 运 行 时 启动 代码 定义 了 该 变量 并 以 环境 列表 位 置 为 其 赋值 。) 
environ 与 argv 参 数 类 似 ， 指 同一 个 以 NULL 结 尾 的 指针 列表 ， 每 个 指针 
又 指 癌 一 个 以 空 字 市 终止 的 字符 串 。 图 6-5 所 示 为 与 上 述 printenv 命 令 输 
出 环境 相对 应 的 环境 列表 数据 结构 。 


environ 
= 国王 
zs 
iS 
wS 
CE 


图 6-5: 进程 环境 列表 数据 结构 的 示例 


程序 清单 6-3 中 的 程序 通过 访问 environ 变 量 来 展示 该 进程 环境 中 的 
所 有 值 。 访 程序 的 输出 结果 与 printenv 命 令 的 输出 结果 相同 。 程 序 中 的 
循环 利用 指针 来 遍历 environ 变 量 。 虽 然 可 以 把 environ 当 成 数组 来 使 用 
《正如 程序 清单 6-2 中 argv 的 用 法 ) ， 但 这 多 少 有 些 生 硬 ， 因 为 环境 列表 
中 各 项 的 排列 不 分 先后 ， 而 且 也 没有 变量 (相当 于 argc》 用 来 指定 环境 
. (出 于 同样 原因 ， 也 没有 对 图 6-5 中 的 environ 数 组 诸 元 素 
进行 编写 。) 














程序 清单 6-3: 显示 进程 环境 





proc/display_env.c 
#include "tlpi_hdr.h" 


extern char **environ; 


int 
main(int argc, char *argv[]) 


char **ep; 


for (ep = environ; *ep != NULL; ep++) 
puts(*ep) ; 


exit(EXIT SUCCESS); 


proc/display_env.c 


为 外 ， 还 可 以 通过 声明 main() 函 数 中 的 第 三 个 参数 来 访问 环境 列 


int main(int argc, char *argv[], char *envp[]) 
该 参数 随即 可 被 视 为 environ 变 量 来 使 用 ， 所 不 同 的 是 ， 该 参数 的 作 
用 域 在 main() 函 数 内 。 虽 然 UNIX 系 统 普 衣 实现 了 这 一 特性 ， 但 还 是 要 避 


， 因 为 除了 局 限于 作用 域 限 制 外 ， 该 特性 也 不 在 SUSv3 的 规范 之 
列 。 


getenv() 函 数 能 够 从 进程 环境 中 检索 单个 值 。 





#include <stdlib.h> 


char *getenv(const char *name); 








Returns pointer to (value) string, or NULL if no such variable 





问 getenv0 函 数 提供 环境 变量 名 称 ， 访 函数 将 返回 相应 字符 串 指 
针 。 因 此 ， 惑 前面 所 示 的 环境 《列表 ) 示例 来 看 ， 如 果 指 定 SHELL 为 参 
数 name， 那 么 将 返回 /bin/bash。 如 果 不 存 在 指定 名 称 的 环境 变量 ， 那 么 
getenv() 函 数 将 返回 NULL。 


以 下 十 使 用 getenv0 函 数 时 可 移植 性 方面 的 注意 事项 。 


e SUSv3 规 定 应 用 程序 不 应 修改 getenv() 函 数 返 回 的 字符 串 ， 这 是 由 于 
(在 大 多 数 UNIX 实 现 中 ) 该 字符 串 实际 上 属于 环境 的 一 部 分 ( 即 











name=value 字 人 符 串 的 value 部 分 )。 奋 需要 改变 一 个 环境 变量 的 值 ， 
可 以 使 用 setenv0 〇 函数 或 putenv0O 函 数 〈 见 下 文 )。 

SUSv3 人 允许 getenv0) 函 数 的 实现 使 用 静态 分 配 的 缓冲 区 返回 执行 结 
果 ， 后 续 对 getenv()、setenv()、putenv0 或 者 unsetenv() 的 函数 调用 可 
以 重 写 该 缓冲 区 。 虽 然 glibc 库 的 getenv() 函 数 实现 并 未 这 样 使 用 静 
态 绥 冲 区 ， 但 具备 可 移植 性 的 程序 如 需 保 留 getenv0) 调 用 返回 的 字 
fee R 复制 到 其 他 位 置 ， 之 后 方 可 对 上 述 函 数 

起 调用 o 


修改 环 十 


有 时 ， 对 进程 来 说 ， 修 改 其 环境 很 有 用 处 。 原 因 之 一 是 这 一 修改 对 
该 进程 后 续 创 建 的 所 有 子 进程 均 可 见 。 男 一 个 可 能 的 原因 在 于 设 定 某 一 
变量 ， 以 求 对 于 将 要 载 入 进程 内 存 的 新 程序 〈“execed”) 可 见 。 从 这 个 
意义 上 讲 ， 环 境 不 仅 是 一 种 进程 间 通 信 的 形式 ， 还 是 程序 间 通 信 的 方 
法 。( 第 27 章 将 深入 描述 这 一 点 ， 还 将 解释 在 同一 进程 中 exec() 函 数 如 
何 使 当前 程序 被 一 新 程序 所 蔡 代 。 ) 


putenv0 阔 数 向 调用 进程 的 环境 中 添加 一 个 新 变量 ， 或 者 修改 一 个 
己 经 存在 的 变量 值 。 














#include <stdlib.h> 


int putenv(char *string) ; 


Returns 0 on success, or nonzero on error 











参数 string 是 一 指针 ， 指 同 name=value 形 式 的 字符 串 。 调 用 putenv() 
函数 后 ， 该 字符 串 束 成 为 环境 的 一 部 分 ， 换 言 之 ，putenv 函 数 将 设 定 
environ 变 量 中 某 一 元 素 的 指向 与 string 参 数 的 指向 位 置 相同 ， 而 非 string 
参数 所 指 癌 字符 串 的 复制 副本 。 因 此 ， 如 果 随 后 修改 string 参 数 所 指 的 
内 容 ， 这 将 影响 该 进程 的 环境 。 出 于 这 一 原因 ，string 参 数 不 应 为 自动 
变量 〈 即 在 栈 中 分 配 的 字符 数组 马 ) ， 因 为 定义 此 变量 的 函数 一 旦 返 
le], WAN BESS Ht BRA AK 


注意 ，putenv0O 函 数 调 用 失败 将 返回 非 0 值 ， 而 非 -1。 


putenv() 函 数 的 glibc 库 实现 还 提供 了 一 个 非 标准 扩展 。 如 果 string 参 
数 内 容 不 包含 一 个 等 号 (=) ， 那 么 将 从 环境 列表 中 移 除 以 string 参 数 命 





名 的 环境 变量 。 
setenv0 〇 函数 可 以 代 蔡 putenvO 函 数 ， 向 环境 中 添加 一 个 变量 。 





#include <stdlib.h> 


int setenv(const char *name, const char *value, int overwrite); 


Returns 0 on success, or -1 on error 











setenv() PALA HZ Yiname=valueHy FI 3 a) AC TRAN TX, FS 
name 和 value 所 指 疝 的 字符 串 复 制 到 此 缓冲 区 ， 以 此 来 创建 一 个 新 的 环 
境 变 量 。 注 意 ， 不 需要 (实际 上 ， 是 绝对 不 要 ) 在 name 的 结尾 处 或 者 
value 的 开始 处 提供 一 个 等 号 字符 ， 因 为 setenv0) 函 数 会 在 向 环境 添加 新 
变量 时 添加 等 号 字符。 


若 以 name 标 识 的 变量 在 环境 中 已经 存在 ， 且 参数 overwrite 的 值 为 
0， 则 setenvO 函 数 将 不 改变 环境 ， 如 果 参 数 overwrite 的 值 为 非 0， 则 
setenv() 隙 数 总 是 改变 环境 。 


这 一 守信 setenv() 函 数 复制 其 参数 (到 环境 中 ) 一 一 意味 着 与 
putenv0 〇 函数 不 同 ， 之 后 对 name 和 value 所 指 字 符 串 内 容 的 修改 将 不 会 影 
咯 环 境 。 此 外 ， 使 用 自动 变量 作为 setenv0) 函 数 的 参数 也 不 会 有 任何 问 


jel 














unsetenv() 函 数 从 环境 中 移 除 由 name 参 数 标 识 的 变量 。 





#include <stdlib.h> 


int unsetenv(const char *name); 








Returns 0 on success, or -1 on error 





同 setenv0 函 数 一 样 ， 参 数 name 不 应 包含 等 号 字符 。 


setenv() 函 数 和 unsetenv() 函 数 均 来 自 BSD， 不 如 putenv() 函 数 使 用 普 
遍 。 尽 管 起 初 的 POSIX.1 标 准 和 SUSv2 并 未 定义 这 两 个 函数 ， 但 SUSv3 
已 将 其 纳入 规范 。 


在 glibc 2.2.2 之 前 版 本 中 ，unsetenv0) 函 数 原 型 的 返回 值 
为 void 类 型 ， 这 与 最 初 的 BSD 实 现 中 unsetenv 的 函数 原型 相 
同 ， 一些 UNIX 实 现 目 前 仍然 沿用 BSD 原 型 。 


有 时 ， 需 要 清除 整个 环境 ， 然 后 以 所 选 值 进行 重建 。 例 如 ， 为 了 以 
安全 方式 执行 set-user-ID 程 序 (38.8 节 ) ， 就 需要 这 样 做 。 可 以 通过 将 
environ 变 量 赋值 为 NULL 来 清除 环境 。 


environ = NULL; 


这 也 正 是 clearenv0O 库 函数 的 工作 内 容 。 





#define BSD SOURCE /* Or: #define SVID SOURCE */ 
ftinclude <stdlib.h> 


int clearenv(void) 








Returns 0 on success, OT a nonzero on error 





在 某 些 情况 下 ， 使 用 setenv0) 函 数 和 clearenv() 函 数 可 能 会 导致 程序 
内 存 泄 露 。 前 面 已 然 提 及 :， setenv0 函 数 所 分 配 的 一 块 内 存 缓冲 区 ， 随 
之 会 成 为 进程 环境 的 一 部 分 。 而 调用 clearenv0O0 时 则 没有 释放 该 缓冲 区 
(clearenv0) 调 用 并 不 知晓 该 绥 冲 区 的 存在 ， 故 而 也 无 法 将 其 释放 ) 。 反 
复 调 用 这 两 个 函数 的 程序 ， 会 不 断 产生 内 存 泄 露 。 实 际 上 ， 这 不 大 可 能 
成 为 一 个 问题 ， 因 为 程序 通常 仪 在 启动 时 调用 dearenv() 函 数 一 次 ， 用 于 
移 除 继承 自 其 父 进程 ( 即 调用 exec() 函 数 来 启动 当前 程序 的 程序 〉 环境 
中 的 所 有 条 目 。 











许多 UNIX 实 现 都 支持 clearenv() 孙 数 ， 但 是 SUSv3 没 有 
对 此 函数 进行 规范 。SUSv3 规 定 如 果 应 用 程序 直接 修改 
environ 变 量 ， 正 如 clearenv0) 函 数 所 做 的 那样 ， 则 不 对 
setenv()、unsetenv() 和 getenv() 的 行为 进行 定义 。〔 这 一 作 
法 的 根本 原因 在 于 禁止 符合 SUSv3 标 准 的 应 用 程序 直接 修 








改 环境 ， 意 在 使 UNIX 实 现 能 完全 控制 其 实现 环境 变量 时 所 
采用 的 数据 结构 。) SUSv3 人 允许 应 用 程序 清空 自身 环境 的 
唯一 方法 是 首先 获取 所 有 环境 变量 的 列表 〈 通 过 environ 变 
量 获得 所 有 环境 变量 的 名 称 ) ， 然 后 逐一 调用 unsetenv() 移 
BREET Hae ee 

















程序 示例 


程序 清单 6-4 展 示 了 本 节 讨论 的 所 有 函数 的 用 法 。 该 应 用 程序 首先 
清空 坏 境 ， 然 后 同 坏 境 中 未 一 添加 命令 行 参 数 所 提供 的 环境 变量 定义 ; 
之 后 ， 如 果 坏 境 中 尚 无 名 为 GREET 的 变量 ， 就 向 环境 中 添加 该 变量 ; 
接着 ， 从 环境 中 移 除 名 为 BYE 的 变量 ， 最 后 打印 当前 环境 列表 。 此 处 为 
该 程序 运行 时 输出 结果 的 一 例 : 
$ ./modify_env "GREET=Guten Tag” SHELL=/bin/bash BYE=Ciao 
GREET=Guten Tag 
SHELL=/bin/bash 
$ ./modify env SHELL=/bin/sh BYE=byebye 


SHELL=/bin/sh 
GREET=Hello world 


如 果 将 environ 参 数 赋值 为 NULL (正如 程序 清单 6-4 中 clearenv0O 函 数 
调用 的 所 作 所 为 )， 那 么 可 以 预见 如 下 形式 的 循环 (如 程序 清单 6-4 中 
使 用 的 循环 ) 将 失败 ， 因 为 *environ 是 无 效 的 。 
for (ep = environ; *ep != NULL; ep++) 

puts(*ep); 

然而 ， 如 果 setenv0 函 数 和 putenv0O 函 数 发 现 environ 参 数 为 NULEL， 

则 会 创建 一 个 新 的 环境 列表 ， 并 使 environ 参 数 指 向 此 列表 ， 结 果 上 面 的 
循环 操作 又 将 正确 运行 。 











程序 清单 6-4: 修改 进程 环境 








proc/modify env.c 


#define GNU SOURCE /* To get various declarations from <stdlib.h> */ 


#include <stdlib.h> 
#include "tlpi hdr.h" 


extern char **environ; 


int 
main(int argc, char *argv[]) 


int j; 
char **ep; 
clearenv(); /* Erase entire environment */ 
for (j = 1; j < argc; j++) 
if (putenv(argv[j]) != 0) 


errExit("putenv: %s", argv[j]); 


if (setenv("GREET", "Hello world", 0) == -1) 
errExit("setenv"); 


unsetenv("BYE"); 


for (ep = environ; *ep != NULL; ep++) 
puts(*ep); 


exit(EXIT SUCCESS); 


proc/modify_env.c 


6.8 ”执行 非 局 部 跳 转 : setjimp0 和 longjmp() 


使 用 库 函 数 setjmp0 和 longjmpO 可 执行 非 局 部 跳 转 (nonlocal 
goto) 。 术 语 “ 非 局 部 (nonlocal) ”是 指 跳 转 的 目标 为 当前 执行 函数 之 外 
的 某 个 位 置 。 


C 语 言 ， 像 许多 其 他 编程 语言 一 样 ， 包 含 goto 语 句 。 这 就 好 比 打开 
了 潘多拉 的 魔 盒 。 奋 无 止境 的 滥用 ， 将 使 程序 难以 阅读 和 维护 。 不 过 侦 
尔 也 能 一 显 身 手 ， 令 程序 更 简单 、 更 快速 ， 或 是 兼 而 有 之 。 


C 语 言 的 goto 语 句 存在 一 个 限制 ， 即 不 能 从 当前 函数 跳 转 到 另 一 函 
数 。 然 和 而， 偶尔 还 是 需要 这 一 功能 的 。 考 虑 错误 处 理 中 经 党 出现 的 如 下 
场景 : 在 一 个 深度 舱 套 的 函数 调用 中 发 生 了 错误 ， 需 要 放弃 当前 任务 ， 
从 多 层 函 数 调 用 中 返回 ， 并 在 较 高 层级 的 函数 中 继续 执行 〈 也 许 甚至 是 
在 main(0 中 ) 。 要 做 到 这 一 点 ， 可 以 让 每 个 函数 都 返回 一 个 状态 值 ， 由 
函数 的 调用 者 检查 并 做 相应 处 理 。 这 一 方法 完全 有 效 ， 而 且 ， 在 许多 情 
况 下 ， 是 处 理 这 类 场景 的 理想 方法 。 然 而 ， 有 时 候 如 果 能 从 骨 套 函数 调 
用 中 跳出 ， 返 回 该 水 数 的 调用 者 之 一 (当前 调用 者 或 者 调用 者 的 调用 
者 ， 等 等 ) ， 编 码 会 更 为 简单 。setimp0 和 longjmp0O 束 提供 了 这 一 功 


AB 
HE o 




















由 于 在 C 语 言 中 ， 所 有 函数 作用 域 的 层级 相同 “ 即 标准 
C 语 言 不 文 持 众 套图 数 申明 ， 尽 管 gcc 将 此 功能 作为 其 扩展 
功能 ) ， 所 以 goto 语 句 不 能 应 用 于 函数 间 跳 转 。 给 定 两 个 
函数 X 和 Y， 编 译 右 无 从 知晓 当 调 用 Y 时 ，X 函 数 的 栈 帧 是 
人 否 在 栈 上 ， 所 以 也 无 法 判断 从 Y 函 数 跳 转 (goto〉 到 X 函 数 
是 否 可 行 。 文 持 谍 套 函 数 声 明 的 语言 ， 比 如 Pascal 语 言 ， 人 允 
许 goto 从 一 个 散 套 函数 跳 转 到 其 调用 者 ， 编 译 占 得 以 根据 
函数 的 静态 作用 域 来 确定 函数 动态 作用 域 的 条 些 信息 。 
此 ， 编 详 占 有 在 词法 解析 时 获悉 函数 Y 馈 僚 于 函数 X 之 内 
出 ， 也 必然 能 够 推断 当 调用 Y 时 ，X 函 数 的 栈 帧 一 定 已 然 在 





栈 中 存在 〈 即 动态 作用 域 ) ， 并 能 为 函数 Y 产 生 goto 代 码 ， 
从 Y 中 跳 转 到 X 函 数 的 某 处 。 





#include <setjmp.h> 


int setjmp(jmp_buf env); 


Returns 0 on initial call, nonzero on return via longjnp() 








void longjmp(jmp buf env, int val); 





setjmpO 调 用 为 后 续 由 longjmp0O 调 用 执行 的 跳 转 确立 了 跳 转 目标 。 
该 目标 正 是 程序 发 起 setjimp0O 调 用 的 位 置 。 从 编程 角度 看 来 ， 调 用 
We 看 起 来 就 和 从 第 二 次 调用 setjimp0 返 回 时 完全 一 样 。 
通过 仍 看 setimpO) 返 回 的 整数 值 ， 可 以 区 分 setjimp 调 用 是 初始 返回 还 是 第 
二 次 “返回 ”。 初 始 调用 返回 值 为 0， 后 续 “ 伪 ”返回 的 返回 值 为 IongjmpO 
调用 中 val 参 数 所 指定 的 任意 值 。 通过 对 val 参 数 使 用 不 同 值 ， 能 够 区 分 
出 程序 中 跳 转 至 同一 目标 的 不 同 起 跳 位 置 。 


如 果 指 定 longjmpO0 函 数 的 val 参 数值 为 0， 而 longjmp 函 数 对 此 又 不 做 
检查 ， 就 会 导致 模拟 setjmp0O 时 返回 值 为 0， 如 同 初 次 调用 setjmp0O 函 数 返 
回 时 一 样 。 出 于 这 一 原因 ， 如 果 指 定 val 参 数值 为 0， 则 longjmp0O 调 用 实 
际会 将 其 蔡 换 为 1。 


PAT BASHA env IRAKA SES T BE 合剂 。 setjmp() 函 数 
把 当前 进程 环境 的 各 种 信息 保存 到 env 参 数 中 。 调 用 longjmpO 时 必须 指 
定 相 同 的 env 变 量 ， 以 此 来 执行 “thy” 1 [Fl o 由 于 对 setimpO 函 数 和 
ee 《人 否则， 使 用 简单 的 goto 即 

» AT 以 应 该 将 env 参 数 定义 为 全 局 变量 ， 或 者 将 env 作 为 函数 入 参 来 
传递 后 一 种 做 法 较为 少见 。 

调用 setjmp() 时 ，env 除 了 存储 当前 进程 的 其 他 信息 外 ， 还 保存 了 程 
序 计数 寄存 器 《〈 指 回 当 前 正在 执行 的 机 器 语言 指令 )》 和 栈 指针 寄存 器 

《标记 栈 顶 ) 的 副本 。 这 些 信息 能 够 使 后 续 的 IongjmpO 调 用 完成 两 个 关 
键 步骤 的 操作 。 


e 将 发 起 longjmpO 调 用 的 函数 与 之 前 调用 setimpO 的 函数 之 间 的 函数 





栈 帧 从 栈 上 和 剥离。 有 时 又 将 此 过 程 称 为 * 解 开 栈 Cunwinding the 
a ”， 这 是 通过 将 栈 指针 寄存 器 重 置 为 env 参 数 内 的 保存 值 来 实 
现 的 。 

。 重 置 程序 计数 寄存 器 ， 使 程序 得 以 从 初始 的 setjimpO 调 用 位 置 继 续 
执行 。 同 样 ， 此 功能 是 通过 env 参 数 中 的 保存 值 〈 程 序 计 数 寄存 
器 ) 来 实现 的 。 


程序 示例 


程序 清单 6-5 展 示 了 setjimpO0 和 longjmpO 函 数 的 用 法 。 该 程序 通过 
setjmp() 的 初始 调用 建立 了 一 个 跳 转 目标 ， 接 下 来 的 switch (针对 
setjmp() 调 用 的 返回 值 ) 用 于 检测 是 初次 从 setjmp0O 调 用 返回 还 是 在 调用 
longjmpO 后 返回 。 当 setjimpO 调 用 返回 值 为 0 时 ， 亦 即 对 setmpO 的 初始 调 
用 完成 后 ， 将 调用 f10 函 数 ，f10 函 数 根 据 argc 参 数值 〈 即 命令 行 参数 个 
BL) 来 决定 是 立刻 调用 longjmp0) 函 数 还 是 继续 去 调用 f20) 函 数 。 如 果 是 
调用 f20 函 数 ， 则 f20 函 数 将 马上 调用 longjmp0 函 数 。 两 处 对 longjmp0 的 
调用 都 会 使 进程 恢复 到 调用 setjmp0O 的 位 置 。 程 序 在 两 处 调用 中 为 val 参 
数 设 定 了 不 同 值 ， 以 供 main0 函 数 的 Switch 语句 区 分 发 生 跳 转 的 函数 ， 
并 打印 相应 信息 。 


在 不 带 任何 命令 行 参数 的 情况 下 运行 程序 清单 6-5 中 的 程序 ， 结 果 
如 下 所 示 : 


$ ./longjmp 
Calling f1() after initial setjmp() 
We jumped back from f1() 


旨 定 命令 行 参数 ， 会 使 程序 跳 转 发 生 在 函数 人 20 中 : 








$ ./longjmp x 
Calling f1() after initial setjmp() 
We jumped back from f2() 

















程序 清单 6-5: 展示 函数 setjimp0 和 longjmpO 的 用 法 


proc/Longjmp.c 
#include <setjmp.h> 
#include "tlpi_hdr.h” 


static jmp buf env; 


static void 
#2(void) 
{ 


longjmp(env, 2); 


static void 
fi(int argc) 


if (argc == 1) 
longjmp(env, 1); 
£2(); 


int 
main(int argc, char *argv[]) 


switch (setjmp(env)) { 


case 0: /* This is the return after the initial setjmp() */ 
printf("Calling f1() after initial setjmp()\n"); 
fa(argc); /* Never returns... */ 
break; /* ... but this is good form */ 
case 1: 
printf("We jumped back from f1()\n"); 
break; 
case 2: 
printf("We jumped back from f2()\n"); 
break; 
} 


exit(EXIT SUCCESS); 


一 proc/longjnmp.c 


对 setjimp0 函 数 的 使 用 限制 
SUSv3 和 C99 规 定 ， 对 setjimpO 的 调用 只 能 在 如 下 语 境 中 使 用 。 
。 构成 选择 或 迭代 语句 中 (if、switch、while 等 ) 的 整个 控制 表达 


I\o 
。 作为 一 元 操作 符 ! mod 的 操作 对 象 ， 其 最 终 表 达 式 构成 了 选择 或 
迭代 语句 的 整个 控制 表达 式 。 


。 作为 比较 操作 (==、!=、< 等 ) 的 一 部 分 ， 男 一 操作 对 象 必 须 是 一 
e aa 且 其 最 终 表 达 式 构成 选择 或 达 代 语句 的 整个 控 
| Bt Th 
。 FEA MILAN RA BAL, HRA RRA BAW AAZ E. 


注意 : C 语 言 赋值 语句 不 在 上 述 列表 之 列 。 以 下 形式 的 语句 是 不 符 
合 标 准 的 : 


s = setjmp(env); /* WRONG! */ 


之 所 以 规定 这 些 限制 ， 是 因为 作为 常规 函数 的 setjmp0 〇 实现 无 法 保 
证 拥有 足够 信息 来 保存 所 有 寄存 器 值 和 封闭 表达 式 中 用 到 的 临时 栈 位 
置 ， 以 便于 在 longjmpO 调 用 后 此 类 信息 能 得 以 正确 恢复 。 因 此 ， 仅 人 允许 
在 足够 简单 且 无 需 临 时 存储 的 表达 式 中 调用 setjimp0。 


im A longjmp() 


如 果 将 env 绥 冲 区 定义 为 全 局 变量 ， 对 所 有 函数 可 见 〈 这 也 是 通常 
FAY) ， 那 么 就 可 以 执行 如 下 操作 序列 。 


1. 调用 函数 x()， 使 用 setjmp0 〇 调用 在 全 局 变量 env 中 建立 一 个 跳 转 
目标 。 


2. 从 函数 x() 中 返回 。 
3. 调用 函数 y()， 使 用 env 变 量 调用 longjmp0 〇 函数 。 


这 是 一 个 严重 错误 ， 因 为 longjmpO 调 用 不 能 跳 转 到 一 个 已 经 返回 的 
函数 中 。 思 考 一 下 ， 在 这 种 情况 下 ，longjmpO 函 数 会 对 栈 打 什么 主 疲 
一 一 答 试 将 栈 解 开 ， 人 恢复 到 一 个 不 存在 的 栈 帧 位 置 ， 这 无 疑 将 引起 混 
乱 。 如 果 和 幸运 的 话 ， 程 序 会 一 死 〈crash) 了 之 。 然 而 ， 取 决 于 栈 的 状 
态 ， 也 可 能 会 引起 调用 与 返回 间 的 死 循 环 ， 而 程序 好 像 真 地 从 一 个 当前 
并 未 执行 的 函数 中 返回 了 。 “在 多 线程 程序 中 有 与 之 相 类 似 的 滥用 ， 在 
线程 某 甲 中 调用 setimpO 函 数 ， 却 在 线程 某 乙 中 调用 longjmpO。 ) 



































SUSV3ŇL E, WRMREN A SME (signal 


handler) 〈 即 信号 某 甲 的 处 理 器 正在 运行 时 ， 又 发 起 对 信 
号 某 乙 处 理 器 的 调用 ) 中 调用 longjmp0 函 数 ， 则 该 程序 的 
行为 未 定义 。 


优化 编译 器 的 问题 


优化 编译 器 会 重组 程序 的 指令 执行 顺序 ， 并 在 CPU 寄存 器 中 ， 而 非 
RAM 中 存储 某 些 变量 。 这 种 优化 一 般 依 赖 于 反映 了 程序 词法 结构 的 运 
4v Hh} (run-time) 控制 流程 。 由 于 setmp0 和 1longjmpO 的 跳 转 操 作 需 在 运 
行 时 才能 得 以 确立 和 执行 ， 并 未 在 程序 的 词法 结构 中 有 所 反映 ， 故 而 编 
译 堪 在 进行 优化 时 也 无 法 将 其 考虑 在 内 。 此 外 ， 某 些 应 用 程序 二 进 制 接 
O CABI) 实现 的 语义 要 求 1ongjmp0O 函 数 恢 复 先 前 setjimpO 调 用 所 保存 的 
CPU 寄存 器 副本 。 这 意味 者 longjmpO 操 作 会 致使 经 过 优化 的 变量 被 赋 以 
错误 值 。 程 序 清 单 6-6 中 的 程序 行为 就 是 其 中 一 例 。 


程序 清单 6-6: 编译 器 的 优化 和 longjmp() 函 数 相互 作用 的 示例 






























































proc/setjmp_vars.c 
#include <stdio.h> 
#include <stdlib.h> 
#include <setjmp.h> 


static jmp_buf env; 


static void 

doJump({int nvar, int rvar, int vvar) 

{ 
printf("Inside doJump(): nvar=%d rvar=%d vvar=%d\n", nvar, rvar, vvar); 
longjmp{env, 1); 


int 
main(int argc, char *argv[ ]) 
int nvar; 


register int rvar; /* Allocated in register if possible */ 
volatile int vvar; /* See text */ 


nvar = 111; 
Ivar = 222; 


vvar = 333; 


if (setjmp(env) == 0) { /* Code executed after setjmp() */ 


nvar = 777; 
rvar = 888; 
vvar = 999; 


doJump(nvar, rvar, vvar); 
} else { /* Code executed after longjmp() */ 


printf("After longjmp(): nvar=%d rvar=%d vvar=4d\n", nvar, rvar, vvar); 


} 


exit (EXIT_SUCCESS) ; 


proc/setjmp_vars.c 


以 常规 方式 编译 程序 清单 6-6 中 的 程序 ， 输 出 结果 符合 预期 。 


$ cc -0 setjmp_vars setjmp_vars.c 

$ ./setjmp_vars 

Inside doJump(): nvar=777 rvar=888 vvar=999 
After longjmp(): nvar=777 rvar=888 vvar=999 


然而 ， 知 以 优化 方式 编译 该 程序 ， 结 果 就 有 些 出 乎 预料 了 。 


$ cc -0 -o setjmp_vars setjmp_vars.c 

$ ./setjmp_vars 

Inside doJump(): nvar=777 rvar=888 vvar=999 
After longjmp(): nvar=111 rvar=222 vvar=999 


此 处 ， 在 longjmpO 调 用 后 ，nvar 和 rvar 参 数 被 重 置 为 setjimpO 初 次 调 
用 时 的 值 。 起 因 是 优化 器 对 代码 的 重组 受到 longjmp0O 调 用 的 和 干扰。 作为 
候选 优化 对 象 的 任 一 局 部 变量 可 能 都 难免 会 遇 到 这 类 问题 ， 一 般 包含 指 
针 变 量 和 char、int、float、long 等 任何 简单 类 型 的 变量 。 


将 变量 声明 为 volatile， 是 告诉 优化 器 不 要 对 其 进行 优化 ， 从 而 避免 
了 代码 重组 。 在 上 面 的 程序 输出 中 ， 无 论 编 译 优 化 与 否 ， 声 明 为 volatile 
的 变量 vvar 都 得 到 了 正确 处 理 。 


因为 不 同 的 优化 器 有 着 不 同 的 优化 方法 ， 有 具备 民 好 移植 性 的 程序 应 
在 调用 setjmp0 的 函数 中 ， 将 上 述 类 型 的 所 有 局 部 变量 部 声明 为 


volatile。 


若 在 GNU C 语 言 编 译 器 中 加 入 -Wextra (产生 额外 的 警告 信息 ) 选 
项 ，setjmp_vars.c 程 序 的 编译 结果 将 显示 有 帮助 的 警告 信息 如 下 : 


$ cc -Wall -Wextra -0 -o setjmp vars setjmp_vars.c 

setjmp vars.c: In function “main': 

setjmp_vars.c:17: warning: variable “nvar' might be clobbered by ~longjmp' or 
“vfork’' 

setjmp_vars.c:18: warning: variable ‘rvar' might be clobbered by “longjmp' or 
“vfork' 














无 论 优 化 与 否 ， 查 看 编译 setjmp_vars.c 程 序 所 产生 的 汇 
编 语言 输出 都 是 有 益 的 。cc -S$ 命令 产生 一 个 以 .s 为 扩展 名 
的 文件 ， 内 容 为 程序 的 汇编 代码 。 


尽 可 能 避免 使 用 setjmp0 函 数 和 ]longjmp0 函 数 


如 末 说 goto 语 名 会 使 程序 难以 阅读 ， 那 么 非 局 部 跳 转 会 让 事情 的 糖 
料 程 度 增加 一 个 数量 级 ， 因 为 它 能 在 程序 中 任意 两 个 函数 间 传 递 控制 。 








因此 ， 应 当 慎 用 setjmp0 函 数 和 longjmp0 〇 函数 。 在 设计 和 编码 时 花 点 心 

思 来 避免 使 用 这 两 个 函数 ， 这 通常 是 值得 的 。 程 序 更 具 可 读 性 ， 可 能 会 
更 具 可 移植 性 。 话 虽 如 此 ， 但 在 编写 信号 处 理 器 时 ， 这 些 函 数 侦 尔 还 会 
派 上 用 场 一 一 讨论 信号 时 将 重新 论 及 这 些 函 数 的 变 体 〈 参 见 21.2.1 节 中 

的 sigsetjmpO 函 数 和 siglongjmpO 函 数 ) 。 








6.9 总结 


每 个 进程 都 有 一 个 唯一 进程 标识 号 (process ID) ， 并 保存 有 对 其 
父 进程 号 的 记录 。 


进程 的 虚拟 内 存 逻 辑 上 被 划分 成 许多 段 ， 文 本 段 、 初 始 化 和 非 初 
始 化 的 ) 数据 段 、 栈 和 堆 。 


栈 由 一 系列 帧 组 成 ， 随 函数 调用 而 增 ， 随 函数 返回 而 减 。 每 个 帧 都 
包含 有 函数 局 部 变量 、 函 数 实 参 以 及 单个 函数 调用 的 调用 链接 信息 。 


程序 调用 时 ， 命 令 行 参数 通过 argc 和 argv 参 数 提供 给 main() 函 数 。 通 
常 ，argv[0] 包 含 调用 程序 的 名 称 。 


每 个 进程 都 会 获得 其 父 进程 环境 列表 的 一 个 副本 ， 即 一 组 “名 称 - 
值 ? 键 值 对 。 全 局 变量 environ 和 各 种 库 函 数 允 许 进 程 访 问 和 修改 其 环境 
列表 中 的 变量 。 


setjmp() K Bi Allongjmp() es Žirje H SM ek BR AAT AF Ja els Ee Bl) 
KAEL REAO 的 方法 。 在 调用 这 些 函 数 时 ， 为 避免 编译 器 优化 所 
引发 的 问题 ， 应 使 用 volatile 修 饰 符 声 明 变 量 。 非 局 部 跳 转 会 使 程序 难于 
阅读 和 维护 ， 应 尽量 避免 使 用 。 


更 多 资料 


[Tanenbaum, 2007] 和 [Vahalia, 1996] 详 细 描 述 了 虚拟 内 存 管理 。 
[Gorman, 2004] 则 详细 描述 了 Linux 内 核 内 存 管理 算法 和 代码 。 





6.9 练习 


6-1. 编译 程序 清单 6-1 中 的 程序 (mem_segments.c) ， 使 用 ls -1 命 
令 显 示 可 执行 文件 的 大 小 。 虽 然 该 程序 包含 一 个 大 约 10MB 的 数组 ， 但 
可 执行 文件 大 小 要 远 小 于 此 ， 为 什么 ? 


6-2. 编写 一 个 程序 ， 观 察 当 使 用 longjmpO 函 数 跳 转 到 一 个 已 经 返 
回 的 函数 时 会 发 生 什么 ? 


6-3. 使 用 getenv0 〇 函数、putenv() 函 数 ， 必 要 时 可 直接 修改 
environ， 来 实现 setenv() 函 数 和 unsetenv() 函 数 。 此 处 的 unsetenv() 函 数 应 
检查 是 否 对 环境 变量 进行 了 多 次 定义 ， 如 果 是 多 次 定义 则 将 移 除 对 该 变 
量 的 所 有 定义 (glibc 版 本 的 unsetenv0) 函 数 实现 了 这 一 功能 











@ 译 者 注 : 例如 ， 以 寄存 器 取代 变量 。 

@ 译 者 注 : \0。 

@) 译 者 注 : 请 读者 仔细 思考 C 语 言 中 数组 与 指针 的 对 等 关系 。 
由 译 者 注 : 即 上 文 所 谓 静 态 作 用 域 。 


HI ”内 和 存 分 配 


许多 系统 程序 需要 为 动态 数据 结构 〈 例 如， 链表 和 二 广 树 〉 分 配 后 
外 内 存 ， 此 类 数据 结构 的 大 小 由 运行 时 所 获取 的 信息 决定 。 本 章 将 介绍 
用 于 在 堆 或 堆栈 上 分 配 内 存 的 函数 。 





71 在 堆 上 分 配 内 存 


进程 可 以 通过 增加 堆 的 大 小 来 分 配 内 存 ， 所 谓 堆 是 一 段 长 度 可 变 的 
连续 虚拟 内 存 ， 始 于 进程 的 未 初始 化 数据 段 末 尾 ， 随 着 内 存 的 分 配 和 释 
放 而 增 减 〈 见 图 6-1) 。 通 常 将 堆 的 当前 内 存 边界 称 为 “program break”. 


稍 后 将 介绍 C 语 言 程 序 分 配 内 存 所 惯用 的 malloc 函 数 族 ， 但 首先 还 
要 从 malloc 函 数 族 所 基于 的 brkO0 和 sbrkO 开 始 谈 起 。 











7.1.1 调整 program break: brkO 和 sbrk() 


改变 堆 的 大 小 〔( 即 分 配 或 释放 内 存 〉， 其 实 就 像 命 令 内 核 改变 进程 
的 program break 位 置 一 样 简 单 。 最 初 ，program break 正 好 位 于 未 初始 化 
数据 段 末 尾 之 后 (如 图 6-1 所 示 ， 与 &end 位 置 相同 〉。 


在 program break 的 位 置 抬 升 后 ， 程 序 可 以 访问 新 分 配 区 域内 的 任何 
内 存 地址 ， 而 此 时 物理 内 存 页 尚未 分 配 。 内 核 会 在 进程 首次 试图 访问 这 
些 虚 拟 内 存 地 址 时 自动 分 配 新 的 物理 内 存 页 。 


传统 的 UNIX 系 统 提供 了 两 个 操纵 program break 的 系统 调用 : brk() 
和 sbrk0， 在 Linux 中 依然 可 用 。 虽 然 代 码 中 很 少 直 接 使 用 这 些 系统 调 
用 ,但 了 解 它们 有 助 于 弄 清 内 存 分 配 的 工作 过 程 。 











#include <unistd.h> 


int brk(void *end_dala_segment) ; 


Returns 0 on success, or -1 on error 
void *sbrk(intptr_t increment); 








Returns previous program break on success, or (void *) -1 on error 





系统 调用 brk() 会 将 program break 设 置 为 参数 end_data_segment 所 指 
定 的 位 置 。 由 于 虚拟 内 存 以 页 为 单位 进行 分 配 ，end_data_segment 实 际 
会 四 舍 五 入 到 下 一 个 内 存 页 的 边界 处 。 


当 试 图 将 program break 设 置 为 一 个 低 于 其 初始 值 〈 即 低 于 &end) 的 
位 置 时 ， 有 可 能 会 导致 无 法 预知 的 行为 ， 例 如 ， 当 程序 试图 访问 的 数据 





位 于 初始 化 或 未 初始 化 数据 段 中 当前 尚 不 存在 的 部 分 时 ， 束 会 引发 分 段 
内 存 访问 错误 (segmentation fault) (SIGSEGV 信 号 ， 在 20.2 节 描 

述 ) 。program break 可 以 设 定 的 精确 上 限 取 决 于 一 系列 因素 ， 这 包括 进 
程 中 对 数据 段 大 小 的 资源 限制 〈36.3 节 中 描述 的 RLIMIT_DATA) ， 以 
及 内 存 上 映射、 共享 内 存 段 、 共 享 库 的 位 置 。 


调用 sbrk() 将 program break 在 原 有 地 址 上 增加 从 参数 imcrement 传 入 
的 大 小 。“《 在 Linux 中 ，sbrk0O 是 在 brkO 基 础 上 实现 的 一 个 库 函 数 。) 用 
于 声明 increment 的 intptr_t 类 型 属于 整数 数据 类 型 。 知 调用 成 功 ，sbrk0) 
返回 前 一 个 program break 的 地 址 。 换 言 之 ， 如 果 program break 增 加 ， 那 
么 返回 值 是 指 癌 这 块 新 分 配 内 存 起 始 位 置 的 指针 。 


调用 sbrk(0) 将 返回 program break 的 当前 位 置 ， 对 其 不 做 改变 。 在 意 
R 或 是 监视 内 存 分 配 函 数 包 的 行为 时 ， 可 能 会 用 到 这 一 
用 法 。 











SUSv2 定 义 了 brk0 和 sbrk0， 标 记 为 Legacy (传统 ) 。 
但 SUSv3 删 除了 这 些 定义 。 


7.1.2 ”在 堆 上 分 配 内 存 : malloc0 和 free0) 


一 般 情 况 下 ，C 程 序 使 用 malloc 函 数 族 在 堆 上 分 配 和 释放 内 存 。 较 
之 brk() 和 sbrk()， 这 些 函 数 具 备 不 少 优 点 ， 如 下 所 示 。 


。 属于 C 语 言 标准 的 一 部 分 。 

。 更 易于 在 多 线程 程序 中 使 用 。 

。 接口 简单 ， 人 允许 分 配 小 块 内 存 。 

。 允许 随意 释放 内 存 块 ， 它 们 被 维护 于 一 张 空 几 内 存 列表 中 ， 在 后 续 
内 存 分 配 调用 时 循环 使 用 。 


malloc( ) 函 数 在 堆 上 分 配 参数 size 字 节 大 小 的 内 存 ， 并 返回 指向 新 分 
配 内 存 起 始 位 置 处 的 指针 ， 其 所 分 配 的 内 存 未 经 初始 化 。 











#include <stdlib.h> 


void *malloc({size_t size); 


Returns pointer to allocated memory on success, or NULL on crror 





由 于 mallocO 的 返回 类 型 为 void* ， 因 而 可 以 将 其 赋 给 任意 类 型 的 C 
指针 。malloc() 返 回 内 存 块 所 采用 的 字 节 对 齐 方 式 ， 总 是 适宜 于 高 效 访 
问 任何 类 型 的 C 语 言 数 据 结 构 。 在 大 多 数 人 硬件 架构 上 ， 这 实际 意味 着 
malloc 是 基于 8 字 节 或 16 字 节 边 界 来 分 配 内 存 的 。 山 

















SUSv3 规 定 : 调用 malloc(0) 要 么 返回 NULL， 要 么 是 一 
小 块 可 以 (并 且 应 该 ) 用 free0 释 放 的 内 存 。Linux 的 
malloc(0) 行 为 遵循 后 者 。 





各 无 法 分 配 内 存 〈 或 许 是 因为 已 经 抵达 program break 所 能 达到 的 地 
址 上 限 ) ， 则 mallocO 返 回 NULL， 并 设置 errno 以 返回 错误 信息 。 虽 然 分 
配 内 存 失败 的 可 能 性 很 小 ， 但 所 有 对 malloc() 以 及 后 续 提 及 的 相关 函数 
的 调用 都 应 对 返回 值 进行 错误 检查 。 


free() 函 数 释 放 ptr 参 数 所 指 问 的 内 存 块 ， 该 参数 应 该 是 之 前 由 
aia BYE AS EE Ja STIS I ELE N FFP CB PT FY He 





#include <stdlib.h> 


void free(void *pir); 





一 般 情况 下 ，free() 并 不 降低 program break 的 位 置 ， 而 是 将 这 块 内 存 
填 加 到 空 闪 内存 列表 中 ， 供 后 续 的 malloc() 函 数 循环 使 用 。 这 么 做 是 出 
于 以 下 几 个 原因 。 


。 个 释放 的 内 存 块 通常 会 位 于 堆 的 中 间 ， 而 非 堆 的 顶部 ， 因 而 降低 
porgram break 是 不 可 能 的 。 








。 它 最 大 限度 地 减少 了 程序 必须 执行 的 sbrkO 调 用 次 数 。《 正 如 3.1 节 
指出 的 ， 系 统 调用 的 开销 虽 小 ， 却 也 颇 为 可 观 。) 

© 在 大 多 数 情况 下 ， 降 低 program break 的 位 置 不 会 对 那些 分 配 大 量 内 
存 的 程序 有 多 少 帮 助 ， 因 为 它们 通常 倾向 于 持 有 已 分 配 内 存 或 是 反 
复 释 放 和 重新 分 配 内 存 ， 而 非 释 放 所 有 内 存 后 再 持续 运行 一 段 时 
ie 


如 果 传 给 free0) 的 古 一 个 空 指针 ， 那 么 函数 将 什么 部 不 做 。 换 句 
话说 ， 给 free0 传 入 一 个 空 指针 并 不 是 错误 代码 。) 


在 调用 free() 后 对 参数 ptr 的 任何 使 用 ， 例 如 将 其 再 次 传递 给 free()， 
将 产生 错误 ， 并 可 能 导致 不 可 预知 的 结 


程序 示例 


程序 清单 7-1 中 的 程序 说 明了 free0 函 数 对 program break 的 影响 。 访 
R 
或 全 部 。 


前 两 个 命令 行 参数 指定 了 分 配 内 存 块 的 数量 和 大 小 。 第 三 个 命令 行 
参数 指定 了 释放 内 存 块 的 循环 步 长 。 如 果 是 1〈 这 也 是 省 略 此 参数 时 的 
默认 值 )， 那 么 程 友 将 释放 每 块 已 分 配 的 内 存 ， 如 果 为 2， 那么 每 隔 一 
块 释放 一 块 已 分 配 内 存 ， 以 此 类 推 。 第 四 个 和 第 五 个 命令 行 参数 指定 需 
要 释放 的 内 存 块 范围 。 如 果 省 略 这 两 个 参数 ， 那 么 将 以 第 三 个 命令 行 
参数 所 指定 的 步 长 ) PRE AERA CoA AF o 


程序 清单 7-1: 示范 释放 内 存 时 program break 的 行为 























memalloc/free_and_sbrk.c 
#include “tlpi_hdr.h" 


#define MAX ALLOCS 1000000 


int 
main(int argc, char *argv[]) 


char *ptr[MAX ALLOCS]; 
int freeStep, freeMin, freeMax, blockSize, numAllocs, j; 


printf("\n"); 


if (argc < 3 || strcmp(argv[1], "--help") == 0) 
usageErr("%s num-allocs block-size [step [min [max]]]\n", argv[o]); 


numAllocs = getInt(argv[1], GN CT 0, “num-allocs"); 
if (numAllocs > MAX ALLOCS) 
cmdLineErr("num-allocs > %d\n", MAX ALLOCS); 


blockSize = getInt({argv[2], GN GT 0 | GN ANY BASE, “block-size"); 





freeStep = (argc > 3) ? getInt(argv[3], GN CT 0, “step") : 1; 
freeMin = (argc > 4) ? getInt(argv[4], GN_GT_O, “min") : 1; 
freeMax = (argc > 5) ? getInt(argv[5], GN_GT_O, "max") : numAllocs; 


if (freeMax > numAllocs) 
cmdLineErr("free-max > num-allocs\n"); 


printf("Initial program break: %10p\n", sbrk{0)); 
printf("Allocating %d*%d bytes\n", numAllocs, blockSize); 
for (j = 0; j < mumAllocs; j++) { 

ptr[j] = malloc(blockSize); 

if (ptr[j] == NULL) 

errExit ("malloc"); 
} 
printf("Program break is now: *10p\n", sbrk(0)); 
printf("Freeing blocks from %d to %d in steps of %d\n", 
freeMin, freeMax, freeStep); 


for (j = freeMin - 1; j < freeMax; j += freeStep) 
free(ptr[j]); 


printf("After free(), program break is: %10p\n", sbrk(0)); 


exit(EXIT SUCCESS); 


memalloc/free_and_sbrk.c 


用 下 面 的 命令 行 运行 程序 清单 7-1 的 程序 ， 将 会 分 配 1000 个 内 存 


块 ， 且 每 阳 一 个 内 存 块 释放 一 个 内 存 块 。 


$ ./free and sbrk 1000 10240 2 


输出 结果 显示 ， 释 放 所 有 内 存 块 后 ，program break 的 位 置 仍然 与 分 
配 所 有 内 存 块 后 的 水 平 相当 。 


Initial program break: 0x804a6bc 
Allocating 1000*10240 bytes 
Program break is now: 0x8a13000 


Freeing blocks from 1 to 1000 in steps of 2 
After free(), program break is: 0x8a13000 


下 面 的 命令 行 要 求 除了 最 后 一 块 内 存 块 ， 释 放 所 有 已 分 配 的 内 存 
块 。 再 一 次 ，program break 保 持 在 了 “高 水 位 线 ”。 


$ ./free_and_sbrk 1000 10240 1 1 999 








Initial program break: Ox804a6bc 
Allocating 1000*10240 bytes 
Program break is now: 0x8a13000 


Freeing blocks from 1 to 999 in steps of 1 
After free(), program break is: 0x8a13000 


但 是 ， 如 果 在 堆 顶 部 释放 完整 的 一 组 连续 内 存 块 ， 会 观察 到 
program break 从 峰值 上 降下 来 ， 这 表明 free() 使 用 了 sbrk() 来 降低 program 
break。 在 这 里 ， 命 令 行 释 放 了 已 分 配 内 存 的 最 后 500 个 内 存 块 。 


$ ./free_and_sbrk 1000 10240 1 500 1000 





Initial program break: Ox804a6bc 
Allocating 1000*10240 bytes 
Program break is now: 0x8a13000 


Freeing blocks from 500 to 1000 in steps of 1 
After free(), program break is: 0x852b000 


在 这 种 情况 下 ，free0) 函 数 的 glibc 实 现 会 在 释放 内 存 时 将 相 邻 的 空 
闲 内 存 块 合并 为 一 整 块 更 大 的 内 存 〈 这 样 做 是 为 了 避免 在 空闲 内 存 列表 
中 包含 大 量 的 小 块 内 存 碎片 ， 这 些 碎片 会 因 空间 太 小 而 难以 满足 后 续 的 
malloc0) 请 求 ) ， 因 而 也 有 能 力 识别 出 堆 顶 部 的 整个 空闲 区 域 。 


仅 当 堆 顶 空 亲 内 存 “ 足 够 "大 的 时 候 ，free0 函 数 的 glibc 
实现 会 调用 sbrk0) 来 降低 program break 的 地 址 ， 至 于 “ 足 


够 ”与 否则 取决 于 malloc 函 数 包 行为 的 控制 参数 (128 KB 为 
典型 值 ) 。 这 减少 了 必须 对 sbrk0 发 起 的 调用 次 数 〈 亦 即 对 
brkO 系 统 调用 的 调用 次 数 ) 。 





调用 free() 还 是 不 调用 free() 


当 进 程 终止 时 ， 其 占用 的 所 有 内 存 都 会 返还 给 操作 系统 ， 这 包括 在 
堆 内 存 中 由 malloc 函 数 包 内 一 系列 函数 所 分 配 的 内 存 。 基 于 内 存 的 这 一 
目 动 释放 机 制 ， 对 于 那些 分 配 了 内 存 并 在 进程 终止 前 持续 使 用 的 程序 而 
言 ， 通 常会 省 略 对 free() 的 调用 。 这 在 程序 中 分 配 了 多 块 内 存 的 情况 下 
可 能 会 特别 有 用 ， 因 为 加 入 多 次 对 free() 的 调用 不 但 会 消耗 大 量 的 CPU 时 
间 ， 而 且 可 能 会 使 代码 趋 于 复杂 。 


虽然 依靠 终止 进程 来 自动 释放 内 存 对 大 多 数 程序 来 说 是 可 以 接受 
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。 显 式 调用 free0 能 使 程序 在 未 来 修改 时 更 具 可 读 性 和 可 维护 性 。 

。 如 果 使 用 malloc 调 试 库 〈 如 下 所 述 ) 来 碍 找 程序 的 内 存 泄 漏 问 题 ， 
那么 会 将 任何 未 经 显 式 释放 处 理 的 内 存 报告 为 内 存 泄漏 。 这 会 使 发 
现 真 正 内 存 泄漏 的 工作 复杂 化 。 























7.1.3 malloc0 和 free0 的 实现 


尽管 mallocO0 和 free0 所 提供 的 内 存 分 配 接口 比 之 brk0 和 sbrkO 要 容易 
许多 ， 但 在 使 用 时 仍然 容易 犯 下 各 种 编程 错误 。 理 解 malloc() 和 free() 的 
实现 ， 将 使 我 们 洞悉 产生 这 些 错误 的 原因 以 及 如 何 才 能 避免 此 类 错误 。 


mallocO 的 实现 很 简单 。 它 首先 会 扫 摘 之 前 由 freeO0 所 释放 的 空闲 内 
存 块 列表 ， 以 求 找到 尺寸 大 于 或 等 于 要 求 的 一 块 空 亲 内存。 取决 于 具 
体 实 现 ， 采 用 的 扫 拉 策略 会 有 所 不 同 。 例 如 ，first-fit 或 best-fito。 ) 如 果 
这 一 内 存 块 的 尺寸 正好 与 要 求 相 当 ， 束 把 它 直 接 返 回 给 调用 者 。 如 果 是 
一 块 较 大 的 内 存 ， 那 么 将 对 其 进行 分 割 ， 在 将 一 块 大 小 相当 的 内 存 返 回 
给 调用 者 的 同时 ， 把 较 小 的 那 块 空间 内 存 块 保留 在 空 闪 列表 中 。 








如 果 在 空闲 内 存 列表 中 根本 找 不 到 足够 大 的 空闲 内 存 块 ， 那 么 
malloc0O 会 调用 sbrk0O 以 分 配 更 多 的 内 存 。 为 减少 对 sbrk0 的 调用 次 数 ， 
malloc() 并 未 只 是 严格 按 所 需 字 节 数 来 分 配 内 存 ， 而 是 以 更 大 幅度 以 
de al 来 增加 program break， 并 将 超出 部 分 置 于 空 闪 

FIN AS o 


至 于 free0 函 数 的 实现 则 更 为 有 趣 。 当 free0 将 内 存 块 置 于 空闲 列表 
之 上 时 ， 是 如 何 知晓 内 存 块 大 小 的 ? 这 是 通过 一 个 小 技巧 来 实现 的 。 当 
malloc0O 分 配 内 存 块 时 ， 会 额外 分 配 几 个 字 节 来 存放 记录 这 块 内 存 大 小 
的 整数 值 。 该 整数 位 于 内 存 块 的 起 始 处 ， 而 实际 返回 给 调用 者 的 内 存 地 
址 恰好 位 于 这 一 长 度 记 录 字 节 之 后 ， 如 网 7-1 所 示 。 


内 存 块 . 
供 调用 者 使 用 的 内 雁 


malloc() 的 返回 地 址 














图 7-1: malloc() 返 回 的 内 存 块 


当 将 内 存 块 置 于 空闲 内 存 列表 (双向 链表 〉 时 ，free() 会 使 用 内 存 
块 本 身 的 空间 来 存放 链表 指针 ， 将 自身 添加 到 列表 中 ， 如 图 7-2 所 示 。 
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图 7-2: 空闲 列表 中 的 内 存 块 





随 痢 对 内 存 不 断 地 释放 和 重新 分 配 ， 空 闲 列 表 中 的 空闲 内 存 会 和 已 
分 配 的 在 用 内 存 混杂 在 一 起 ， 如 图 7-3 所 示 。 





空闲 列 表 中 的 块 : Cea 
25 AZ 
aie 已 分 配 且 在 使 用 的 块 : 


“-”= 标识 列表 尾部 的 指针 值 


图 7-3: 包含 有 已 分 配 内 存 和 空闲 内 存 列表 的 堆 
应 该 认识 到 ，C 语言 允许 程序 创建 指向 堆 中 任意 位 置 的 指针 ， 并 修 








改 其 指向 的 数据 ， 包 括 由 free() 和 malloc() 函 数 维护 的 内 存 块 长 度 、 指 向 
前 一 空间 块 和 后 一 空间 块 的 指针 。 辅 之 以 之 前 的 描述 ， 一 旦 推 究 起 隐 星 
难 解 的 编程 缺陷 来 ， 这 无 疑 形 同 挥 进 了 火药 桶 。 例 如 ， 假 设 经 由 一 个 错 


误 指 





针 ， 程 序 无 意 间 增加 了 冠 于 一 块 已 分 配 内 存 的 长 度 值 ， 并 随即 释放 








这 块 内 存 ，free() 因 之 会 在 空间 列表 中 记录 下 这 块 长 度 失真 的 内 存 。 随 


后 ， 





malloc() 也 许 会 重新 分 配 这 块 内 存 ， 从 而 导致 如 下 场景 程序 的 两 





个 指针 分 别 指 问 两 块 它 认为 互 不 相干 的 已 分 配 内 存 ， 但 实际 上 这 两 块 内 
存 却 相互 重 登 。 至 于 其 他 的 出 错 情 况 则 数不胜数 。 


要 避免 这 类 错误 ， 应 该 遵守 以 下 规则 。 


分 配 一 块 内 存 后 ， 应 当 小 心 谍 慎 ， 不 要 改变 这 块 内 存 范 围 外 的 任何 
内 容 。 错 误 的 指针 运算 ， 或 者 循环 更 新 内 存 块 内 容 时 出 现 的 “off- 
by-one” (一 字 之 偏 ) 包 错 误 ， 都 有 可 能 导致 这 一 情况 。 

释放 同一 块 已 分 配 内 存 超过 一 次 是 错误 的 。Linux 上 的 glibc 库 经 常 
报 出 分 段 错误 (SIGSEGV 信号 ) 。 这 是 好 事 ， 因 为 它 提醒 我 们 犯 
下 了 一 个 编程 错误 。 然 而 ， 当 两 次 释放 同一 块 内 存 时 ， 更 种 见 的 后 
果 是 导致 不 可 预知 的 行为 。 

eee Ital, 24 ARETE Val H free() eA 
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在 编写 需要 长 时 间 运 行 的 程序 〈 例 如 ，shell] 或 网 络 守护 进程 ) 时 ， 
出 于 各 种 目的 ， 如 果 需 要 反复 分 配 内 存 ， 那 么 应 当 确 保释 放 所 有 已 
使 用 完毕 的 内 存 。 如 大 不 然 ， 挫 将 稳步 增长 ， 直 至 抵达 可 用 虚拟 内 
存 的 上 限 ， 在 此 之 后 分 配 内 存 的 任何 答 试 都 将 以 失败 告终 。 这 种 情 
况 被 称 之 为 "内存 泄漏 ?。 














malloc 调 试 的 工具 和 库 


如 采 不 遵循 上 述 准则 ， 可 能 会 在 代码 中 引入 既 难 以 理解 叉 难 以 重 现 


的 缺陷 。 而 使 用 glibc 提 供 的 malloc 调 试 工具 或 者 任何 一 款 malloc 调 试 


PE, 


都 会 显著 降低 发 现 这 些 缺 陷 的 难度 ， 这 也 是 设计 它们 的 目的 所 在 。 
以 下 是 glibc 提 供 的 malloc 调 试 工具 的 部 分 功能 。 


mtrace() 和 muntrace() 函 数 分 别 在 程序 中 打开 和 关闭 对 内 存 分 配 调用 
进行 跟 踊 的 功能 。 这 些 函 数 要 与 环境 变量 MALLOC_TRACE 搭 配 使 
用 ， 该 变量 定义 了 写 入 跟踪 信息 的 文件 名 。 在 被 调用 时 ，mtrace() 
会 检查 是 否定 义 了 该 文件 ， 又 是 否 可 以 打开 文件 并 写 入 。 如 果 一 切 
正常 ， 那 么 会 在 文件 里 跟踪 和 记录 所 有 对 malloc 函 数 包 中 疯 数 的 调 
用 。 由 于 生成 文件 不 易于 理解 ， 还 提供 有 一 个 脚本 (mtrace〉 用 于 
分 析 文 件 ， 并 生成 易于 理解 的 汇总 报告 。 出 于 安全 原因 ， 设 置 用 户 
ID 和 设置 组 ID 的 程序 会 忽略 对 mtrace() 的 调用 。 
mcheckO0 和 mprobe0 函 数 允 许 程 序 对 已 分 配 内 存 块 进 行 一 致 性 检 

得。 例如 ， 当 程序 试图 在 已 分 配 内 存 之 外 进行 写 操 作 时 ， 它 们 将 捕 
获 这 个 错误 。 这 些 函 数 提供 的 功能 和 下 述 malloc 调 试 库 有 重 登 之 
处 。 使 用 这 些 函 数 的 程序 ， 必 须 使 用 cc-lmcheck 选 项 与 ncheck 库 链 
接 。 











MALLOC_CHECK_ 环 境 变量 〈 注 意 结尾 处 的 下 划 线 ) 提供 了 类 似 
于 mcheck() 和 mprobe() 函 数 的 功能 。【〔 两 者 之 间 的 一 个 显著 区 别 在 
于 使 用 : MALLOC_CHECK 无 需 对 程序 进行 修改 和 重新 编译 。) 
通过 为 此 变量 设置 不 同 的 整数 值 ， 可 以 控制 程序 对 内 存 分 配 错误 的 
响应 方式 。 可 能 的 设置 有 : 0， 意 即 忽 略 错 误 ; 1， 意 即 在 标准 错误 
输出 (stderr〉 中 打印 诊断 错误 ; 2， 意 即 调用 abort() 来 终止 程序 。 
并 非 所 有 的 内 存 分 配 和 释放 错误 都 是 由 MALLOC_CHECK 检测 出 
的 ， 它 所 发 现 的 只 是 常见 错误 。 但 是 ， 这 种 技术 快速 、 易 用 ， 较 之 
于 malloc 调 试 库 具 有 较 低 的 运行 时 开销 。 出 于 安全 原因 ， 设 置 用 户 
ID 和 设置 组 ID 的 程序 将 忽略 MALLOC_CHECK 设置 。 


关于 以 上 所 有 功能 更 为 详细 的 信息 可 以 参考 glibc 手 册 。 
而 束 malloc 调 试 库 而 言 ， 其 提供 了 和 标准 malloc 函 数 包 相同 的 API， 














但 附加 了 捕获 内 存 分 配 错误 的 功能 。 要 使 用 调试 库 ， 需 要 在 编译 时 链接 
调试 库 ， 而 非 标准 C 函 数 库 的 malloc 函 数 包 。 由 于 调试 库 通常 会 降低 运 
行 速度 ， 增 加 内 存 消 耗 ， 或 是 两 者 兼 而 有 之 ， 应 当 仪 在 调试 时 使 用 ， 而 
在 正式 发 布 产 品 时 链接 标准 库 的 malloc 包 。 这 些 库 分 别 是 : Electric 
Fence Chttp://www.perens.com/ FreeSoftware/) ~ 





dmalloc Chttp://dmalloc.com/) ~ Valgrind Chttp://valgrind.org/) ~ 
Insure++ Chttp://www.parasoft.com/) o 


Valgrind 和 Insure++ 能 够 发 现 许多 堆 内 存 分 配 之 外 的 其 
他 类 型 错误 。 可 以 访问 其 各 自 网 站 ， 以 获取 详细 信息 。 


控制 和 监测 malloc 函 数 包 


glibc 手 册 介 绍 了 一 系列 非 标准 函数 ， 可 用 于 监测 和 控制 malloc 包 中 
函数 的 内 存 分 配 ， 其 中 包括 如 下 儿 个 函数 。 


。 函数 malloptO 能 修改 各 项 参数 ， 以 控制 mallocO 所 采用 的 算法 。 例 
如 ， 此 类 参数 之 一 就 指定 了 在 调用 sbrk0O 函 数 进 行 堆 收 缩 之 前 ， 在 
空闲 列表 尾部 必须 保有 的 可 释放 内 存 空 间 的 最 小 值 。 另 一 参数 则 规 
定 了 从 堆 中 分 配 的 内 存 块 大 小 的 上 限 ， 超 出 上 限 的 内 存 块 则 使 用 
mmapO 系 统 调 用 〈 人 参见 49.7 节 ) 来 分 配 。 
mallinfo0 函 数 返 回 一 个 结构 ， 其 中 包含 由 mallocO 分 配 内 存 的 各 种 
统计 数据 。 


众多 UNIX 实 现 提 供 各 种 版 本 的 mallopt0 和 mallinfo0。 然 而 ， 这 些 
函数 所 提供 的 接口 却 随 实现 而 不 同 ， 因 而 也 无 法 移植 。 


7.1.4 ”在 堆 上 分 配 内 存 的 其 他 方法 


除了 malloc0，C 函 数 库 还 提供 了 一 系列 在 堆 上 分 配 内 存 的 其 他 函 
数 ， 在 这 里 将 逐一 介绍 。 


用 calloc0 和 realloc0 分 配 内 存 
函数 callocO 用 于 给 一 组 相同 对 象 分 配 内 存 。 











#include <stdlib.h> 


void *calloc({size t numitems, size t size); 


Returns pointer to allocated memory on success, or NULL on error 





参数 mumitems 指 定 分 配对 象 的 数量 ，size 指 定 每 个 对 象 的 大 小 。 在 
分 配 了 适当 大 小 的 内 存 块 后 ，calloc0O 返 回 指向 这 块 内 存 起 始 处 的 指针 
(如 果 无 法 分 配 内 存 ， 则 返回 NULL ) 。 与 malloc0 不 同 ，calloc0O 会 将 已 
分 配 的 内 存 初始 化 为 0。 


下 面 是 callocO 的 一 个 使 用 范例 : 


struct { /* Some field definitions */ } myStruct; 
struct myStruct *p; 


p = calloc(1000, sizeof({struct myStruct)); 
if (p == NULL) 
errExit("calloc"); 


realloc() 函 数 用 来 调整 (通常 是 增加 ) 一 块 内 存 的 大 小 ， 而 此 块 内 
存 应 是 之 前 由 malloc 包 中 函数 所 分 配 的 。 








#include <stdlib.h> 


void *realloc(void *pir, size_t size); 


Returns pointer to allocated memory on success, or NULL on error 








参数 ptr 是 指 问 需要 调整 大 小 的 内 存 块 的 指针 。 参 数 size 指 定 押 需 调 
整 大 小 的 期 望 值 。 


如 果 成 功 ，realloc0 返 回 指 同 大 小 调整 后 内 存 块 的 指针 。 与 调用 前 
的 指针 相 比 ， 三 者 指 癌 的 位 置 可 能 不 同 。 如 果 发 生 错 误 ，realloc() 返 回 
NULL， 对 ptr 指 针 指 同 的 内 存 块 则 原封 不 动 (SUSV3 要 求 满足 这 一 约 
定 ) 。 


若 realloc0) 增 加 了 已 分 配 内 存 块 的 大 小 ， 则 不 会 对 额外 分 配 的 字 节 
进行 初始 化 。 


使 用 calloc0 或 reallocO 分 配 的 内 存 应 使 用 free0) 来 释放 。 





调用 realloc(ptr,0) 等 效 于 在 free(pt 之 后 调用 malloc(0)。 
看 ptr 为 NULL， 则 realloc(NULL, size) 相 当 于 调用 
malloc(size)。 


通常 情况 下 ， 当 增 大 已 分 配 内 存 时 ，realloc0 会 试图 去 合并 在 空闲 
列表 中 紧 随 其 后 电 且 大 小 满足 要 求 的 内 存 块 。 若 原 内 存 块 位 于 堆 的 顶 
部 ， 那 么 reallocO 将 对 堆 空 间 进行 扩展 。 如 果 这 块 内 存 位 于 堆 的 中 部 ， 
且 紧 邻 其 后 的 空闲 内 存 空间 大 小 不 足 ，realloc0 会 分 配 一 块 新 内 存 ， 并 
将 原 有 数据 复制 到 新 内 存 块 中 。 最 后 这 种 情况 最 为 常见 ， 还 会 占用 大 量 
CPU 资源 。 一 般 情 况 下 ， 应 尽量 避免 调用 realloc0)。 


既然 reallocO 可 能 会 移动 内 存 ， 对 这 块 内 存 的 后 续 引 用 就 必须 使 用 
~ : 返回 指针 。 可 以 用 realloc() 来 重新 定位 由 变量 ptr 指 同 的 内 存 
， 代 码 如 下 : 


nptr = realloc(ptr, newsize); 

if (nptr == NULL) { 
/* Handle error */ 

} else { /* realloc() succeeded */ 
ptr = nptr; 











本 例 并 没有 把 reallocO 的 返回 值 直 接 赋 给 ptr， 因 为 一 旦 调用 realloc0) 
失败 ， 那 么 ptr 会 被 置 为 NULL， 从 而 无 法 访问 现 有 内 存 块 。 


由 于 realloc() 可 能 会 移动 内 存 块 ， 任 何 指 问 该 内 存 块 内 部 的 指针 在 
调用 realloc0 之 后 都 可 能 不 再 可 用 。 仅 有 一 种 内 存 块 内 的 位 置 引 用 方法 
依然 有 效 ， 即 以 指 同 此 块 内 存 起 始 处 的 指针 再 加 上 一 个 偏 移 量 来 进行 定 
位 ， 这 将 在 48.6 节 中 详细 讨论 。 


分 配对 齐 的 内 存 : memalign() 和 posix_memalign() 
Wt ek E gO Sheri memalign() 的 目的 在 于 分 配 内 存 时 ， 起 


始 地 址 要 与 2 的 整数 次 蝴 边 界 对 齐 ， 该 特征 对 于 某 些 应 用 非常 有 用 “〔 例 
如 程序 清单 13-1) 。 








#include <malloc.h> 


void *memalign(size_t boundary, size_t size); 


Returns pointer to allocated memory on success, or NULL on error 





函数 memalign() 分 配 size 个 字 节 的 内 存 ， 起 始 地 址 是 参数 boundary 
的 整数 倍 ， 而 boundary 必 须 是 2 的 整数 次 虹 。 函 数 返 回 已 分 配 内 存 的 地 
HE 


函数 memalign0 并 非 在 所 有 UNIX 实 现 上 都 存在 。 大 多 数 提 供 
memalign() 的 其 他 UNIX 实 现 都 要 求 引用 <stdlib.h> 而 非 <malloc.h> 以 获得 
函数 声明 。 


SUSv3 并 未 纳入 memalign0， 而 是 规范 了 一 个 类 似 函 数 ， 名 为 
posix_memalign()。 该 函数 由 标准 委员 会 于 近期 创制 ， 只 是 出 现在 了 少 
数 UNIX 实 现 上 。 











#include <stdlib.h> 


int posix_memalign(void **memptr, size_t alignment, size_t size); 








Returns 0 on success, or a positive error number on error 








函数 posix_memalign(O) 与 nemalignO 存 在 以 下 两 方面 的 不 同 。 


。 已 分 配 的 内 存 地 址 通过 参数 memptr 返 回 。 

。 内 存 与 alignment 参 数 的 整数 倍 对 齐 息 ，alignment 必 须 是 
sizeof (void*) 《在 大 多 数 便 件 架 构 上 是 4 或 8 个 字 节 ) 与 2 的 整数 次 
需 两 者 间 的 乘积 。 


还 要 注意 该 函数 与 众 不 同 的 返回 值 ， 出 错时 不 是 返回 -1， 而 是 直接 
返回 一 个 错误 号 〈 即 通常 在 errmmo 中 返回 的 正 整 数 〉。 


如 果 SizeOf(void *) 为 4， 束 可 以 使 用 posix_memalign() 分 配 65536 字 
市 的 内 存 ， 并 与 4096 字 市 的 边界 对 齐 ， 代 码 如 下 : 














int s; 
void *memptr; 


s = posix_memalign(&memptr, 1024 * sizeof(void *), 65536); 


if (s b= 0) 
/* Handle error */ 


由 memalign() 或 posix_memalign0) 分 配 的 内 存 块 应 该 调用 free() 来 释 
放 。 


在 一 些 UNIX 实 现 中 ， 无 法 通过 调用 free() 来 释放 由 
memalign() 分 配 的 内 存 ， 因 为 此 类 memalign() 在 实现 时 使 用 
malloc() 来 分 配 内 存 块 ， 然 后 返回 一 个 指针 ， 指 同 该 块 内 已 
对 齐 的 适当 地 址 。glibc 的 memalignO) 则 不 受 此 限制 。 


7.2 在 堆栈 上 分 配 内 存 : alloca0 


和 malloc 函 数 包 中 的 函数 功能 一 样 ，alloca0 也 可 以 动态 分 配 内 存 ， 
不 过 不 是 从 堆 上 分 配 内 存 ， 而 是 通过 增加 栈 帧 的 大 小 从 堆栈 上 分 配 。 根 
据 定 义 ， 当 前 调用 函数 的 栈 帧 位 于 堆栈 的 顶部 ， 故 而 这 种 方法 是 可 行 
的 。 因 此 ， 帧 的 上 方 存在 扩展 空间 ， 只 需 修 改 堆 栈 指针 值 即 可 。 














#include <alloca.h> 


void *alloca(size t size); 


Returns pointer to allocated block of memory 











参数 size 指 定 在 堆栈 上 分 配 的 字 市 数 。 函 数 alloca() 将 指 癌 已 分 配 内 
存 块 的 指针 作为 其 返回 值 。 


不 需要 (实际 上 也 绝 不 能 ) 调用 free0 来 释放 由 alloca0 分 配 的 内 
存 。 同 样 ， 也 不 可 能 调用 realloc0) 来 调整 由 alloca0 分 配 的 内 存 大 小 。 


虽然 alloca0 不 是 SUSv3 的 一 部 分 ， 但 大 多 数 UNIX 实 现 都 提供 了 此 
函数 ， 因 而 也 具备 可 移植 性 。 





旧版 本 的 glibc 和 其 他 一 些 UNIX 实 现 〈 主 要 是 BSD 的 衍 
生 版 本 ) ， 要 获取 alloca0 声 明 需 引入 <stdlib.h> 而 非 


<alloca.h>。 


若 调 用 alloca(0) 造 成 堆栈 溢出 ， 则 程序 的 行为 无 法 预知 ， 特 别 是 在 没 
有 收 到 一 个 NULL 返 回 值 通知 错误 的 情况 下 。 (事实 上 ， 在 此 情况 下 ， 
可 能 会 收 到 一 个 SIGSEGV 信 和 号。 详情 参见 21.3 节 。 ) 


请 注意 ， 不 能 在 一 个 函数 的 参数 列表 中 调用 alloca()， 如 下 所 示 : 


func(x, alloca(size), z); /* WRONG! */ 


这 会 使 alloca() 分 配 的 堆栈 空间 出 现在 当前 函数 参数 的 空间 内 (函数 
参数 都 位 于 栈 帧 内 的 固定 位 置 ) 。 相 反 ， 必 须 采 用 这 样 的 代码 : 


void *y; 


y = alloca(size); 
func(x, y, z); 


使 用 alloca0 来 分 配 内 存 相 对 于 mallocO0 有 一 定 优势 。 其 中 之 一 是 ， 
alloca0 分 配 内 存 的 速度 要 快 于 malloc()， 因 为 编译 器 将 alloca() 作 为 内 联 
代码 处 理 ， 并 通过 直接 调整 堆栈 指针 来 实现 。 此 外 ，alloca(0) 也 不 需要 维 
护 空 闪 内 存 块 列表 。 


另 一 个 优点 在 于 ， 由 alloca0 分 配 的 内 存 随 栈 帧 的 移 除 而 目 动 释放 ， 
亦 即 当 调 用 alloca 的 函数 返回 之 时 。 之 所 以 如 此 ， 是 因为 函数 返回 时 所 
执行 的 代码 会 重 置 栈 指针 寄存 器 ， 使 其 指 回 前 一 帧 的 末尾 〈 即 ， 假 设 挫 
栈 回 下 增长 ， 则 指 辐 恰好 位 于 当前 栈 帧 起 始 处 之 上 的 地 址 ) =. HFE eR 
数 的 所 有 返回 路 径 中 都 无 需 确保 去 释放 所 有 的 已 分 配 内 存 ， 一 些 函 数 的 
编码 也 变 得 简单 得 多 。 


在 信号 处 理 程序 中 调用 longjmp() 〈6.8 节 ) 或 siglongjmp() (21.2.1 
节 ) 以 执行 非 局 部 跳 转 时 ，alloca0 的 作用 尤其 突出 。 此 时 ， 在 “起 跳 ” 函 
数 和 “ 沙 地 ”函数 之 间 的 函数 中 ， 如 果 使 用 了 malloc() 来 分 配 内 存 ， 要 想 
避免 内 存 泄漏 就 极其 困难 ， 甚 至 是 不 可 能 的 。 与 之 相反 ，alloca0 完 全 可 
以 避免 这 一 问题 ， 因 为 堆栈 是 由 这 些 调用 展开 的 ， 所 以 已 分 配 的 内 存 会 
被 自动 释放 所 。 














7.3 aa 


利用 malloc 函 数 族 ， 进 程 可 以 动态 分 配 和 释放 堆 内 存 。 在 讨论 这 些 
函数 的 实现 时 ， 描 述 了 程序 对 已 分 配 内 存 处 理 失当 的 种 种 情况 ， 还 点 出 
了 一 些 有 助 于 定位 此 类 错误 根源 的 调试 工具 。 








函数 alloca0) 能 够 在 堆栈 上 分 配 内 存 。 该 类 内 存 会 在 调用 alloca0 的 函 
数 返 回 时 自动 释放 。 


7.4 练习 


7-1. 修改 程序 清单 7-1 中 的 程序 Cfree_and_sbrk.c) ， 在 每 次 执行 
malloc() 后 打印 出 program break 的 当前 值 。 指 定 一 个 较 小 的 内 存 分 配 尺 
寸 来 运行 该 程序 。 这 将 证 明 malloc0) 不 会 在 每 次 被 调用 时 都 调用 sbrk0) 来 
调整 program break 的 位 置 ， 而 是 周期 性 地 分 配 大 块 内 存 ， 并 从 中 将 小 片 
内 存 返回 给 调用 者 。 


7-2. CAR) 实现 malloc() 和 free()。 














遵 作 者 邮件 嘱 改 动 原文 ， 据 称 此 为 编译 器 提高 内 存 访问 效率 
举措 之 一 。 


@ 译 者 注 : 详 见 http://en.wikipedia.org/wiki/Off-by-one_error。 


G@) 译 者 注 : 参见 图 7-3 堆 中 空 帮 内 存 块 与 已 分 配 内 存 块 的 “杂居 ”状态 ， 
此 处 应 指 与 ptr 指 辣 的 已 分 配 内 存 块 的 地 址 相 邻 的 空 闪 内存 块 。 


Oak: 简 而 言 之 ， 该 内 存 块 的 起 始 地 址 是 alignment 参 数 的 整数 倍 。 
OFRE: 通过 调整 栈 指 针 自 然 释放 了 栈 中 所 分 配 的 内 存 。 


第 8 章 用户 和 组 


每 个 用 户 都 拥有 一 个 唯一 的 用 户 名 和 一 个 与 之 相关 的 数值 型 用 户 标 
We CUID) 。 用 户 可 以 隶属 于 一 个 或 多 个 组 。 而 每 个 组 也 都 拥有 唯一 
的 一 个 名 称 和 一 个 组 标识 符 〈GID ) 。 


用 户 和 组 ID 的 主要 用 途 有 二 : 其 一 ， 确 定 各 种 系统 资源 的 所 有 权 ; 
其 二 ， 对 赋予 进程 访问 上 述 资 源 的 权限 加 以 控制 。 比 方 说 ， 每 个 文件 都 
属于 东 个 特定 的 用 户 和 组 ， 而 每 个 进程 也 拥有 相应 的 用 户 ID 和 组 ID 属 
性 ， 这 就 决定 了 进程 的 所 有 者 ， 以 及 进程 访问 文件 时 所 拥有 的 权限 ( 具 
体 信 息 请 参见 第 9 瘟 ) 。 


本 章 首 先 会 关注 用 于 定义 用 户 和 组 的 系统 文件 ， 随 后 将 描述 用 来 从 
这 些 系统 文件 中 获取 信息 的 库 函 数 。 最 后 ， 将 讨论 用 来 加 密 和 认证 登录 
密码 的 cryptO 函 数 。 








8.1 密码 文件 : /etc/passwd 


针对 系统 的 每 个 用 户 账 号 ， 系 统 密码 文件 /etc/passwd 会 专列 一 行进 
行 描述 。 每 行 都 包含 7 个 字段 ， 之 间 用 冒号 分 隔 ， 如 下 所 示 : 


mtk:x:1000:100:Michael Kerrisk:/home/mtk:/bin/bash 
接 下 来 ， 将 按 顺 序 介绍 这 7 个 字段 。 


。 登录 名 : 登录 系统 时 ， 用 户 所 必须 输入 的 唯一 名 称 。 通 常 ， 也 将 其 
称 为 用 户 名 。 此 外 ， 也 可 将 登录 名 视 为 人 类 可 该 的 〈 符 号 ) 标识 
符 ， 与 数字 用 户 标识 符 ( 稍 后 介绍 ， 相对 应 。 当 使 用 诸如 ]s(1) 这 样 
的 程序 去 显示 文件 的 所 有 权时 (比如 ， 执 行 ls -] 时 ) ， 会 显示 出 登 
录 名 ， 而 非 与 文件 关联 的 数值 型 用 户 ID。 

。 经 过 加 密 的 密码 : 该 字段 包含 的 是 经 过 加 密 处 理 的 密码 ， 长 度 为 13 
个 字符 ，8.5 节 会 对 此 做 深入 讨论 。 如 果 密 码 字 段 中 包含 了 任何 其 
他 字符 串 ， 特 别 是 ， 当 字符 串 长 度 超过 13 个 字符 时 ， 将 禁止 此 账户 
登录 ， 原 因 是 此 类 字符 串 不 能 代表 一 个 经 过 加 密 的 有 效 密码 。 不 
过 ， 请 注意 ， 要 是 启用 了 shadow 密 人 码 ( 这 是 常规 做 法 ) ， 系 统 将 会 
不 解析 该 字段 。 这 时 ，/etc/passwd 中 的 密码 字段 通常 会 包含 字 
BEX” 《当然 ， 也 可 以 是 任何 非 空 字 串 ) ， 而 经 过 加 密 处 理 的 密码 
实际 上 却 存储 到 shadow 密码 文件 中 (参见 8.2 节 )〉 。 寿 /etc/passwd 
中 密码 字段 为 空 ， 则 该 账户 登录 时 无 需 密码 (即便 启用 了 shadow 密 
码 ， 也 是 如 此 ) 。 





























本 章 假 定 对 密码 的 加 密 算 法 为 DES (数据 加 密 标 
准 ) ， 这 也 是 一 直 为 UNIX 所 广泛 使 用 的 密码 加 密 算法 。 还 
可 用 其 他 加 密 算法 (比如 ，MD5) 来 替代 DES， 针 对 输入 
生成 128 位 的 消息 摘要 (hash 的 一 种 ) 。 在 密码 (或 shadow 
密码 ) 文件 中 ， 该 消息 摘要 会 以 长 度 为 34 字 符 的 字符 串 形 
式 存储 。 


用 户 ID (UID) : 用 户 的 数值 型 ID 。 如 果 该 字段 的 值 为 0， 那 么 相 
应 账户 即 具 有 特权 级 权限 。 这 种 账号 一 般 只 有 一 个 ， 其 登录 名 为 

root。 在 Linux 2.2 或 更 早 的 版 本 中 ， 用 户 ID 为 16 位 值 ， 其 范围 为 0 一 
65535。 而 Linux 2.4 及 其 以 后 的 版 本 则 以 32 位 值 来 存储 用 户 ID， 因 
此 能 够 支持 更 多 的 用 户 数 。 














在 密码 文件 中 ， 人 允许 (但 不 常见 ) 同一 用 户 ID 拥有 多 
条 记录 ， 从 而 使 得 同一 用 户 ID 拥有 多 个 登录 名 。 如 此 一 
来 ， 多 个 用 户 便 能 以 不 同 密码 〈 登 录 ) 去 访问 相同 资源 
Chea, SCARS) 2 WEY, ATR te 4 LAK KH 
列 不 同 的 组 ID。 





组 ID (GID) : 用 户 属 组 中 首选 属 组 的 数值 型 ID。 关 于 用 户 与 属 组 
之 间 从 属 关 系 的 进一步 信息 ， 会 在 系统 组 文件 中 加 以 定义 。 

注释 : 该 字段 存放 关于 用 户 的 描述 性 文字 。 诸 如 finger(1) 之 类 的 各 
种 程序 会 显示 此 信息 

EAR: 用 户 登录 后 所 处 的 初始 路 径 。 会 以 该 字段 内 容 来 设置 
HOME 环境 变量 。 

登录 shell: 一 旦 用 户 登 录 ， 便 交 由 该 程序 控制 。 通 常 ， 访 程序 为 
shell 的 一 种 〈 比 如 ，bash) ， 但 也 可 以 是 其 他 任何 程序 。 如 果 该 字 
段 为 空 ， 那 么 登录 shell 默 认为 /bin/sh (Bourne shell) 。 会 以 该 字段 
值 来 设置 SHELL 环 境 变量 。 


在 单机 系统 中 ， 所 有 密码 信息 都 存储 在 /etcpasswd 文 件 中 中。 然 
而 ， 如 果 使 用 了 NIS (网 络 信息 系统 ) LDAP (轻型 目录 访问 协议 ) 
在 网 络 环境 中 分 发 密码 ， 那 么 部 分 密码 信息 可 能 会 由 远 端 系统 保存 。 只 
要 访问 密码 信息 的 程序 采用 的 是 本 章 稍 后 描述 的 函数 C getpwnam(), 
getpwuid() 等 ) ， 那 么 无 论 是 使 用 NIS 还 是 LDAP， 对 应 用 程序 来 说 都 是 
pert 烽 似 论断 同样 适用 于 本章 随后 几 节 所 讨论 的 shadow 密 人 码 文 件 和 
组 文 




















8.2 shadow 密码 文件 : /etc/shadow 


很 久 以 来 ，UNIX 一 直 在 /etc/passwd 中 维护 所 有 的 用 户 信息 ， 这 其 中 
包括 经 过 加 密 处 理 的 密码 。 但 这 一 举措 也 带 来 了 安全 问题 。 由 于 许多 非 
特权 级 别 系统 工具 需要 读 取 密 码 文件 中 的 其 他 信息 ， 密 码 文件 因而 不 得 
不 对 所 有 用 户 开 放 可 读 权限 。 这 就 为 密码 破解 工具 提供 了 可 乘 之 机 ， 它 
们 会 尝试 对 可 能 成 为 密码 的 大 量词 汇 〈 比 如 ， 字 和 典 中 的 标准 单词 式 人 
名 ) 进行 加 密 ， 然 后 再 将 结果 与 经 过 加 密 处 理 的 用 户 密 码 进行 比 对 。 作 
为 防范 此 类 攻击 的 手段 之 一 ，shadow 密 人 码 文件 /etc/shadow 应 运 而 生 。 其 
理念 是 用 户 的 所 有 非 敏感 信息 存放 于 人 人 可 读 ” 的 密码 文件 中 ， 而 经 过 
ne a earned ence eed 
读 取 。 


shadow 密 码 文 件 包 含有 登录 名 (用 来 匹配 密码 文件 中 的 相应 记 
录 ) 、 经 过 加 密 的 密码 ， 以 及 其 他 知 干 与 安全 性 相关 的 字段 。 
shadow(5) 手 册页 对 这 些 字 段 作 了 详细 描述 。 本 章 将 着 重 关 注 经 过 加 密 
的 密码 字段 ， 将 在 8.5 节 介绍 cryptO 库 函数 时 做 深入 讨论 。 


SUSv3 并 未 对 Shadow 密 码 作 出 规范 ， 也 并 非 所 有 的 UNIX 实 现 都 提 
供 这 一 特性 ， 即 使 是 都 支持 这 一 特性 的 各 种 实现 ， 在 关于 API 和 文件 位 
置 上 的 细节 也 不 尽 相 同 。 

















8.3 组 文件 : /etc/group 


出 于 各 种 管理 方面 的 考虑 ， 尤 其 是 要 控制 对 文件 和 其 他 系统 资源 的 
访问 ， 对 用 户 进 行 编组 极 具 实 用 价值 。 


对 用 户 所 属 各 组 信息 的 定义 由 两 部 分 组 成 : 一 ， 密 人 码 文件 中 相应 用 
户 记录 的 组 ID 字段 ; 二， 组 文件 列 出 的 用 户 所 属 各 组 。 这 种 将 信息 分 置 
于 两 个 文件 中 的 奇怪 现状 ， 自 有 其 历史 渊源 。 在 早期 UNIX 实 现 中 ， 一 
个 用 户 同 时 只 能 从 属于 一 个 组 。 登 录 时 ， 用 户 最 初 的 属 组 关系 由 密码 文 
件 的 组 ID 字 上 段 决定 ， 在 此 之 后 ， 可 使 用 newgrp(1) 命 令 去 改变 用 户 属 
组 ， 但 需要 用 户 提供 组 密码 〈 若 该 组 处 于 密码 的 保护 之 下 ) 。4.2BSD 引 
入 了 并 发 多 属 组 Cnultiple simultaneous group memberships) 的 概念 ， 
POSIX.1-1990 随 后 对 其 进行 了 标准 化 。 采 用 这 种 方案 ， 组 文件 会 列 出 每 
个 用 户 所 属 的 其 他 属 组 。 (groups(1) 命 令 会 显示 当前 shell 进 程 所 属 各 组 
的 信息 ， 如 果 将 一 个 或 多 个 用 户 名 作为 其 命令 行 参数 ， 那 么 该 命令 将 显 
示 相 应 用 户 所 属 各 组 的 信息 。) 


系统 中 的 每 个 组 在 组 文件 /etc/group 中 都 对 应 着 一 条 记录 。 每 条 记录 
包含 4 个 字段 ， 之 间 以 冒号 分 隔 ， 如 下 所 示 : 


users:x:100: 
jambit:x:106:claus,felli,frank,harti,markus,martin,mtk, paul 


本 节 将 依次 介绍 这 4 个 字段 。 


。 组 名 : 组 的 名 称 。 与 密码 文件 中 的 登录 名 相似 ， 可 以 将 其 视 为 与 数 
值 型 组 标识 符 相 对 应 的 人 类 可 读 (符号) 标识 符 。 

。 经 过 加 和 密 处 理 的 密码 ;组 密码 属于 非 强制 特性 ， 对 应 于 该 字段 。 随 
着 多 属 组 的 出 现 ， 当 今 的 UNIX 系 统 已 经 很 少 使 用 组 密码 。 不 过 ， 
依然 可 以 为 组 设置 密码 (特权 用 户 可 使 用 gpasswd 命 令 来 设置 组 密 
m) 。 如 果 用 户 并 非 某 组 的 成 员 ， 那 么 在 使 用 newgrp(1) 启 动 新 shell 
之 前 《新 shell 的 属 组 包括 该 组 ) ， 就 需要 用 户 提供 此 密码 。 如 果 启 
用 了 shadow 密 码 ， 那 么 系统 将 不 解析 该 字段 (这 时 ， 该 字段 通常 只 

含 字母 x， 但 也 允许 其 内 容 为 包括 空 字 符 串 在 内 的 任何 字符 
串 ) ， 而 经 过 加 密 的 密码 实际 上 则 存放 于 shadow 组 文 
件 /etc/gshadow 中 ， 仪 供 具有 特权 的 用 户 和 程序 访问 。 组 密码 的 加 
密 方 式 类 似 于 用 户 密 码 (8.55) - 

















e ZHID (GID) : 该 组 的 数值 型 ID 。 正 常情 况 下 ， 对 应 于 组 ID 号 0， 
只 定义 一 个 名 为 root 的 组 “〈 与 /etcpasswd 中 用 户 ID 为 0 的 记录 相 
近 ) 。 在 Linux 2.2 或 更 早 的 版 本 中 ， 组 ID 为 16 位 值 ， 其 范围 为 0 一 
65535; 而 目 Linux 2.4 以 后 的 版 本 则 以 32 位 值 来 存储 组 ID。 

。 用 户 列 表 : 属于 该 组 的 用 户 名 列表 ， 之 间 以 逗号 分 隔 。 (这 份 列表 
包含 的 是 用 户 名 ， 而 非 用 户 ID， 原 因 在 于 如 前 所 述 ， 在 密码 文件 的 
各 条 记录 中 ， 用 户 ID 并 不 一 定 唯 一 。) 


为 了 证 明 用 户 avr 是 users、staff 以 及 teach 各 组 的 成 员 ， 应 能 从 密码 
文件 中 查看 到 如 下 记录 : 


avr:X:1001:100:Anthony Robins:/home/avr:/bin/bash 


且 在 组 文件 中 应 有 如 下 记录 : 


users:x:100: 
staff:x:101:mtk, avy,martinl 
teach:x:104:avr,rlb,alc 


在 密码 文件 记录 的 第 4 个 字段 中 ， 组 ID 为 100， 这 说 明 avr 是 users 组 


的 成 员 之 一 。 其 他 属 组 关系 ， 则 见 诸 于 组 文件 内 包含 avr 的 各 条 相关 记 
Ke 

















8.4 获取 用 户 和 组 的 信息 


本 节 所 要 介绍 的 库 了 图 数 ， 其 功能 包括 从 密码 文件 、shadow 密 码 文件 
和 组 文件 中 获取 单条 记录 ， 以 及 扫描 上 述 各 个 文件 的 所 有 记录 。 


从 密码 文件 获取 记录 
函数 getpwnam0 和 getpwuidO 的 作用 是 从 密码 文件 中 获取 记录 。 





#include <pwd.h> 
struct passwd *getpwnam(const char *name); 
struct passwd *getpwuid(uid t uid); 


Both return a pointer on success, or NULL on error; 
see main text for description of the “not found” case 











为 name 提 供 一 个 登录 名 ，getpwnam0 函 数 就 会 返回 一 个 指针 ， 指 回 
如 下 类 型 的 结构 ， 其 中 包含 了 与 密码 记录 相对 应 的 信息 : 


struct passwd { 





char *pw name; /* Login name (username) */ 

char *pw passwd; /* Encrypted password */ 

uid t pw_uid; /* User ID */ 

gid t pw gid; /* Group ID */ 

char *pw_gecos; /* Comment (user information) */ 

char *pw_dir; /* Initial working (home) directory */ 


char *pw shell; /* Login shell */ 


passwd 结 构 的 pw_gecos 和 pw_passwd FRERE SUSv3 中 定义 ， 
但 获得 了 所 有 UNIX 实 现 的 支持 。 仅 当 未 启用 shadow 密 码 的 情况 下 ， 
pw_passwd 字 上段 才 会 包含 有 效 信息 。 要 确定 是 否 局 用 了 shadow 和 密码 ， 最 
简单 的 编程 方法 是 在 成 功 调用 getpwnam() 之 后 ， 紧 接着 调用 getspnam() 
〈 稍 后 介绍 ) ， 并 观察 后 者 是 否 能 为 同一 用 户 名 返回 一 条 shadow 密 码 记 
录 。 革 些 其 他 实现 还 会 在 该 结构 中 定义 额外 的 非 标准 字段 。 














pw_gecos 字段 ， 其 命名 源 于 早期 的 UNIX 实现 ， 该 字 











段 所 含 信息 原 用 于 与 运行 GECOS (通用 电器 综合 操作 系 
统 ) 的 计算 机 进行 通信 。 虽 然 这 一 用 途 早 已 过 时 ， 但 其 名 
称 却 得 以 沿用 至 今 ， 只 是 将 字段 用 途 转 而 用 于 记录 用 户 的 
相关 信息 。 


函数 getpwuid0 的 返回 结果 与 getpwnam0 完 全 一 致 ， 但 会 使 用 提供 
给 uid 参 数 的 数值 型 用 户 ID 作为 查询 条 件 。 


getpwnam() 和 getpwuid() 均 会 返回 一 个 指针 ， 指 同一 个 静态 分 配 的 


结构 。 对 此 二 者 (或 是 下 文 描述 的 getpwent() 函 数 〉 的 任何 一 次 调用 都 
会 改写 该 数据 结构 。 


由 于 getpwnam() 和 getpwuid() 返 回 的 指针 指向 由 静态 
分 配 而 成 的 内 存 ， 故 而 二 者 都 是 不 可 重 入 的 (not 
reentrant) 。 实 际 上 ， 人 情况 甚至 要 更 加 复杂 ， 因 为 返回 的 
passwd 结 构 还 包含 了 指向 其 他 信息 (比如 ，pw_name) 的 
指针 ， 而 这 些 信息 同样 也 是 由 静态 分 配 而 成 的 。21.1.2 节 会 
解释 可 重 入 Creentrancy) 概念 。 类 似 的 论断 同样 适用 于 
getgrmam0 和 getgrgid0 函 数 〈 稍 后 介绍 ) 。 





SUSv3 为 该 组 函数 定义 了 与 之 等 价 的 一 组 可 重 入 函 
数 : getpwnam_r()、getpwuid_r()、getgmam_r() 以 及 
getgrgid_r()。 其 参数 包括 passwd (group) 结构 ， 以 及 一 
个 缓冲 区 。 这 一 缓冲 区 专门 用 来 保存 passwd(group) 结 构 中 
各 字段 所 指向 的 其 他 结构 。 可 使 用 系统 函数 
sysconf(_SC_GETPW_R_SIZE_MAX) 〈 若 为 与 组 相关 的 函 
数 ， 则 使 用 sysconf(_SC_GETGR_R_SIZE_MAX)) ， 来 获 








得 此 缓冲 区 所 需 的 字 节 数 。 以 上 函数 的 详细 信息 请 查阅 手 
册页 。 





SUSv3 规 定 ， 如 果 在 passwd 文件 中 未 发 现 匹 配 记录 ， 那 么 
getpwnam() 和 getpwuid0 将 返回 NULL， 且 不 会 改变 errno。 这 意味 着 ， 
可 以 使 用 如 下 代码 ， 对 出 错 和 “未 发 现 匹 配 记录 ”这 两 种 情况 加 以 区 分 : 


struct passwd *pwd; 





errno = 0; 
pwd = getpwnam(name) ; 
if (pwd == NULL) { 
if (errno == 0) 
/* Not found */; 
else 
/* Error */; 


然而 ， 不 少 UNIX 实 现在 这 一 点 上 并 未 遵守 SUSv3 规 范 。 如 果 未 能 
在 passwd 文 件 中 发 现 一 条 匹配 记录 ， 那 么 两 个 函数 均 会 返回 NULL, FF 
将 errno 设置 为 非 零 值 ， 比 如 ，ENOENT 或 ESRCH。 针 对 这 种 情况 ，2.7 
版 本 之 前 的 glibc 会 产生 ENOENT 错 误 ， 而 从 2.7 版 本 开始 ，glibc 开 始 遵 
守 SUSvV3 规 范 。 实 现 之 间 之 所 以 存在 上 述 差 异 ， 部 分 原因 是 由 于 
POSIX.1-1990 不 但 不 要 求 两 个 函数 在 出 错时 设置 ermo， 而 且 还 允许 它们 
针对 “未 发 现 匹 配 记 录 ” 的 情况 去 设置 errmmo。 忆 而 言 之 ， 在 使 用 这 两 个 函 
数 时 ， 若 要 区 分 上 述 这 两 种 情况 (出 错 和 “未 发 现 匹 配 记录 ”) ， 实 际 上 
将 无 法 保证 代码 的 可 移植 性 。 


从 组 文件 获取 记录 
函数 getgrnam0 和 getgrgid0 的 作用 是 从 组 文件 中 获取 记录 。 

















#include <grp.h> 


struct group *getgrnam(const char *name); 
struct group *getgrgid(gid t gid); 


Both return a pointer on success, or NULL On error; 
see main text for description of the “not found” case 








函数 getgrnam0 和 getgrgid0 分 别 通过 组 名 和 组 ID 来 查找 属 组 信息 。 

两 个 函数 都 会 返回 一 个 指针 ， 指 问 如 下 类 型 结构 : 
struct group { 

char *gr_name; /* Group name */ 

char *gr passwd; /* Encrypted password (if not password shadowing) */ 

gid t gr gid; /* Group ID */ 

char **gr mem; /* NULL-terminated array of pointers to names 

of members listed in /etc/group */ 


SUSv3 并 未 就 group 结 构 中 的 gr_passwd 字 段 做 明确 定 
义 ， 但 大 多 数 UNIX 实 现 都 支持 该 字段 。 


与 前 述 密码 相关 函数 一 样 ， 对 这 两 个 函数 的 任何 一 次 调用 都 会 改 号 
ZEW AR 


如 果 未 能 在 group 文 件 中 发 现 匹 配 记录 ， 那 么 这 两 个 函数 的 行为 变 
化 与 前 述 getpwnam0 和 getpwuid0 函 数 相同 马 。 


程序 示例 


对 本 节 所 述 的 函数 来 襄 ， 最 常见 的 用 法 之 一 是 在 符号 型 用 户 名 和 组 
名 与 数值 型 D 之 间 进 行 相互 转换 。 程 序 清单 8-1 以 userNameFromId()、 
userlIdFromName(). groupNameFromld() LA Æ groupIdFromName()ix 4^ eI 
数 的 形式 ， 演 示 了 上 述 转 换 。 为 方便 调用 ，userIdFromName() 和 
groupIdFromName() 还 允许 name 参 数 接受 ( 纯 ) 数值 的 字符 串 形式 9，。 

对 于 这 种 情况 ， 会 直接 将 字符 串 转 换 为 数字 返回 给 调用 者 。 在 本 书后 面 
的 一 些 程序 实例 中 ， 还 会 用 到 这 几 个 函数 。 


程序 清单 8-1: 在 用 户 名 /组 名 和 用 户 ID/ 组 ID 之 间 互 相 转换 的 函数 









































users_groups/ugid_functions.c 


#include <pwd.h> 
#include <grp.h> 
#include <ctype.h> 


#include "ugid_functions.h" /* Declares functions defined here */ 

char * /* Return name corresponding to ‘uid’, or NULL on error */ 
userNameFromId(uid t uid) 

{ 


struct passwd *pwd; 


pwd = getpwuid(uid); 
return (pwd == NULL) ? NULL : pwd->pw name; 


} 

uid_t /* Return UID corresponding to ‘name’, or -1 on error */ 
userIdFromName(const char *name) 

{ 


struct passwd *pwd; 
uid t u; 
char *endptr; 


if (name == NULL || *name == '\o') /* On NULL or empty string */ 


return -1; /* return an error */ 
u = strtol(name, &endptr, 10); /* As a convenience to caller */ 
if (*endptr == '\o') /* allow a numeric string */ 
return u; 


pwd = getpwnam(name); 
if (pwd == NULL) 
return -1; 


return pwd->pw uid; 


} 


char * /* Return name corresponding to ‘gid', or NULL on error */ 
groupNameFromId{gid t gid) 


struct group *grp; 


grp = getgrgid(gid); 
return (grp == NULL) ? NULL : grp->gr_name; 


gid t /* Return GID corresponding to 'name', or -1 on error */ 
groupIdFromName(const char *name) 
{ 


struct group *grp; 
gid_t g; 
char *endptr; 


if (name == NULL || *name == '\o') /* On NULL or empty string */ 


return -1; /* return an error */ 
g = strtol(name, &endptr, 10); /* As a convenience to caller */ 
if (*endptr == '\o') /* allow a numeric string */ 
return g; 


grp = getgrnam(name); 
if (grp == NULL) 
return -1; 


return grp->gr gid; 


users _groups/ugid_functions.c 


扫描 密码 文件 和 组 文件 中 的 所 有 记录 


函数 setpwentO0、getpwentO0 和 endpwentO 的 作用 是 按 顺 序 扫描 密码 文 
件 中 的 记录 。 








#include <pwd.h> 


struct passwd *getpwent(void); 
Returns pointer on success, or NULL on end of sircam or error 


void setpwent(void); 
void endpwent (void) ; 











函数 getpwent0 能 够 从 密码 文件 中 逐条 返回 记录 ， 当 不 再 有 记录 
© (或 出 错 ) 时 ， 该 函数 返回 NULL。getpwent() 一 经 调用 ， 会 自动 打开 
密码 文件 。 当 密码 文件 处 理 完毕 后 ， 可 调用 endpwent() 将 其 关闭 。 


可 使 用 以 下 代码 过 历 整 个 密码 文件 ， 并 打印 出 登录 名 和 用 户 ID。 


struct passwd *pwd; 


while ((pwd = getpwent()) != NULL) 
printf("%-8s %5ld\n", pwd->pw_name, (long) pwd->pw_uid); 


endpwent(); 


如 果 需 要 让 后 续 的 getpwentO 调 用 《也 许 是 在 程序 的 其 他 代码 中 ， 
也 许 是 在 所 调用 的 其 他 库 函 数 中 ， 该 函数 再 次 出 现 ) 再 次 打开 密码 文件 
并 重 局 扫描 过 程 ， em de 此 外 ， 如 果 对 该 
文件 处 理 到 中 途 时 ， 还 可 以 调用 setpwent0 函 数 重 返 文件 起 始 处 。 


疯 数 getgrent()、setgrent() 和 endgrent() 针 对 组 文件 执行 类 似 的 任务 。 


由 于 这 3 个 消 数 与 前 述 的 密 码 文件 函数 功能 相似 ， 故 而 其 函数 原型 也 就 
不 再 列 出 ， 详 细 信 息 请 参考 手册 页 。 


从 shadow 密 码 文件 中 获取 记录 


下 列 函 数 的 作用 包括 从 shadow 密 码 文 件 中 获取 个 别 记 录 ， 以 及 扫描 
该 文件 中 的 所 有 记录 。 








#include <shadow.h> 


struct spwd *getspnam(const char *name); 
Returns pointer on success, or NULL on not found or crror 
struct spwd *getspent(void); 
Returns pointer on success, or NULL on end of stream or error 


void setspent(void); 
void endspent(void); 











由 于 上 述 函 数 在 操作 上 类 似 于 相应 的 密码 文件 函数 ， 故 而 此 处 对 它 
们 的 介绍 也 就 点 到 为 止 。 (上述 函数 既 未 在 SUSv3 中 明确 定义 ， 也 未 获 
得 所 有 UNIX 实 现 的 支持 。) 


函数 getspnam0 和 getspentO 会 返回 指 同 spwd 类 型 结构 的 指针 。 该 结 
构 的 形式 如 下 : 


struct spwd { 
char *sp namp; /* Login name (username) */ 
char *sp pwdp; /* Encrypted password */ 


/* Remaining fields support “password aging", an optional 
feature that forces users to regularly change their 
passwords, so that even if an attacker manages to obtain 
a password, it will eventually cease to be usable. */ 


long sp_lstchg; /* Time of last password change 

(days since 1 Jan 1970) */ 
long sp_min; /* Min. number of days between password changes */ 
long sp max; /* Max. number of days before change required */ 
long sp_warn; /* Number of days beforehand that user is 

warned of upcoming password expiration */ 
long sp_inact; /* Number of days after expiration that account 

is considered inactive and locked */ 
long sp expire; /* Date when account expires 


(days since 1 Jan 1970) */ 
unsigned long sp flag; /* Reserved for future use */ 


}; 
在 程序 清单 8-2 中 ， 将 会 演示 对 getspnam() 的 使 用 。 





8.5 密码 加 密 和 用 户 认 证 


某 些 应 用 程序 会 要 求 用 户 对 自身 进行 认证 ， 通 常会 采取 用 户 名 ( 登 
录 名 ) /密码 的 认证 方式 。 出 于 这 一 目的 ， 应 用 程序 可 能 会 维护 其 自 有 
的 用 户 名 和 密码 数据 库 。 然 而 ， 或 许 是 由 于 势 所 必然 ， 或 许 是 为 了 方便 
起 见 ， 有 时 需要 让 用 户 输入 标准 的 用 户 名 /密码 〈 定 义 于 /etc/passwd 
和 /etc/shadow 之 中 ) > 〈 本 节 的 剩余 部 分 将 假定 系统 启用 了 shadow 密 
码 ， 经 过 加 密 处 理 的 密码 也 因此 存储 于 /etc/shadow 中 。) 需要 登录 到 远 
程 系统 的 网 络 应 用 程序 ， 诸 如 ssh 和 ftp， 就 是 此 类 程序 的 典范 ， 必 须 按 
标准 的 login 程 序 那样 ， 对 用 户 名 和 密码 加 以 验证 。 


由 于 安全 方面 的 原因 ，UNIX 系统 采用 单 问 加 密 算法 对 密码 进行 加 
密 ， 这 意味 着 由 密码 的 加 密 形 式 将 无 法 还 原 出 原始 密码 。 因 此 ， 验 证 候 
选 密码 的 唯一 方法 是 使 用 同一 算法 对 其 进行 加 密 ， 并 将 加 密 结 果 与 存储 
于 /etc/shadow 中 的 密码 进行 匹配 。 加 密 算 法 封装 于 crypt0 函 数 之 中 。 


























#define XOPEN SOURCE 
#include <unistd.h> 
char *crypt(const char *key, const char *salt); 


Returns pointer to statically allocated string containing 
encrypted password on success, or NULL on error 








crYyptO 算 法 会 接受 一 个 最 长 可 达 8 字 符 的 密 钥 〈 即 密码 ) ， 并 施 之 
DASE INA SZ (DES) 的 一 种 变 体 。salt 参 数 指 同一 个 两 字符 的 字符 
P, HRM AE) DES 算 法 ， 设 计 该 技术 ， 意 在 使 得 经 过 加 密 的 密 
码 更 加 难以 破解 。 该 函数 会 返回 一 个 指针 ， 指 向 长 度 为 13 个 字符 的 字符 
串 ， 该 字符 串 为 静态 分 配 而 成 ， 内 容 即 为 经 过 加 密 处 理 的 密码 。 








DES 的 详细 信息 请 参 
http://www. itLnist.gov/fipspubs/fip46-2.htm. WAT ATA, 
除 DES 以 外 ， 也 可 以 使 用 其 他 的 加 密 算 法 。 例 如 ， 使 用 
MD5 算 法 可 以 生成 一 个 34 字 符 的 字符 串 ， 其 首 字符 为 美元 


符号 ($) ， 这 便于 让 crypt() 将 DES 加 密 密 码 和 MD5 加 密 密 
码 区 分 开 来 。 





在 关于 密码 加 密 的 讨论 中 ， 本 书 对 “加 密 "一 词 的 使 用 
相对 宽松 。 确 切 说 来 ，DES 会 以 给 定 的 密码 字符 囊 作为 加 
密 密 钥 ， 编 码 得 出 固定 位 长 的 字符 串 ， 而 MD5 则 是 一 种 复 
杂 的 哈 希 函数 。 以 上 两 种 方法 其 实 殊途同归 ， 对 和 输入 密码 
的 加 密 变 换 既 不 可 逆 又 难以 破解 。 








salt 参 数 和 经 过 加 密 的 密码 ， 其 组 成 成 员 均 取 自 同一 字符 集合 ， 范 
围 在 [a-zA-Z0-9/.] 之 间 ， 共 计 64 个 字符 。 因 此 ， 两 个 字符 的 salt 参 数 可 使 
加 密 算 法 产生 4096 (64x64) 种 不 同 变 化 。 这 意味 着 ， 预 先 对 整 部 字典 
进行 加 密 ， 再 以 其 中 的 每 个 单词 与 经 过 加 密 处 理 的 密码 进行 比 对 的 做 法 
并 不 可 行 ， 破 解 程序 需要 对 照 字 典 的 4096 种 加 密 版 本 来 检查 密码 。 


由 cryptO 所 返回 的 经 过 加 密 的 密码 中 ， 头 两 个 字符 是 对 原始 Salt 值 的 
拷贝 。 也 就 是 说 ， 加 密 候 选 密码 时 ， 能 够 从 已 加 密 密 码 (存储 
于 /etc/shadow 内 ) 中 获取 salt 值 。〔 加 密 新 密码 时 ，passwd(1) 这 样 的 程 
序 会 生成 一 个 随机 salt 值 。〉 事 实 上 ， 在 salt 字 符 串 中 ， 只 有 前 两 个 字符 
对 cryptO 函 数 有 意义 。 因 此 ， 可 以 直接 将 已 加 密 密 码 指定 为 salt 参 数 。 


要 想 在 Linux 中 使 用 crypt()， 在 编译 程序 时 需 开 启 -lcrypt 选 项 ， 以 便 
程序 链接 crypt 库 o 


程序 示例 


程序 清单 8-2 演 示 了 如 何 使 用 crypt0 来 验证 用 户 。 该 程序 首先 读 取 用 
户 名 ， 然 后 会 获取 相应 的 密码 记录 以 及 (如 开启 了 shadow 密 码 功 能 
shadow 密 码 记录 。 大 未 能 发 现 密码 记录 ， 或 程序 没有 权限 读 取 shadow 密 
码 文件 (需要 超级 用 户 权 限 ， 或 具有 shadow 组 成 员 资 格 ) ， 该 程序 会 打 
ee ee ee Oe aN 
户 密码 。 



































#define BSD SOURCE 
#include <unistd.h> 


char *getpass(const char *prompt); 


Returns pointer to statically allocated input password string 
on success, or NULL on error 








getpass() 函 数 首先 会 屏蔽 回 显 功能 ， 并 停止 对 终端 特殊 字符 的 处 理 
(诸如 中 断 字 符 ， 一 般 为 Control-C) 。 【第 62 章 将 论述 如 何 更 改 这些 终 
imi. ) 然后 ， 该 函数 会 打印 出 prompt 所 指 回 的 字符 串 ， 读 取 一 行 输 
入 ， 返 回 以 NULL 结 尾 的 输入 字符 串 〈 和 剥离 尾部 的 换行 符 ) 作为 函数 结 
果 。【〔 该 字符 串 由 静态 分 配 而 成 ， 故 而 后 续 对 getpass() AY VHS% a 
原 有 内 容 。) 返回 结果 之 前 ，getpass() 会 将 终端 设置 还 原 。 


使 用 getpass0) 读 取 密 码 之 后 ， 程 序 清单 8-2 所 示 程 序 会 对 密码 进行 验 
证 一 一 使 用 cryptO0 加 密 密 码 ， 并 将 结果 与 shadow 密码 文件 中 经 过 加 密 
的 密码 记录 进行 比 对 。 若 两 者 匹配 ， 则 显示 用 户 ID， 如 下 所 示 : 














$ su Need privilege to read shadow password file 


Password: 

# ./check_password 
Username: mtk 
Password: 
Successfully authenticated: UID=1000 


We type in password, which is not echoed 


程序 清单 8-2 中 ， 以 调用 
sysconf(_SC_LOGIN_NAME_MAX) 的 返回 值 作为 存放 用 户 
名 字符 串 数 组 的 大 小 ， 该 调用 获取 了 主机 系统 上 用 户 名 字 
符 串 的 最 大 长 度 。11.2 节 将 介绍 SysconfO 的 使 用 。 

















程序 清单 8-2: 根据 shadow 密 码 文 件 验证 用 户 








users_groups/check_password.c 


#tdefine _BSD_SOURCE /* Get getpass() declaration from <unistd.h> */ 
i#tdefine XOPEN SOURCE /* Get crypt() declaration from <unistd.h> */ 
#include <unistd.h> 

#include <limits.h> 

#include <pwd.h> 

#include <shadow.h> 

#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
{ 
char *username, *password, *encrypted, *p; 
struct passwd *pwd; 
struct spwd *spwd; 
Boolean authOk; 
size_t len; 
long lnmax; 


lnmax = sysconf(_SC LOGIN NAME MAX); 
if (lnmax == -1) /* If limit is indeterminate */ 
Inmax = 256; /* make a guess */ 


username = malloc(1nmax); 
if (username == NULL) 


errExit("malloc"); 


printf("Username: "); 


fflush(stdout) ; 
if (fgets(username, Inmax, stdin) == NULL) 
exit(EXIT_FAILURE); /* Exit on EOF */ 
len = strlen(username) ; 
if (username[len - 1] == ‘\n') 
username[len - 1] = '\0'; /* Remove trailing '\n' */ 


pwd = getpwnam(username) ; 
if (pwd == NULL) 
fatal("couldn't get password record"); 
spwd = getspnam(username) ; 
if (spwd == NULL && errno == EACCES) 
fatal("no permission to read shadow password file"); 


if (spwd != NULL) /* If there is a shadow password record */ 
pwd->pw_passwd = spwd->sp_pwdp; /* Use the shadow password */ 


password = getpass("Password: "); 

/* Encrypt password and erase cleartext version immediately */ 
encrypted = crypt(password, pwd->pw passwd); 

for (p = password; *p != '\o'; ) 


*p++ = ‘\0'; 


if (encrypted == NULL) 
errExit("crypt"); 


authOk = strcmp(encrypted, pwd->pw passwd) == 0; 
if (JauthOk) { 
printf("Incorrect password\n") ; 


exit (EXIT_FAILURE) ; 
} 


printf("Successfully authenticated: UID=%ld\n", (long) pwd->pw_uid); 
/* Now do authenticated work... */ 


exit(EXIT SUCCESS); 


users_groups/check_password.c 


程序 清单 8-2 展 示 了 一 个 安全 要 点 。 读 取 密 码 的 程序 应 立即 加 密 密 
码 ， 并 尽快 将 密码 的 明文 从 内 存 中 抹 去 。 只 有 这 样 ， 才 能 基本 杜绝 如 下 
事件 的 发 生 : 恶意 之 徒 借 程 序 骨 尝 之 机 ， 读 取 内 核 转 储 文件 以 获取 密 
码 。 





仍 有 可 能 采用 其 他 方法 曝光 未 经 加 密 的 密码 。 例 如 ， 
如 果 包 含 密码 的 虚拟 内 存 页 执行 了 换 出 操作 ， 那 么 特权 级 
程序 束 能 交换 文件 中 读 取 密码 。 此 外 ， 拥 有 足够 权限 的 进 
程 可 通过 读 取 /dev/mem (虚拟 设备 之 一 ， 将 计算 机 物理 内 
存 表示 为 有 序 字 节 流 ) ， 来 尝试 发 现 密码 。 











SUSv2 将 getpass0 函 数 标记 为 LEGACY， 并 特别 指出 该 
函数 名 容易 产生 误导 ， 且 其 所 提供 的 功能 无 论 在 何 种 情况 
下 都 极 易 于 实现 。SUSv3 据 弃 了 getpassO0， 但 在 大 多 数 
UNIX 实 现 中 依然 保留 了 对 它 的 文 持 。 


8.6 总结 


每 个 用 户 都 有 一 个 唯一 的 用 户 名 和 一 个 与 之 对 应 的 数值 型 用 户 ID。 
用 户 可 以 隶属 于 一 个 或 多 个 组 ， 每 个 组 都 有 一 个 唯一 的 名 称 和 一 个 与 之 
对 应 的 数字 标识 符 。 这 些 标识 符 的 主要 用 途 在 于 确立 各 种 系统 资源 〈 比 
如 ， 文 件 ) 的 所 有 权 和 访问 这 些 资源 的 权限 。 


用 户 名 和 ID 在 /etcpasswd 文 件 中 加 以 定义 ， 该 文件 也 包含 有 头 用户 
的 其 他 信息 。 用 户 的 属 组 则 由 /etc/passwd 和 /etc/group 文 件 中 的 相关 字段 
来 定义 。 还 有 一 个 只 能 由 特权 级 进程 所 读 取 的 文件 /etc/shadow， 其 作用 
在 于 将 敏感 的 密码 信息 与 /etc/passwd 中 共用 的 用 户 信 息 分 离开 来 。 系 统 
还 提供 有 不 同 的 库 函 数 ， 用 于 从 上 述 各 个 文件 中 获取 信息 。 


crYptO 函 数 加 密 密 码 的 方式 与 标准 的 login 程 序 相 同 ， 这 对 需要 认证 
用 户 的 程序 来 说 极为 有 用 。 














8.7 练习 


8-1. 执行 下 列 代 码 时 ， 将 会 发 现 ， 尽 管 这 两 个 用 户 在 密码 文件 中 
但 该 程序 的 输出 还 是 会 将 同一 个 数字 显示 两 次 。 请 问 为 
“a? 


printf("%ld %ld\n", (long) (getpwnam("avr")->pw_uid), 
(long) (getpwnam("tsr")->pw_uid)); 


8-2. 使 用 setpwent()、getpwent() 和 endpwent() 来 实现 getpwnam()。 








OMe: 此 处 有 误 ， 未 考虑 启用 shadow 密 码 的 情况 。 
QZP: 该 结构 也 是 由 静态 分 配 而 成 。 


OFRE: 换言之 ， 区 分 出 错 和 “未 发 现 匹 配 记录 ”情况 的 编程 手法 也 与 
之 类 似 。 


译 者 注 : 例如 “123”。 
ORHI: 即 抵达 流 末 端 时 。 





第 9 章 ”进程 凭证 


每 个 进程 都 有 一 套用 数字 表示 的 用 户 IDH (UID) 和 组 ID(GID)。 有 
时 ， 也 将 这 些 ID 称 之 为 进程 任 证 。 有 具体 如 下 所 示 。 


e 实际 用 户 ID Creal user ID) 和 实际 组 ID Creal group ID ) 。 

。 有 效用 户 ID (effective user ID) 和 有 效 组 ID (effective group 

ID) 。 

保存 的 set-user-ID (saved set-user-ID) 和 保存 的 set-group-ID (saved 

set-group-ID) 。 

。 文件 系统 用 户 ID Cfile-system user ID) 和 文件 系统 组 ID Cfile- 
system group ID) (Linux 专 有 ) 。 

。 辅助 组 ID。 


本 章 将 详细 介绍 这 些 进 程 ID 的 用 途 ， 以 及 用 于 获取 和 修改 此 类 ID 的 
系统 调用 和 库 函 数 ， 还 将 讨论 特权 级 进程 和 非特 权 进 程 的 概念 ， 并 阐述 
了 设置 用 户 ID 和 设置 组 ID 的 使 用 机 制 ， 采 用 该 机 制 所 创建 的 程序 可 以 以 
特定 用 户 或 组 的 权限 运行 。 


9.1 实际 用 户 ID 和 实际 组 ID 


实际 用 户 ID 和 实际 组 ID 确定 了 进程 所 属 的 用 户 和 组 。 作 为 登录 过 程 
的 步骤 之 一 ， 登 录 shell 从 /etcpasswd 文 件 中 读 取 相应 用 户 密 人 码 记录 的 第 
三 字段 和 第 四 字段 ， 置 为 其 实际 用 户 ID 和 实际 组 ID 〈8.1 节 ) 。 当 创建 
新 进程 〈 比 如 ，shell 执 行 一 程序 ) 时 ， 将 从 其 父 进程 中 继承 这 些 ID。 











9.2 有效 用户 ID 和 有 效 组 ID 


在 大 多 数 UNIX 实 现 〈Linux 实 现 略 有 差异 ， 有 具体 参见 9.5 节 的 说 明 ) 
中 ， 当 进程 尝试 执行 各 种 操作 〈 即 系统 调用 ) 时 ， 将 结合 有 效用 户 ID、 
有 效 组 ID， 连 同 辅助 组 ID 一 起 来 确定 授予 进程 的 权限 。 例 如 ， 当 进程 访 
问 诸 如 文件 、System V 进 程 间 通信 GPC) 对 象 之 类 的 系统 资源 时 ， 此 
类 ID 会 决定 系统 授予 进程 的 权限 ， 而 这 些 资 源 的 属 主 则 另 由 与 之 相关 的 
用 户 ID 和 组 ID 来 决定 。 如 20.5 节 所 述 ， 内 核 还 会 使 用 有 效用 户 ID 来 决定 
一 个 进程 是 否 能 向 另 一 个 进程 发 送信 和 号。 


有 效用 户 ID 为 0 (root 的 用 户 ID) 的 进程 拥有 超级 用 户 的 所 有 权 
限 。 这 样 的 进程 又 称 为 特权 级 进程 〈privileged process) 。 而 某 些 系统 
调用 只 能 由 特权 级 进程 执行 。 


第 39 章 描述 了 Linux 实 现 的 能 力 (capability)〉 方 案 ， 即 
把 授予 给 超级 用 户 的 特权 划分 为 在 干 不 同 单元 ， 且 能 独立 
局 用 和 禁用 这 些 单元 。 





通常 ， 有 效用 户 ID 及 组 ID 与 其 相应 的 实际 ID 相 每 ， 但 有 两 种 方法 能 
够 致使 二 者 不 同 。 其 一 是 使 用 9.7 市 中 所 讨论 的 系统 调用 ， 其 二 是 执行 
set-user-ID 和 set-group-ID 程 序 。 


9.3 ”Set-User-ID 和 Set-Group-ID 程 序 


set-user-ID 程 序 会 将 进程 的 有 效用 户 ID 置 为 可 执行 文件 的 用 户 
ID SBE) ， 从 而 获得 常规 情况 下 并 不 具有 的 权限 。set-group-ID 程 序 
对 进程 有 效 组 ID 实现 类 似 任 务 。 (术语 set-user-ID 程 序 和 set-group-ID 
程序 有 时 也 简称 为 set-UID 程 序 和 set-GID 程 序 。) 


与 其 他 文件 一 样 ， 可 执行 文件 的 用 户 ID 和 组 ID 雇 定 了 该 文件 的 所 有 
权 。 另 外 ， 可 执行 文件 还 拥有 两 个 特别 的 权限 位 setruser-ID 位 和 set- 
group-ID 位 。 (实际 上 ， 任 何 文 件 都 是 如 此 ， 但 此 处 只 关注 可 执行 文件 
的 这 两 个 权限 位 。) 可 使 用 chmod 命 令 来 设置 这 些 权 限 位 。 非 特权 用 户 
能 够 对 其 拥有 的 文件 进行 设置 ， 而 特权 级 用 户 (CAP_FOWNER) 能 够 
对 任何 文件 进行 设置 。 例 如 : 








$ su 

Password: 

# ls -1 prog 

-IWXI-XI-X 1 root root 302585 Jun 26 15:05 prog 

# chmod u+s prog Turn on set-user-ID permission bil 
# chmod g+s prog Turn on set-group-ID permission bit 


正如 本 例 所 示 ， 也 有 可 能 对 这 两 个 权限 位 都 进行 设置 ， 虽 然 这 一 做 
法 并 不 常见 。 当 使 用 ls -1 命令 得 看 文件 权限 时 ， 如 果 为 程序 设置 了 set- 
user-ID 权 限 位 和 set-group-ID 权 限 位 ， 那 么 通常 用 来 表示 文件 可 执行 权 
限 的 x 标识 会 被 s 标 识 所 蔡 换 。 


# ls -l prog 
-IWSI-SI-X 1 root root 302585 Jun 26 15:05 prog 


当 运 行 set-user-ID 程 序 ( 即 通过 调用 exec() 将 set-user-ID 程 序 载 入 进 
程 的 内 存 中 ) 时 ， 内 核 会 将 进程 的 有 效用 户 ID 设置 为 可 执行 文件 的 用 户 
ID 。set-group-ID 程 序 对 进程 有 效 组 了 的 操作 与 之 类 似 。 通 过 这 种 方法 
修改 进程 的 有 效用 户 ID 或 者 组 ID， 能 够 使 进程 〈 换 言 之 ， 执 行 该 程序 的 
FAAP) 获得 常规 情况 下 所 不 具有 的 权限 。 例 如 ， 如 果 一 个 可 执行 文件 的 
属 主 为 root〈 超 级 用 户 ) ， 且 为 此 程序 设置 了 set-user-ID 权 限 位 ， 那 么 当 
运行 该 程序 时 ， 进 程 会 取得 超级 用 户 权限 。 


也 可 以 利用 程序 的 set-user-ID 和 set-group-ID 机 制 ， 将 进程 的 有 效 ID 








修改 为 root 之 外 的 其 他 用 户 。 例 如 ， 为 提供 对 一 个 受 保护 文件 (或 其 他 
系统 资源 ) 的 访问 ， 采用 如 下 方案 就 绰 旨 有 余 : 创建 一 个 具有 对 该 文 
件 访问 权限 的 专用 用 户 (组 ) ID， 然 后 再 创建 一 个 setruser-ID (set- 
group-ID) 程序 ， 将 进程 有 效用 户 〈 组 ) ID 变更 为 这 个 专用 ID。 这 样 ， 
无 需 拥 有 超级 用 户 的 所 有 权限 ， 程 序 就 能 访问 该 文件 。 


有 时 会 使 用 术语 set-user-ID-root 来 表示 root 用 户 所 拥有 的 set-user-ID 
程序 ， 以 示 与 由 其 他 用 户 所 拥有 的 setruser-ID 程 序 有 所 区 别 ， 后 者 仅 为 
进程 提供 其 属 主 所 具有 的 权限 。 








术语 privileged〈 特 权 级 ) 有 两 种 不 同 仿 义 ， 其 一 是 为 
早期 定义 而 成 的 ， 有 效用 户 ID 为 0 的 进程 ， 拥 有 root 用 户 的 
所 有 特权 。 然 而 ， 当 set-ruser-ID 程 序 的 属 主 并 非 root 用 户 
时 ， 进 程 也 会 获得 set-user-ID 程 序 属 主 的 特权 。 各 种 情况 下 
术语 privileged 的 具体 含义 ， 可 通过 上 下 文 来 加 以 辨别 。 


出 于 38.3 节 所 给 出 的 理由 ， 在 Linux 系 统 中 ，set-user-ID 
和 set-group-ID 权 限 位 对 shell 脚 本 无 效 。 


Linux 系 统 中 经 常 使 用 的 set-user-ID 程 序 包括 : passwd(1)， 用 于 更 改 
用 户 密码 ;，mount(8) 和 umount(8)， 用 于 加 载 和 缉 载 文件 系统 ; sul(1)， 
允许 用 户 以 另 一 用 户 的 身份 运行 shell。set-group-ID 程 序 的 例子 之 一 为 
wall(1)， 用 来 回 tty 组 下 辖 的 所 有 终端 〈 通 第 情况 下 ， 所 有 终端 都 属于 该 
组 ) 写 入 一 条 消息 。 


8.5 节 曾 特别 指出 ， 程 序 清 单 8-2 中 的 程序 需要 以 root 用 户 身 份 运行 ， 
以 便 获 取 对 /etc/shadow 文件 的 访问 权限 。 欲 使 该 程序 可 为 任 一 用 户 执 
行 ， 必 须 将 其 设置 为 set-user-ID-root 程 序 ， 如 下 所 示 : 


$ su 

Password: 

# chown root check_password Make this program owned by root 
# chmod uts check_password With the set-user-ID bit enabled 








# 1s -1 check_password 
-ITWST-XT-X 1 root users 18150 Oct 28 10:49 check_password 


# exit 

$ whoami This is an unprivileged login 

mtk 

$ ./check_password But we can now access the shadow 
Username: avr password file using this program 
Password: 


Successfully authenticated: UID=1001 


set-user-ID/set-group-ID 技术 集 实用 性 与 强大 的 功能 于 一 身 ， 但 一 旦 
设计 欠 佳 也 可 能 造成 安全 隐患 。 第 38 章 总 结 了 一 整套 民 好 的 编程 习惯 ， 
编写 set-user-ID 和 set-group-ID 程 序 时 应 多 加 参考 。 














9.4 保存 setruser-ID 和 保存 set-group-ID 


设计 保存 set-user-ID (saved set-user-ID) 和 保存 set-group-ID (saved 
set-group-ID)， 意 在 与 set-user-ID 和 setrgroup-ID 程 序 结合 使 用 。 当 执行 程 
序 时 ， 将 会 〈 依 次 ) 发 生 如 下 事件 (在 诸多 事件 之 中 ) 。 


1. 若 可 执行 文件 的 set-user-ID (set-group-ID) 权 限 位 已 开启 ， 则 将 进 
程 的 有 效用 户 〈( 组 )ID 置 为 可 执行 文件 的 属 主 。 夺 未 设置 set-user-ID 
(set-group-ID) 权 限 位 ， 则 进程 的 有 效用 户 〈 组 ) ID 将 保持 不 变 。 


2. 保存 setruser-ID 和 保存 setrgroup-ID 的 值 由 对 应 的 有 效 ID 复 制 而 
来 。 无 论 正 在 执行 的 文件 是 否 设置 了 set-user-ID 或 set-group-ID 权 限 位 ， 
这 一 复制 都 将 进行 。 


举例 说 明 上 述 操 作 的 效果 ， 假 设 某 进程 的 实际 用 户 ID、 有 效用 户 ID 
和 保存 set-user-ID 均 为 1000， 当 其 执行 了 root 用 户 “〈 用 户 ID 为 0) 拥有 的 
set-user-ID 程 序 后 ， 进 程 的 用 户 ID 将 发 后 如 下 变化 : 


real=1000 effective=0 saved=0 


有 不 少 系统 调用 ， 人 允许 将 set-user-ID 程 序 的 2 有 效用 户 ID 在 实际 用 
户 ID 和 保存 set-user-ID 之 间 切 换 。 针 对 set-group-ID 程 序 对 其 进程 有 效 组 
ID 的 修改 ， 也 有 与 之 相 类 似 的 系统 调用 来 文 持 。 如 此 一 来 ， 对 于 与 执行 
LHF CH) ID 相关 的 任何 权限 ， 程 序 能 够 随时 “ 收 放 自如 ”。“〈 换 言 
之 ， 程 序 可 以 游 走 于 两 种 状态 之 间 : 具备 获取 特权 的 潜力 和 以 特权 进行 
实际 操作 。) 正如 38.2 节 所 述 ， 只 要 set-user-ID 程 序 和 set-group-ID 程 序 
没有 执行 与 特权 级 ID 〈 亦 即 实际 ID ) 相关 的 任何 操作 ， 就 应 将 其 置 于 非 
特权 《〈 即 实际 ) ID 的 身份 之 下 ， 这 是 一 种 安全 的 编程 手法 。 





有 时 也 将 保存 set-user-ID 和 保存 set-group-ID 称 之 为 保存 
HID (saved user ID) 和 保存 组 ID (saved group ID) 。 


保存 设置 ID 由 System V 首 创 ， 后 为 PZOSIX 所 采用 。4.4 
之 前 的 BSD 版 本 不 提供 对 此 特性 的 支持 。 最 初 的 POSIX.1 标 


准将 对 这 些 ID 的 文 持 列 为 可 选 ， 但 之 后 的 版 本 〈 始 于 1988 
年 诞生 的 FIPS 151-1 标准 ) 则 强制 要 求 提 供 这 一 特性 。 


95 文件 系统 用 户 ID 和 组 ID 


在 Linux 系 统 中 ， 要 进行 诸如 打开 文件 、 改 变 文 件 属 主 、 修 改 文 件 
权限 之 类 的 文件 系统 操作 时 ， 决 定 其 操作 权限 的 是 文件 系统 用 户 ID 和 组 
ID 《结合 辅助 组 ID) ， 而 非 有 效用 户 ID 和 组 ID。 (和 其 他 UNIX 实 现 一 
样 ， 有 效用 户 ID 和 组 ID 仍 在 使 用 ， 其 用 途 在 前 面 章 节 已 有 论述 。) 


通常 ， 文 件 系 统 用 户 ID 和 组 ID 的 值 等 同 于 相应 的 有 效用 户 ID 和 组 

ID《〈 因 而 一 般 也 等 同 于 相应 的 实际 用 户 ID 和 组 ID) 。 此 外 ， 只 要 有 效用 
户 或 组 ID 发 生 了 变化 ， 无 论 是 通过 系统 调用 ， 还 是 通过 执行 setruser-ID 
或 者 set-group-ID 程 序 ， 则 相应 的 文件 系统 ID 也 将 随 之 改变 为 同一 值 。 
由 于 文件 系统 ID 对 有 效 ID 如 此 的 “ 亦 步 亦 趋 ”， 这 意味 着 在 特权 和 权限 检 
查 方 面 ，Linux 实 际 上 跟 其 他 UNIX 实 现 非常 类 似 。 只 有 当 使 用 Linux 特 
有 的 两 个 系统 调用 (setfsuid() 和 setfsgid0) 时 ， 才 可 以 刻意 制造 出 文件 
系统 ID 与 相应 有 效 ID 的 不 同 ， 因 而 Linux 也 不 同 于 其 他 的 UNIX 实 现 。 


那么 ，Linux 为 什么 要 提供 文件 系统 ID 呢 ? 在 何 种 情况 下 ， 需 要 使 
有 效 ID 有 别 于 文件 系统 ID 呢 ? 这 主要 是 由 于 历史 原因 造成 的 。 文 件 系统 
ID 始 见于 Linux 1.2 版 本 。 在 该 版 本 的 内 核 中 ， 如 果 进 程 某 甲 的 有 效用 户 
ID 等 同 于 进程 某 乙 的 实际 用 户 ID 或 者 有 效用 户 ID， 那 么 发 送 者 〈 某 甲 ) 
就 可 以 向 目标 进程 〈 某 乙 ) 发 送信 号 。 这 在 当时 影响 到 了 不 少 程序 ， 比 
如 Linux NFS【〔 网 络 文件 系统 ) 服务 器 程序 ， 在 访问 文件 时 就 好 像 拥 有 
着 相应 客户 进程 的 有 效 ID。 然 而 ， 如 果 NEFS 服 务 器 真 地 修改 了 自身 的 有 
效用 户 ID， 面 对 非特 权 用 户 进程 的 信号 攻击 ， 又 将 不 堪 一 击 。 为 了 防范 
这 一 风险 ， 文 件 系 统 用 户 ID 和 组 ID 应 运 而 生 。NEFS 服 务 器 将 有 效 ID 保 持 
不 变 ， 而 是 通过 修改 文件 系统 ID 伪装 成 另 一 用 户 ， 这 样 既 达到 了 访问 文 
件 的 目的 ， 又 避免 了 遭受 信号 攻击 。 


目 内 核 2.0 起 ，Linux 开 始 在 信号 发 送 权限 方面 遵循 SUSv3 所 强制 规 
定 的 规则 ， 且 这 些 规则 不 再 涉及 目标 进程 的 有 效用 户 ID 参考 20.5 
W) 。 因 此 ， 从 严格 意义 上 来 讲 ， 保 留 文件 系统 DD 特性 已 无 必要 (如 
今 ， 进 程 可 以 根据 需要 ， 审 惯 而 明知 地 利用 本 章 稍 后 介绍 的 系统 调用 ， 
使 以 非特 权 值 对 有 效用 户 ID 的 赋值 来 去 自由 ， 以 实现 预期 结果 〉 ， 但 为 
了 与 现 有 软件 保持 兼容 ， 这 一 功能 得 以 保留 了 下 来 。 


由 于 文件 系统 ID 实 属 异 类 ， 且 一 般 都 等 同 于 相应 的 有 效 ID， 本 书后 























续 部 分 在 述 及 各 种 文件 权限 的 检查 ， 以 及 设置 新 文件 的 属 主 时 ， 通 常 将 
根据 进程 有 效 ID 来 加 以 解释 。 即 使 是 出 于 Linux 系 统 的 目的 而 真 地 使 用 
但 在 实践 中 ， 这 些 标识 的 存在 与 否 并 不 会 带 来 显 
FF Fl 





9.6 ”辅助 组 ID 


辅助 组 ID 用 于 标识 进程 所 属 的 若干 附加 的 组 。 新 进程 从 其 父 进程 处 
继承 这 些 ID， 登 录 shell 从 系统 组 文件 中 获取 其 辅助 的 组 ID 。 如 前 所 述 ， 
将 这 些 ID 与 有 效 ID 以 及 文件 系统 ID 相 结合 ， 就 能 决定 对 文件 、System V 
IPC 对 象 和 其 他 系统 资源 的 访问 权限 。 





9.7 获取 和 修改 进程 凭证 


为 了 获取 和 变更 本 章 已 然 论 及 的 各 种 用 户 ID 和 组 ID，Linux 提 供 
了 一 系列 系统 调用 和 库 函 数 。SUSv3 仅 对 这 些 API 中 的 部 分 做 了 规范 ， 
余下 部 分 中 ， 有 一 些 在 其 他 UNIX 实 现 中 得 以 广泛 应 用 ， 还 有 少量 是 
Linux 所 特有 的 。 在 讨论 每 个 API 接 口 时 ， 将 特别 指出 可 移植 性 方面 的 问 
题 。 在 本 章 结尾 处 ， 表 9-1 总 结 了 变更 进程 凭证 的 所 有 接口 操作 。 


可 以 利用 Linux 系 统 特有 的 prowPID/status 文 件 ， 通 过 对 其 中 Uid、 
Gid 和 Groups 各 行 信息 的 检查 ， 来 获取 任何 进程 的 凭证 ， 这 与 下 面 即将 
介绍 的 系统 调用 有 异曲同工 之 妙 。Uid 和 Gid 各 行 ， 按 实际 、 有 效 、 保 存 
设置 和 文件 系统 ID 的 顺序 来 展示 相应 标识 符 。 


在 下 列 章节 中 所 论 及 的 特权 级 进程 ， 其 定义 是 基于 传统 意义 上 的 ， 
即 进 程 的 有 效用 户 有 D 为 0。 然 而 ， 正 如 第 39 章 所 述 ，Linux 将 超级 用 户 
权限 划分 成 多 种 各 不 相同 的 能 力 (capability) 。 在 讨论 修改 用 户 ID 和 组 
ID 的 所 有 系统 调用 时 ， 将 涉及 其 中 的 两 种 。 


e CAP_SETUID 能 力 允 许 进程 任意 修改 其 用 户 ID。 
e CAP_SETGID 能 力 人 允许 进 程 任意 修改 其 组 ID。 
9.7.1 获取 和 修改 实际 、 有 效 和 保存 设置 标识 
下 面 段落 将 描述 用 于 获取 和 修改 实际 、 有 效 和 保存 设置 ID 的 系统 调 
用 。 能 完成 这 些 任务 的 系统 调用 有 多 个 ， 有 时 彼此 间 的 功能 还 相互 重 
营 ， 这 是 由 于 各 种 系统 调用 分 别 源 于 不 同 的 UNIX 实 现 。 
获取 实际 和 有 效 ID 


系统 调用 getuid0 和 getgid0 分 别 返 回调 用 进程 的 实际 用 户 ID 和 组 
ID。 而 系统 调用 geteuid0 和 getegidO0 则 对 进程 的 有 效 ID 实 现 类 似 功 能 。 
对 这 些 系统 函数 的 调用 总 会 成 功 。 

















#include <unistd.h> 


uid t getuid(void); 
Returns real user ID of calling proccss 
uid t geteuid(void); 
Returns effective user ID of calling process 
gid t getgid(void); 


Returns real group ID of calling process 
gid t getegid(void); 








Returns effective group ID of calling process 





修改 有 效 ID 


setuid() 系 统 调用 以 给 定 的 uid 参 数值 来 修改 调用 进程 的 有 效用 户 
ID， 也 可 能 修改 实际 用 户 ID 和 保存 setruser-ID。 系 统 调 用 setgidO0 则 对 相 
应 组 I 实 现 了 类 似 功能 。 








#include <unistd.h> 


int setuid(uid t uid); 
int setgid(gid t gid); 


Both return 0 on success, or -1 on error 











进程 使 用 setuid() 和 setgid() A 2 Val FS BERT LE UE EE eee? 其 
规则 取 雇 于 进程 是 否 拥有 特权 《〈 即 有 效用 户 ID 为 0) 。 适 用 于 setuid(O) 系 
统 调用 的 规则 如 下 。 


1. 当 非 特权 进程 调用 setuid0 时 ， 仅 能 修改 进程 的 有 效用 户 ID。 而 
且 ， 仅 能 将 有 效用 户 ID 修改 成 相应 的 实际 用 户 ID 或 保存 set-user-ID。 
(企图 违反 此 约束 将 引发 EPERM 错 误 。) 这 意味 着 ， 对 于 非特 权 用 户 
而 言 ， 仅 当 执 行 setruser-ID 程 序 时 ，setuid0 系 统 调 用 才 起 作用 ， 因 为 在 
执行 普通 程序 时 ， 进 程 的 实际 用 户 ID、 有 效用 户 ID 和 保存 setruser-ID 三 
者 之 值 均 相等 。 在 一 些 派生 自 BSD 的 实现 中 ， 非 特权 进程 对 setuid() 或 
setgid() 的 调用 ， 其 语义 有 别 于 与 其 他 UNIX 实 现 : 系统 调用 会 修改 实 
际 、 有 效 和 保存 设置 ID (将 其 改 为 当前 的 实际 或 有 效 ID 值 〉。 


2. 当 特权 进程 以 一 个 非 0 参 数 调用 setuid0 时 ， 其 实际 用 户 ID、 有 
效用 户 ID 和 保存 setruser-ID 均 被 置 为 uid 参 数 所 指定 的 值 。 这 一 操作 是 单 
同 的 ， 一 旦 特权 进程 以 此 方式 修改 了 其 ID， 那 么 所 有 特权 都 将 丢失 ， 量 
之 后 也 不 能 再 使 用 setuid0 调 用 将 有 效用 户 ID 重 置 为 0(。 如 果 不 希 望 发 生 








这 种 情况 ， 请 使 用 稍 后 介绍 的 seteuid0 或 者 setreuidO0 系 统 调用 来 替代 
setuid(). 


使 用 setgid() 系 统 调用 修改 组 ID 的 规则 与 之 相 类 似 ， 仅 需要 把 setuid() 
替换 为 setgid0)， 把 用 户 蔡 换 为 组 。 因 之 ， 规 则 1 与 前 述 完全 一 致 ， 但 在 
规则 2 中 ， 由 于 对 组 ID 的 修改 不 会 引起 进程 特权 的 丢失 (拥有 特权 与 否 
J PIDIRE) ， 特 权 级 程序 可 以 使 用 setgid0 对 组 ID 进行 任意 修 
改 。 


对 set-user-ID-root 程 序 〈 即 其 有 效用 户 ID 的 当前 值 为 0) 而 言 ， 以 不 
可 逆 方式 放弃 进程 所 有 特权 的 首选 方法 是 使 用 下 面 的 系统 调用 《以 实际 
用 户 ID 值 来 设置 有 效用 户 ID 和 保存 set-user-ID) 。 


if (setuid(getuid()) == -1) 
errExit("setuid"); 


set-user-ID 程 序 的 属 主 如 果 不 是 root 用 户 ， 可 使 用 setuid0 将 有 效用 户 
ID 在 实际 用 户 ID 和 保存 setruser-ID 之 间 来 回 切换 ， 其 理由 已 在 9.4 节 中 了 予 
以 阐述 。 然 而 ， 使 用 seteuid() 来 达成 这 个 目的 则 更 为 可 取 ， 因 为 无 论 set- 
user-ID 程 序 是 否 属 于 root 用 户 ，seteuid() 都 能 够 实现 同样 的 功能 。 


进程 能 够 使 用 seteuid() 来 修改 其 有 效用 户 ID〈 改 为 参数 euid 所 指定 
， 还 能 使 用 setegid0 来 修改 其 有 效 组 ID 〈 改 为 参数 egid 所 指定 的 
AE 











#include <unistd.h> 


int seteuid(uid t euid); 
int setegid(gid t egid); 








Both return 0 on success, or -1 on error 





进程 使 用 seteuid0 和 setegid0 来 修改 其 有 效 ID 时 ， 会 遵循 以 下 规则 。 


1. 非特 权 级 进程 仅 能 将 其 有 效 ID 修 改 为 相应 的 实际 ID 或 者 保存 设 
置 ID。 换 言 之 ， 对 非特 权 级 进程 而 言 ， 除 去 前 面 讨论 的 BSD 可 移植 性 
问题 ，seteuid() 和 setegid0) 分 别 等 效 于 setuid() 和 setgid()。) 


2. 特权 级 进程 能 够 将 其 有 效 ID 修 改 为 任意 值 。 知 特权 进程 使 用 
seteuid() 将 其 有 效用 户 ID 修 改 为 非 0 值 ， 那 么 此 进程 将 不 再 具有 特权 (但 








可 以 根据 规则 1 来 恢复 特权 ) 。 


对 于 需要 对 特权 “ 收 放 自如 ”的 setruser-ID 和 set-group-ID 程 序 ， 更 推 
荐 使 用 seteuid0， 示 例如 下 : 


euid = geteuid(); /* Save initial effective user ID (which 
is same as saved set-user-ID) */ 
if (seteuid(getuid()) == -1) /* Drop privileges */ 
errExit("seteuid"); 
if (seteuid(euid) == -1) /* Regain privileges */ 
errExit("seteuid"); 


源 于 BSD 系 统 的 seteuid0 和 setegid0， 现 已 纳入 SUSv3 规 范 ， 并 获 
得 大 多 数 UNIX 系 统 实现 的 支持 。 





在 GNU C 语 言 函 数 库 的 早期 版 本 中 Cglibe 2.0 及 其 之 前 
的 版 本 ) ， 将 seteuid(euid) 实 现 为 setreuid(-1, euid)。 而 在 新 
版 的 glibc 库 中 ， 则 将 seteuid(euiqd) 实 现 为 setresuid(-1， 
euid，--1)。〔 稍 后 将 给 出 对 setreuid()、setresuidO 及 其 类 似 
函数 的 描述 。) 这 两 种 实现 都 允许 将 euid 参 数值 指定 为 当 
前 有 效用 户 ID〈 即 保持 不 变 ) 。 然 而 ，SUSv3 并 未 对 
seteuid() 的 这 个 行为 进行 规范 ， 并 且 其 他 一 些 UNIX 实 现 对 
此 也 不 支持 。 总 的 来 说 ， 这 种 潜在 的 差异 在 系统 实现 间 并 
不 明显 ， 因 为 在 通常 情况 下 ， 有 效用 户 ID 要 么 与 实际 用 户 
ID 相同 ， 要 么 与 保存 setruser-ID 相 同 。 〈 要 想 使 有 效用 户 ID 
与 二 者 均 不 相同 ， 在 Linux 系 统 中 唯一 的 办 法 是 采用 非 标准 
的 setresuid() 系 统 调用 。) 


在 glibc 库 的 所 有 版 本 (包括 最 新 版 本 ) 中 ， 是 以 
setregid(-1，egid) 来 实现 setegid(egid) 的 。 如 同 seteuid()— 
样 ， 这 意味 着 能 够 将 参数 egid 指 定 为 当前 有 效 组 ID， 尺 管 
SUSv3 并 未 规范 这 一 行为 。 还 有 一 层 含义 是 使 用 setegid0) 


时 ， 如 果 对 有 效 组 ID 值 的 设置 不 同 于 当前 的 实际 组 ID， 那 
么 还 将 改变 保存 set-group-ID。 (类 似 结论 也 适用 于 早期 使 
用 setreuid() 来 实现 的 seteuid()。) 同样 ，SUSv3 也 不 支持 这 
EAT Ae 





修改 实际 ID 和 有 效 ID 


setreuid() 系 统 调用 允许 调用 进程 独立 修改 其 实际 和 有 效用 户 ID。 
setregid() 系 统 调用 对 实际 和 有 效 组 ID 实 现 了 类 似 功能 。 











#include <unistd.h> 


int setreuid(uid t ruid, uid t euid); 
int setregid(gid t rgid, gid_t egid); 


Both return 0 on success, or -1 on error 











这 两 个 系统 调用 的 第 一 个 参数 都 是 新 的 实际 ID， 第 二 个 参数 都 是 新 
的 有 效 ID。 若 只 想 修 改 其 中 的 一 个 ID， 可 以 将 另外 一 个 参数 指定 为 -1。 


目前 ， 最 初 派生 自 BSD 的 setreuid() 和 setregid() 为 SUSv3 规 范 所 接 
纳 ， 并 且 获 得 了 大 多 数 UNIX 系 统 的 文 持 。 


同 本 节 介 绍 的 其 他 系统 调用 一 样 ， 使 用 setreuid0 和 setregid0 来 作出 
变更 也 要 遵循 一 定 的 规则 。 下 面 将 从 setreuid0 的 视角 来 描述 这 些 规则 ， 
除非 另 有 说 明 ，setregid0 函 数 的 规则 也 与 之 类 似 。 


1， 非 特权 进程 只 能 将 其 实际 用 户 ID 设置 为 当前 实际 用 户 ID 值 〈 即 
保持 不 变 ) 或 有 效用 户 ID 值 ， 且 只 能 将 有 效用 户 ID 设置 为 当前 实际 用 户 
ID、 有 效用 户 ID“〈 即 无 变化 ) 或 保存 set-user-ID。 








SUSv3 声 称 ， 对 于 非特 权 进 程 是 否 能 使 用 setreuid0) 将 其 
实际 用 户 ID 修 改 为 实际 用 户 ID、 有 效用 户 ID 或 者 保存 set- 


user-ID 的 当前 值 ， 规 范 不 做 规定 。 至 于 真正 能 将 实际 用 户 
ID 修改 成 何 值 ， 这 随 UNIX 实 现 的 不 同 而 不 同 。 


SUSv3 对 setregid0 的 规定 稍 有 不 同 ， 非 特权 进程 能 够 
将 其 实际 组 ID 设置 为 保存 set-group-ID 的 当前 值 ， 或 者 将 
其 有 效 组 ID 设置 为 实际 组 ID 或 保存 set-group-ID 的 当前 值 。 
但 真正 能 对 实际 组 ID 做 哪些 修 取 决 于 具体 的 UNIX 实 现 。 


2. 特权 级 进程 能 够 设置 其 实际 用 户 ID 和 有 效用 户 ID 为 任意 值 。 








3. 不 管 进 程 拥 有 特权 与 否 ， 只 要 如 下 条 件 之 一 成 立 ， 束 能 将 保存 
set-user-I 有 D 设 置 成 (新 的 ) 有 效用 户 ID。 


a) ruid 不 为 -1( 即 设置 实际 用 户 ID， 即 便 是 置 为 当前 值 〉。 
b) 对 有 效用 户 ID 所 设置 的 值 不 同 于 系统 调用 之 前 的 实际 用 户 ID。 


反 过 来 说 ， 如 果 进 程 使 用 setreuidO 仅 将 有 效用 户 ID 修改 为 实际 用 户 
ID 的 当前 值 ， 那 么 保存 setruser-ID 的 值 将 保持 不 变 ， 并 且 后 续 可 调用 
setreuid() 〈 或 seteuid0) 将 有 效用 户 ID 恢复 为 保存 setruser-ID 的 值 。 
Csetreuid0 和 setregid0 针 对 保存 设置 ID 的 这 一 效果 ，SUSv3 未 做 规定 ， 
但 已 被 SUSv4 纳 入 规范 。) 


规则 3 为 set-user-ID 程 序 提供 了 一 个 永久 放弃 特权 的 方法 ， 使 用 如 下 
调用 : 


setreuid(getuid(), getuid()); 


set-user-ID-root 进 程 若 有 意 将 用 户 赁 证 和 组 凭证 改变 为 任意 值 ， 则 
应 首先 调用 setregid0， 然 后 再 调用 setreuid0。 一 旦 调用 顺序 颠倒 ， 那 么 
调用 setregid() 将 会 失败 ， 因 为 调用 setreuid(O) 后 ， 程 序 将 不 再 具有 特权 。 
看 使 用 setresuid() 和 setresgid()( 详 见 下 述 ) 来 实现 此 功能 ， 上 述 摘 述 也 
同样 适用 。 





直至 4.3BSD，BSD 及 行 版 都 不 文 持 保 存 setruser-ID 和 保 
存 set-group-ID 〈 如 今 已 为 SUSv3 强 制 要 求 支 持 ) 。 相 反 ， 
在 BSD 中 ，setreuid() 和 setregidO 允 许 进 程 通过 来 回 交 换 实际 
ID 和 有 效 ID 来 “ 收 、 放 ”特权 。 这 一 方式 的 不 良 副作用 在 于 
为 了 改变 有 效用 户 ID 而 改变 实际 用 户 ID。 


获取 实际 、 有 效 和 保存 设置 ID 


在 大 多 数 UNIX 实 现 中 ， 进 程 不 能 直接 获取 (或 修改 ) 其 保存 set- 
user-ID 和 保存 set-group-ID 的 值 。 然 而 ，Linux 提 供 了 两 个 〈 非 标准 的 ) 
系统 调用 来 实现 此 项 功能 : getresuid() 和 getresgid(). 











#define GNU SOURCE 
ftinclude <unistd.h> 


int getresuid(uid t *ruid, uid t *ewid, uid t *suid); 
int getresgid(gid_t *rgid, gid_t *egid, gid_t *sgid); 


Both return 0 on success, or -1 on error 











getresuid0 系 统 调 用 将 调用 进程 的 当前 实际 用 户 ID、 有 效用 户 ID 和 
保存 set-user-ID 值 返回 至 给 定 3 个 参数 所 指定 的 位 置 。getresgid() 系 统 调 
用 针对 相应 的 组 ID 实现 了 类 似 功 能 。 


修改 实际 、 有 效 和 保存 设置 ID 


setresuid() 系 统 调用 允许 调用 进程 独立 修改 其 3 个 用 户 ID 的 值 。 每 个 
用 户 ID 的 新 值 由 系统 调用 的 3 个 参数 给 定 。setresgid0 系 统 调用 对 相应 的 
组 ID 实现 了 类 似 功 能 。 











#define GNU SOURCE 
#include <unistd.h> 


int setresuid(uid_ t ruid, uid t euid, uid_t suid}; 
int setresgid(gid t rgid, gid t egid, gid_t sgid); 


Both return 0 on success, or -1 on error 














各 不 想 同 时 修改 这 些 ID， 则 需 将 无 意 修 改 的 ID 参数 值 指定 为 -1。 例 
如 ， 下 列 调用 等 同 于 seteuid(x) 调 用 : 


setresuid(-1, x, -1); 


” ”关于 setresuid0 可 做 何 种 修改 的 规则 (setresgid0 与 之 类 似 〉 如 下 所 
TR 0 


1， 非 特权 进程 能 够 将 实际 用 户 ID、 有 效用 户 ID 和 保存 setruser-ID 中 
| 
当前 值 。 


2. 特权 级 进程 能 够 对 其 实际 用 户 ID、 有 效用 户 ID 和 保存 setruser-ID 
做 任意 设置 。 


3. 不 管 系 统 调 用 是 否 对 其 他 ID 做 了 任何 改动 ， 总 是 将 文件 系统 用 
户 ID 设置 为 与 有 效用 户 ID 〈 可 能 是 新 值 ) 相同 。 


setresuid() 和 setresgid() 调 用 具有 0/1 效 应 ， 即 对 了 D 的 修改 请 求 要 么 全 
都 成 功 ， 要 么 全 部 失败 。《〈 这 也 适用 于 本 章 所 述 其 他 修改 多 个 ID 的 系统 
调用 。) 


虽然 setresuid() 和 setresgid() 为 修改 进程 凭证 提供 了 最 为 直接 的 APT1， 
但 在 应 用 程序 中 采用 这 些 调 用 会 带 来 可 移植 性 问题 。SUSv3 规 范 并 未 包 
括 这 些 调用 ， 且 其 他 UNIX 实 现 对 其 也 鲜 有 支持 。 


9.7.2 ”获取 和 修改 文件 系统 ID 
前 述 所 有 修改 进程 有 效用 户 ID 或 组 ID 的 系统 调用 总 是 会 修改 相应 的 


文件 系统 ID。 要 想 独 立 于 有 效 ID 而 修改 文件 系统 ID， 必须 使 用 Linux 
特有 的 系统 调用 : setfsuid() 和 setfsgid(). 





#include «sys/fsuid.h> 
int setfsuid(uid_t fsuid); 
Always returns the previous file-system user ID 


int setfsgid(gid t fsgid) ; 








Always returns the previous file-system group ID 





setfsuidO 系 统 调用 将 进程 文件 系统 用 户 ID 修改 为 参数 fsuid 所 指定 的 
值 。setfsgid0 系 统 调用 将 文件 系统 组 ID 修改 为 参数 fsgid 所 指定 的 值 。 


同样 ， 此 类 变更 也 存在 一 些 规则 。setfsgid0 的 规则 类 似 于 
setfsuid(), Fifi AsetfsuidQ Al. 


1. 非特 权 进 程 能 够 将 文件 系统 用 户 ID 设 置 为 实际 用 户 ID、 有 效用 
户 ID、 文 件 系统 用 户 ID 〈 即 保持 不 变 ) 或 保存 set-user-ID 的 当前 值 。 


2. 特权 级 进程 能 够 将 文件 系统 用 户 ID 设置 为 任意 值 。 


A EE A AH HSE A OE SSS 首先 ， oe 
获取 当前 的 文件 系统 ID。 另 外 ， 这 些 系统 调用 根本 不 做 错误 检查 。 
非特 权 进 程 试图 将 文件 系统 ID 设置 为 一 个 非法 值 ， 这 一 不 轨 企 图 也 只 是 
被 静默 地 忽略 反 。 无 论 这 些 调 用 成 功 与 个， 其 返回 值 都 是 之 前 相关 文件 
系统 的 ID。 因 此 ， 这 确实 也 是 一 种 获得 当前 文件 系统 ID 的 方法 ， 但 却 只 
能 是 在 符 试 修改 这 些 值 〈 不 管 是 否 成 功 ) 的 同时 进行 。 


在 Linux 系 统 中 ， 使 用 setfsuid0 和 setfsgid() 系 统 调 用 已 不 是 必要 


的 ， 若 需要 将 应 用 程序 移植 到 其 他 UNIX 实 现 上 ， 则 应 在 设计 时 避免 使 
用 这 两 个 调用 。 


9.7.3 ”获取 和 修改 辅助 组 ID 


getgroupsO 系 统 调用 会 将 当前 进程 所 属 组 的 集合 返回 至 由 参数 
grouplist 指 癌 的 数组 中 。 








#include <unistd.h> 


int getgroups(int gidsetsize, gid t grouplist[]); 








Returns number of group IDs placed in grouplist on success, or -1 on error 





pe ee 
辅助 组 ID。 然 而 ，SUSv3 规 范 还 允许 UNIX 实 现在 返回 的 grouplist 中 包含 
调用 进程 的 有 效 组 ID。 


调用 程序 必须 负责 为 grouplist 数 组 分 配 存 储 空 间 ， 并 在 gidsetsize 参 
数 中 指定 其 长 度 。 知 调用 成 功 ，getgroupsO 会 返回 置 于 grouplist 中 的 组 





ID 数量 。 





若 进程 属 组 的 数量 超出 gidsetsize， 则 getgroupsO 将 返回 错误 (错误 号 
为 EINVAL)。 为 了 避免 发 生 这 种 情况 ， 可 将 grouplist 数 组 的 大 小 调整 为 
常量 NGROUPS_MAX+1 (考虑 到 可 移植 性 ， 数 组 中 可 能 包含 了 有 效 组 
ID〉， 访 常量 (定义 于 <limits.h> 文 件 中 )〉 定义 了 进程 属 组 的 最 大 数 
量 。 因 此 ， 可 声明 grouplist 如 下 : 


gid t grouplist[NGROUPS MAX + 1]; 





在 Linux 内 核 版 本 2.6.4 之 前 ，NGROUPS_MAX 的 值 为 ?2。 始 于 内 核 
版 本 2.6.4，NGROUPS_MAX 的 值 为 65536。 





应 用 程序 要 在 运行 时 获取 NGROUPS_MAX 的 上 限 ， 还 可 使 用 如 下 
方法 。 


。 调用 sysconf(_SC_NGROUPS_MAX)。 (11.2 节 解释 了 sysconf() 的 用 
法 o ) 

。 从 Linux 特 有 的 /proc/sys/kernelngroups_max 只 读 文 件 中 读 取 该 限 
制 。 系 统 从 内 核 2.6.4 开 始 提供 该 文件 。 


除 此 之 外 ， 应 用 程序 还 能 在 调用 getgroups() 时 将 gidtsetsize 参 数 指定 
为 0。 F grouplist 数 组 未 作 修 改 ， 但 调用 的 返回 值 却 给 出 了 进程 
属 组 的 数量 。 


通过 上 述 任意 一 种 运行 时 技术 所 获取 的 NGROUPS_MAX 值 ， 可 用 
于 为 后 续 的 getgroupsO 调 用 动态 分 配 grouplist 数 组 。 


特权 级 进程 能 够 使 用 setgroups() 和 initgroups() 来 修改 其 辅助 组 ID 集 


= 





#define BSD SOURCE 
#include <grp.h> 


int setgroups(size_t gidselsize, const gid t *grouplzst) ; 
int initgroups(const char *user, gid t group); 


Both return 0 on success, or -1 on error 








setgroups() ¥% 27 Vil FA H grouplist 2 H ir gs xe WY SE OR SF A EE 


辅助 组 ID 。 参 数 gidsetsize 指 定 了 置 于 参数 grouplist 数 组 中 的 组 ID 数量 。 


initgroupsO 函 数 将 扫描 /etc/groups 文 件 ， 为 user 创 建 属 组 列表 ， 以 此 
来 初始 化 调用 进程 的 辅助 组 ID。 另 外 ， 也 会 将 参数 group 指 定 的 组 ID 退 
加 到 进程 辅助 组 ID 的 集合 中 。 


initgroupsO 函 数 的 主要 用 户 是 创建 登录 会 话 的 程序 一 一 例如 
login(1)， 在 用 户 调 用 登录 shell 之 前 ， 为 进程 设置 各 种 属性 。 此 类 程序 一 
般 通 过 读 取 密码 文件 中 用 户 记 录 的 组 属性 来 获取 参数 group 的 值 。 这 稍 
微 有 点 令 人 费解 ， 因 为 密码 文件 中 的 组 ID 实 际 并 非 辅 助 组 ID， 而 是 定义 
了 登录 shel 初 始 的 实际 组 ID、 有 效 组 ID 和 保存 set-group-ID。 尽 管 如 此 ， 
这 却 是 initgroups() 函 数 的 常用 使 用 方式 。 


虽然 未 纳入 SUSv3，setgroups() 和 initgroups() 却 获得 了 所 有 UNIX 实 
现 的 支持 。 


9.7.4 修改 进程 凭证 的 系统 调用 总 结 
表 9-1 对 修改 进程 凭证 的 各 种 系统 调用 及 库 函 数 的 效果 进行 了 总 


一 口 





图 9-1 提 供 了 表 9-1 中 信息 的 概括 图 示 。 本 图 内 容 是 从 修改 用 户 ID 的 
角度 加 以 展示 的 ， 但 修改 组 ID 的 规则 与 之 类 似 。 


seteuid(e) setreuid(r, e) setresuid(y, e, $) 


at 


有 效用 户 ID 







setuid(u) 
> 
~ 





保存 


set-user-ID 


UTE ATK ifr l= -1 或 e 全 之 前 的 实际 用 户 ID， 
对 所 有 进程 有 效 ; ”7, eS; 那么 保存 set-user-ID 


7,6 § 将 与 e 相 所 
EGS a 指出 了 针对 非特 权 进 程 所 允许 的 修改 范围 将 与 e 相 网 


图 9-1: 和 凭证 修改 函数 对 进程 用 户 ID 的 效果 
表 9-1: 修改 进程 凭证 的 接口 一 览 表 









































目的 和 效果 应 用 于 


可 移植 性 
非特 权 进 程 特权 级 进程 
将 实际 ID、 有 效 | 获得 SUSv3 规 范 的 
setuid(u) “| 将 有 效 ID 修 改 为 当前 实际 ID 或 保 |ID 和 保存 设置 ID | 支持 ， 但 BSD 的 
setgid(g) “| 存 设置 ID 修改 为 任何 (一 | 派生 
AS) 值 同 语义 


pen ere ee 修改 有 效 ID 为 任 | 获得 SUSv3 规 


















































setegid(e) | FREID 意 值 持 v 


setreuid(r, (独立 ) 将 实际 了 D 修 改 为 当前 实 te) ee ie R= 获得 SUSv35s 范 
J 际 ID 或 有 效 耳 值 ， 将 有 效 IT 修改 | CE TEM | 持 
setregid(r, 为 当前 实际 ID、 有 效 ID 或 保存 设 为 任意 值 a 统 实现 不 同 而 不 
e) 置 ID = 同 

















setresuid(r。 | (独立) 将 实际 ID、 有 效 ID 和 保 | CBD) 将 实际 | 未 获 SUSv3 规 范 


e,s) ”| 存 设置 ID 修 改 为 当前 实际 DD、 有 | 也 有效 帮 和 你 | 持 ， 并 且 鲜 见于 


Rages 效 ID 或 保存 设置 ID 站 修改 为 | 其 他 UNIX 实 现 


将 文件 系统 ID 修改 为 当前 实际 
setfsuid(u) f * 将 文件 系统 ID 修 |. n 

















AM 诸 于 SUSv3 规 
setgroups(n, | 非特 权 进 程 无 法 调用 E E Gea 
1) 任意 全 UNIX 实 现 的 支持 





补充 说 明 表 9-1 中 的 信息 。 


glibc) X{seteuid()(setresuid(—1, e, —1))#llsetegid()(setregid (-1, 

e，-1)) 函 数 的 实现 方式 允许 将 有 效 ID 设 置 为 有 效 ID 的 当前 值 ， 但 

SUSv3 对 此 未 作 规范 。 此 外 ， 奉 将 有 效 组 ID 设置 为 当前 实际 组 ID 之 

外 的 值 ， 那 么 setegid0 的 函数 实现 还 会 修改 保存 设置 组 ID。【《 对 于 

setegidO 实 现 这 文 一 修改 保存 set-group-ID 的 行为 ，SUSv3 也 未 作 规 

范 。) 

针对 特权 级 进程 和 非特 权 进 程 调 用 setreuid0 和 setregid0 的 情况 ， 大 r 

的 值 不 等 于 -1， 或 者 e 的 值 有 别 于 函数 调用 前 的 实际 ID， 则 将 保存 

set-user-ID 或 保存 set-group-ID 设 置 为 〈 新 的 ) ARID. (setreuid() 

和 setregid() 了 水 数 对 保存 设置 ID 的 修改 未 获 SUSv3 支 持 。) 

。 只 要 修改 了 有 效用 户 〈 组 ) ID， 就 会 将 Linux 特 有 的 文件 系统 用 户 
(组 ) ID 也 修改 为 相同 值 。 

。 不管 有 效用 户 ID 是 否 改变 ，setresuid0 系 统 调用 总 是 把 文件 系统 用 

户 ID 修改 为 有 效用 户 ID， setresgid0 系 统 调 用 对 文件 系统 组 ID 的 效 

ABZ. 








9.7.5 “示例 : 显示 进程 凭证 


程序 清单 9-1 中 的 程序 使 用 前 述 系统 调用 和 库 函 数 来 获取 进程 的 所 
有 用 户 ID 和 组 ID， 并 显示 出 来 。 






































程序 清单 9-1: 显示 进程 的 所 有 用 户 ID 和 组 ID 





proccred/idshow.c 


#define GNU SOURCE 

#include <unistd.h> 

#include <sys/fsuid.h> 

#include <limits.h> 

#include "ugid functions.h" /* userNameFromId(} & groupNameFromId({) */ 
#include "tlpi_hdr.h" 


#define SG SIZE (NGROUPS MAX + 1) 


int 
main(int argc, char *argv[]) 


uid t ruid, euid, suid, fsuid; 
gid t rgid, egid, sgid, fsgid; 
gid t suppGroups[SG SIZE]; 

int numGroups, j; 

char *p; 


if (getresuid(&ruid, &euid, &suid) == -1) 
errExit("getresuid"); 

if (getresgid(&rgid, &egid, &sgid) == -1) 
errExit("getresgid"); 


/* Attempts to change the file-system IDs are always ignored 
for unprivileged processes, but even so, the following 
calls return the current file-system IDs */ 


fsuid = setfsuid(0); 
fsgid = setfsgid(0o); 


printf("UID: "); 

p = userNameFromId(ruid) ; 

printf("real=%s (%1d); ", (p == NULL) ? "???" : p, (long) ruid}; 
p = userNameFromId(euid) ; 

printf("eff=%s (%ld); ", (p == NULL) ? "???" : p, (long) euid); 

p = userNameFromId(suid); 

printf("saved=%s (%ld); ", (p == NULL) ? "2???" : p, (long) suid); 
p = userNameFromlId(fsuid) ; 

printf("fs=%s (%1d); ", (p == NULL) ? "???" : p, (long) fsuid); 
printf("\n"); 





printf("GID: "); 
p = groupNameFromId(rgid) ; 
printf("real=%s (%1d); ", (p == NULL) ? "???" : p, (long) rgid); 


p = groupNameFromId(egid) ; 

printf("eff=%s (%1ld); ", (p == NULL) ? "2???" : p, (long) egid); 

p = groupNameFromId(sgid); 

printf("saved=%s (%ld); ", (p == NULL) ? "2???" : p, (long) sgid); 
p = groupNameFromId(fsgid); 

printf("fs=%s (%1d); ", (p == NULL) ? "???" : p, (long) fsgid); 
printf("\n"); 


numGroups = getgroups(SG SIZE, suppGroups); 
if (numGroups == -1) 
errExit("getgroups"); 
printf("Supplementary groups (%d): ", numGroups); 
for (j = 0; j < numGroups; j++) { 
p = groupNameFromId(suppGroups[j]); 
printf("%s (%ld) ", (p == NULL) ? "???" : p, (long) suppGroups[j]); 
printf("\n"); 
exit(EXIT SUCCESS); 


proccred/idshow. 


98 ”总 结 


每 个 进程 都 有 一 干 与 之 相关 的 用 户 ID 和 组 ID (SEE) 。 实 际 ID 定义 
了 进程 所 属 信 。 在 大 多 数 的 UNIX 实 现 中 ， 进 程 对 诸如 文件 之 类 资源 的 
访问 ， 其 许可 权限 由 有 效 ID 决 定 。 然 而 ，Linux 会 使 用 文件 系统 ID 来 决 
定 对 文件 的 访问 权限 ， 而 将 有 效 ID 用 于 检查 其 他 权限 。 (因为 文件 系统 
ID 一 般 等 同 于 相应 的 有 效 ID， 所 以 Linux 对 文件 权限 的 检查 方式 与 其 他 
UNIX 实 现 相 同 。) 进程 辅助 组 ID 则 是 出 于 权限 检查 目的 而 另行 设立 的 
eee ea 
ID 和 组 ID。 


set-user-ID 程 序 运 行 时 ， 会 将 进程 有 效用 户 ID 置 为 文件 属 主 的 用 户 
ID。 运 行 某 个 特殊 程序 时 ， 这 种 机 制 支 持 用 户 “ 假 借 ” 其 他 用 户 的 喘 份 和 
特权 。 相 应 的 ，set-group-ID 程 序 会 修改 运行 该 程序 的 进程 的 有 效 组 
ID。 保 存 set-user-ID 和 保存 set-group-ID 人 允许 set-user-ID 和 set-group-ID 程 
序 临时 性 地 放弃 特权 ， 并 在 之 后 恢复 特权 。 


0 在 用 户 D 中 可 谓 卓 尔 不 群 。 通 常 仅 为 一 个 名 为 root 的 账号 所 有 。 有 
效用 户 ID 为 0 的 进程 属 特权 级 进程 。 换 言 之 ， 对 于 进程 发 起 的 各 种 系统 
调用 ， 可 免 于 接受 通常 所 要 历经 的 诸多 权限 检查 《比如 那些 能 够 随意 修 
改进 程 各 种 用 户 ID 和 组 ID 的 调用 ) 。 




















99 习题 


9-1. 在 下 列 每 种 情况 中 ， 假 设 进 程 用 户 ID 的 初始 值 分 别 为 real (SE 
R) =1000、effective (A) =0, saved RTF) =0, file-system (文件 
AR) =0。 当 执行 这 些 调 用 后 ， 用 户 ID 的 状态 如 何 ? 


a) setuid( 2000); 

b)  setreuzd(—1, 2000); 

c) seteutd(2000); 

d)  setfsuid( 2000); 

e) selresuid(—1, 2000, 3000); 


9-2. 拥有 如 下 用 户 ID 的 进程 享有 特权 吗 ? 请 予 解 释 。 


9-3. 使 用 setgroups() 及 库 函 数 从 密码 文件 、 组 文件 (参见 8.4 市 ) 
中 获取 信息 ， 以 实现 initgroups()。 请 注意 ， 欲 调用 setgroups()， 进 程 必 
须 享 有 特权 。 


real=0 effective=1000 saved=1000 file-system=1000 


9-4. (KK RHEIN AH Pik AX, PUT SA PIDAY Wset- 
user-ID 程 序 ， 且 Y 为 非 0 值 ， 对 进程 凭证 的 设置 如 下 : 


real=X effective=Y saved=Y 


《这 里 忽略 了 文件 系统 用 户 ID， 因 为 该 ID 随 有 效用 户 ID 的 变化 而 变 
化 。) 为 执行 如 下 操作 ， 请 分 别 列 出 对 setuid()、seteuid()、setreuid() 和 
setresuid() 的 调用 。 


a) 挂 起 和 恢复 set-user-ID 身份 〈 即 将 有 效用 户 ID 在 实际 用 户 ID 和 
保存 set-user-ID 间 切换 ) 。 


b) 永久 放弃 set-user-ID 身 份 〈 即 确保 将 有 效用 户 ID 和 保存 set-user- 
ID 设置 为 实际 用 户 ID) 。 


《该 练习 还 需要 使 用 getuid0 和 geteuid0 函 数 来 获取 进程 的 实际 用 户 


ID 和 有 效用 户 ID。) 请 注意 ， 鉴 于 上 述 列 出 的 茶 些 系统 调用 ， 部 分 操作 
将 无 法 实现 。 


9-5. 针对 执行 setruser-ID-root 程 序 的 进程 ， 重 复 上 述 练习 ， 进 程 赁 
证 的 初始 值 如 下 : 


real=X effective=0 saved=0 





DŽP: 即 标识 符 。 
QZH: 进程 。 
@ 译 者 注 : 即 属 主 和 属 组 。 


Fete a n SE. > 
第 10 章 ”时间 
程序 可 能 会 关注 两 种 时 间 类 型 。 


。 真实 时 间 : 上 度量 这 一 时 间 的 起 点 有 二 : 一 为 某 个 标准 点 ; 二 为 进程 
生命 周期 内 的 某 个 固定 时 点 (通常 为 程序 启动 )。 前 者 为 日 历 
Ccalendar) 时 间 ， 适 用 于 需要 对 数据 库 记 录 或 文件 打上 时 间 惟 的 
程序 ， 后 者 则 称 之 为 流逝 〈elapsed) 时 间或 挂钟 (wall clock) 时 
Bi 主要 针对 需要 周期 性 操作 或 定期 从 外 部 输入 设备 进行 度量 的 程 
Fo 

e 进程 时 间 : 一 个 进程 所 使 用 的 CPU 时 间 总 量 ， 适 用 于 对 程序 、 算 法 
性 能 的 检查 或 优化 。 


大 多 数 计算 机 体系 结构 都 内 置 有 硬件 时 钟 ， 使 内 核 得 以 计算 真实 时 
间 和 进程 时 间 。 本 章 将 介绍 系统 调用 对 这 两 种 时 间 的 处 理 ， 以 及 在 可 读 
时 间 和 机 器 时 间 之 间 互 相 转 换 的 库 函数 。 由 于 可 读 时 间 的 表现 形式 与 地 
理 位 置 、 语 言 和 文化 习俗 有 关 ， 讨 论 这 一 话题 自然 引出 对 时 区 和 地 区 的 
研究 。 











10.1 HAET) (Calendar Time) 


无 论 地 理 位 置 如 何 ，UNIX 系 统 内 部 对 时 间 的 表示 方式 均 是 以 上 自 
Epoch 以 来 的 秒 数 来 度量 的 ，Epoch 亦 即 通 用 协调 时 间 (UTC， 以 前 也 称 
为 格林 威 治 标准 时 间 ， 或 GMT ) 的 1970 年 1 月 1 日 早晨 零点 。 这 也 是 
UNIX 系 统 问 世 的 大 致 日 期 。 日 历时 间 存 储 于 类 型 为 time_{t 的 变量 中 ， 此 
类 型 是 由 SUSv3 定 义 的 整数 类 型 。 














在 32 位 Linux 系 统 ，time _t 是 一 个 有 符号 整数 ， 可 以 表 
示 的 日 期 范围 从 1901 年 12 月 13 日 20 时 45 分 52 秒 至 2038 年 1 月 
19 号 03:14:07。 〈SUSv3 未 定义 time_t 值 为 负数 时 的 含 
义 。) 因此 ， 当 前 许多 32 位 UNIX 系 统 都 面临 一 个 2038 年 的 
理论 问题 ， 如 果 执 行 的 计算 工作 涉及 未 来 日 期 ， 那 么 在 
2038 年 之 前 就 会 与 之 遭遇 。 事 实 上 ， 到 了 2038 年 ， 可 能 所 
有 的 UNIX 系 统 都 早已 升级 为 64 位 或 更 多 位 数 的 系统 ， 这 一 
问题 也 许 会 随 之 而 大 为 缓解 。 然 而 ，32 位 嵌入 式 系统 ， 由 
于 其 寿命 较 之 台式 机 硬件 更 长 ， 故 而 仍然 会 受 此 问题 的 困 
扰 。 此 外 ， 对 于 依然 以 32 位 time_t 格 式 保存 时 间 的 历史 数据 
和 应 用 程序 ， 这 个 问题 将 依然 存在 。 





系统 调用 gettimeofday0， 可 于 tv 指向 的 缓冲 区 中 返回 日 历时 间 。 





#include <sys/time.h> 


int gettimeofday(struct timeval *fv, struct timezone *fz); 


Returns 0 on success, or -1 on error 








参数 tv 是 指 癌 如 下 数据 结构 的 一 个 指针 : 


struct timeval { 
time_t tv_sec; /* Seconds since 00:00:00, 1 Jan 1970 UTC */ 
suseconds t tv usec; /* Additional microseconds (long int) */ 


}; 


虽然 tv_usec 字 段 能 提供 微 秒 级 精度 ， 但 其 返回 值 的 准确 性 则 由 依赖 
于 构架 的 具体 实现 来 决定 。tv_usec 中 的 u 源 于 与 之 形似 的 希腊 字母 n〈 读 
音 “mu”) ， 在 公制 系统 中 表示 百 万 分 之 一 。 在 现代 X86-32 系 统 上 ， 
gettimeofday() 的 确 可 以 提供 微 秒 级 的 准确 度 ( 例 如 ， Pentium 系统 内 置 
有 时 间 惟 计数 寄存 器 ， 随 每 个 CPU 时 钟 周期 而 加 一 ) 。 


gettimeofday( 的 参数 tz 是 个 历史 产物 。 早 期 的 UNIX 实 现 用 其 来 获取 
系统 的 时 区 信息 ， 目 前 已 遭 废 弃 ， 应 始终 将 其 置 为 NULL。 








如 果 提 供 了 tz 参数 ， 那 么 将 返回 一 个 timezone 的 结构 
体 ， 其 内 容 为 上 次 调用 settimeofday0O 时 传 入 的 也 参数 (已 
废弃 ) 值 。 该 结构 包含 两 个 字段 tz_minuteswest 和 
tz_dsttime。tz_minuteswest 字 段 表 示 欲 将 本 时 区 时 间 转 换 为 
UTC 时 间 所 必须 增加 的 分 钟 数 ， 如 为 负 值 ， 则 表示 此 时 区 
位 于 UTC 以 东 【〈 例 如 ， 如 为 欧洲 中 部 时 间 ， 会 提前 UTC 一 
小 时 ， 则 将 此 字段 设置 为 -60) 。tz_dsttime 字 段 内 为 一 个 
常量 ， 意 在 表示 这 个 时 区 是 否 强制 施行 夏令 时 (DST) 
制 。 正 由 于 夏令 时 制度 无 法 用 一 个 简单 算法 加 以 表达 ， 故 
MZ% CERF. 〈Linux 从 未 文 持 过 此 参数 。) 详情 请 
参考 gettimeofday(2) 手 册页 。 








time() 系 统 调 用 返回 自 Epoch LIRA CA eK AL gettimeofdayO 上 所 
返回 的 tv 参数 中 tv_sec 字 段 的 数值 相同 ) 。 





#include <time.h> 
time_t time(time_t *timep); 


Returns number of seconds since the Epoch,or (time_t) -1 on crror 





如 果 timep 参 数 不 为 NULL， 那 么 还 会 将 日 Epoch 以 来 的 秒 数 置 于 
timep 上 所 指 回 的 位 置 。 


由 于 time0 会 以 两 种 方式 返回 相同 的 值 ， 而 使 用 时 唯一 可 能 出 错 的 
地 方 是 赋予 timep 参 数 一 个 无 效 地 址 (EFAULT) ， 因 此 往往 会 简单 地 采 
用 如 下 调用 《不 做 错误 检查 ) : 


t = time(NULL); 


之 所 以 存在 两 个 本 质 上 目的 相同 的 系统 调用 (timeO 和 
gettimeofday()) ， 自 有 其 历史 原因 。 早 期 的 UNIX 实 现 提供 
了 time()。 而 4.3BSD 义 补充 了 更 为 精确 的 gettimeofday() 系 统 
调用 。 这 时 ， 再 将 time() 作 为 系统 调用 就 显得 多 余 ， 可 以 将 
其 实现 为 一 个 调用 gettimeofday0 的 库 函 数 。 





10.2 时间 转换 函数 


图 10-1 所 示 为 用 于 在 time_t 值 和 其 他 时 间 格 式 之 间 相 互 转 换 的 函 
数 ， 其 中 包括 打印 输出 。 这 些 函 数 屏 项 了 因 时 区 、 夏 令 时 (DST) 制 和 
本 地 化 等 问题 给 转换 所 帝 来 的 种 种 复杂 性 。10.3 节 将 讨论 时 区 
(timezone) ，10.4 节 将 讨论 地 区 Clocale) 。 


固定 格式 字符 串 用 户 格式 的 本 
Tue Feb 1 21:39:46 2011\n\0 地 化 字符 串 


其 












time() stime() gettimeofday() 


图 10-1: 获取 和 使 用 日 历时 间 的 函数 


10.2.1 将 time_t 转 换 为 可 打印 格式 


为 了 将 time_t 转 换 为 可 打印 格式 ，ctime() 函 数 提供 了 一 个 简单 方 
ee 





ftinclude <time.h> 
char *ctime(const time_t *t2mep); 


Returns pointer to statically allocated string terminated 
by newline and \o on success, or NULL on error 











把 一 个 指向 time _t 的 指针 作为 tmep 参 数 传 入 函数 ctime0， 将 返回 一 
个 长 达 26 字 节 的 字符 串 ， 内 含 标准 格式 的 日 期 和 时 间 ， 如 下 例 所 示 : 
Wed Jun 8 14:22:34 2011 

该 字符 串 包 含 换 行 符 和 终止 空 字 节 各 一 。 ctime() 函 数 在 进行 转换 
时 ， 会 自动 对 本 地 时 区 和 DST 设 置 加 以 考虑 (10.3 节 将 解释 这 些 设 置 的 
确定 过 程 》》。 返 回 的 字符 串 经 由 静态 分 配 ， 下 一 次 对 ctime() 的 调用 会 将 
HA ii 


SUSv3 规 定 ， 调 用 ctime0、gmtime0、localTime0 或 asctime0 中 的 任 
一 函数 ， 都 可 能 会 覆 关 由 其 他 函数 返回 ， 且 经 静态 分 配 的 数据 结构 。 换 
言 之 ， 这 些 函 数 可 以 共享 返回 的 字符 数组 和 tm 结构 体 ， 某 些 版 本 的 glibc 
也 正 是 这 样 实现 的 。 如 果 有 意 在 对 这 些 函 数 的 多 次 调用 间 维 护 返 回 的 信 
轧 ， 那 么 必须 将 其 保存 在 本 地 副本 中 。 


ctime_rO 是 ctime0O 的 可 重 入 版 本 。 〈21.1.2 节 将 解释 重 
入 。) 该 函数 允许 调用 者 额外 指定 一 个 指针 参数 ， 所 指 癌 
的 缓冲 区 (由 调用 者 提供 〉 用 于 返回 时 间 字 符 串 。 本 章 所 
论 及 的 其 他 函数 的 可 重 入 版 ， 其 操作 方式 与 之 类 似 。 


10.2.2 ”time_t 和 分 解 时 间 之 间 的 转换 


疯 数 gmtime() 和 ]ocaltime() 可 将 一 time _t 值 转换 为 一 个 所 谓 的 分 解 时 
H] (broken-down time)。 分 解 时 间 被 置 于 一 个 经 由 静态 分 配 的 结构 中 ， 
其 地 址 则 作为 函数 结果 返回 。 








ftinclude <time.h> 


struct tm *gmtime(const time_t *zmep) ; 
struct tm *localtime(const time_t *timep); 


Both return a pointer to a statically allocated broken-down 
time structure on success, or NULL on error 











函数 gmtime0) 能 够 把 日 历时 间 转 换 为 一 个 对 应 于 UTC 的 分 解 时间 。 
(字母 GM 源 于 格林 威 治标 准时 间 ) 。 相 形 之 下 ， 函 数 localtime0) 需 要 考 
虑 时 区 和 夏令 时 设置 ， 返 回 对 应 于 系统 本 地 时 间 的 一 个 分 解 时 间 。 


gmtime_r0 和 ]localtimne_r0O 分 别 是 这 些 函 数 的 可 重 入 
版 。 


在 这 些 函 数 所 返回 的 tm 结构 中 ， 日 期 和 时 间 被 分 解 为 多 个 独立 字 
段 ， 其 形式 如 下 : 


struct tm { 
int tm_sec; /* Seconds (0-60) */ 
int tm_min; /* Minutes (0-59) */ 
int tm hour; /* Hours (0-23) */ 
int tm mday; /* Day of the month (1-31) */ 
int tm mon; /* Month (0-11) */ 
int tm year; /* Year since 1900 */ 
int tm_wday; /* Day of the week (Sunday = 0)*/ 
int tm yday; /* Day in the year (0-365; 1 Jan = 0)*/ 
int tm_isdst; /* Daylight saving time flag 
> 0: DST is in effect; 
= 0: DST is not effect; 
< 0: DST information not available */ 
5 


将 字段 tm_sec 的 上 限 设 为 60《〈 而 非 59) UABE, BRAHE 
人 类 日 历 调整 至 精确 的 天 文 年 《所 谓 的 回归 年 ) 。 


如 果 定 义 了 _BSD_SOURCE 功 能 测试 宏 ， 那 么 由 glibc 定 义 的 tm 结构 
还 会 包含 两 个 额外 字段 ， 以 描述 关于 所 示 时 间 的 深入 信息 。 第 一 个 字段 





long int tm_gmtoff， 包 含 所 示 时 间 超 出 UTC 以 东 的 秒 数 。 第 二 个 字段 
const char* tm_zone， 是 时 区 名 称 的 缩写 〈 例 如 ，CEST 为 欧洲 中 部 夏令 
时 间 ) 。SUSv3 并 未 定义 这 些 字 段 ， 它 们 只 见 诸 于 少数 其 他 UNIX 实 现 
(主要 为 BSD 衍 生 版 本 ) 。 


函数 mktime) 将 一 个 本 地 时 区 的 分 解 时 间 翻 译 为 time_t 值 ， 并 将 其 
作为 函数 结果 返回 。 调 用 者 将 分 解 时 间 置 于 一 个 tm 结构 ， 再 以 timeptr 指 
a 指 回访 结构。 这 一 转换 会 忽略 输入 tm 结构 中 的 tm_wday 和 tm_yday 字 
Xo 











#include <time.h> 


time t mktime(struct tm *t2meptr); 
Returns seconds since the Epoch corresponding to timeptr 
on success, or (lime_{) -1 on error 











函数 mktime0O 可 能 会 修改 timeptr 所 指 回 的 结构 体 ， 全 少 会 确保 对 
tm_yday 字 段 值 的 设置 ， 会 与 其 他 和 输入 字段 的 值 能 对 应 起 


此 外 ，mktime0 不 要 求 tm 结构 体 的 其 他 字段 受到 前 述 范 围 的 限制 。 
任何 一 个 字段 的 值 超出 范围 ，mktime0 都 会 将 其 调整 回 有 效 范 围 之 内 ， 
并 适当 调整 其 他 字段 。 所 有 这 些 调整 ， 均 太 生 于 mktime() 更 新 tm_wday 
和 tm_yday 字 有 段 并 计算 返回 值 time_t 之 前 。 


例如 ， 如 果 输 入 字段 tm_sec 的 值 为 1223， 那 么 在 返回 时 此 字段 的 值 
将 为 3， 且 tm_min 字 段 值 会 在 其 之 前 值 的 基础 上 加 2。 “如果 这 一 改动 造 
成 tm_min 洪 出， 那么 将 调整 tm_min 的 值 ， 并 且 递 增 tm_hour 字 段 ， 以 此 
类 推 。) 这 些 调整 其 至 适用 于 字段 负 值 。 例 如 ， 指 定 tm_sec 为 -1 即 意味 
着 前 一 分 钟 的 第 59 秒 。 此 功能 允许 以 分 解 时 间 来 计算 日 期 和 时 间 ， 故 而 
非常 有 用 。 

mktime() 在 进行 转换 时 会 对 时 区 进行 设置 。 此 外 ，DST 设 置 的 使 用 
与 否 取决 于 输入 字段 tm_isdst 的 值 。 


e 右 tm_isdst 为 0， 则 将 这 一 时 间 视 为 标准 间 〈 即 ， 忽 略 收 令 时 ， 即 使 
实际 上 每 年 的 这 一 时 刻 处 于 夏令 时 阶段 〉。 
e 行 tm _isdst 大 于 0， 则 将 这 一 时 间 视 为 夏令 时 〈 即 ， 夏 令 时 生效 ， 即 








使 每 年 的 此 时 不 处 于 夏令 时 阶段 ) 。 
e 若 tm_isdst 小 于 0， 则 试图 判定 DTS 在 每 年 的 这 一 时 间 是 否 生效 。 这 
往往 是 众望 所 归 的 设置 。 
(无 论 tm_isdst 的 初始 设置 如 何 〉 在 转换 完成 时 ， 如 果 针 对 给 定 的 


时 间 ，DST 生 效 ，mktime0 会 将 tm_isdst 字 段 置 为 正 值 ， 若 DST 未 生效 ， 
则 将 tm_isdst 置 为 0。 


10.2.3 ”分解 时 间 和 打印 格式 之 间 的 转换 

本 市 会 介绍 将 分 解 时 间 和 打印 格式 相互 进行 转换 的 函数 。 
从 分 解 时 间 转 换 为 打印 格式 

在 参数 tm 中 提供 一 个 指 同 分 解 时 间 结 构 的 指针 ，asctime() 则 会 返回 
一 指针 ， 指 癌 经 由 静态 分 配 的 字符 串 ， 内 售 时 间 ， 格 式 则 与 ctime 04 


同 








fe) 





#include <time.h> 


char *asctime(const struct tm *tameptr) ; 


Returns pointer to statically allocated string terminated by 
newline and \o on success, or NULL on error 











相形 于 ctime0， 本 地 时 区 设置 对 asctime0 没 有 影响 ， 因 为 其 所 转换 
的 是 一 个 分 解 时 间 ， 该 时 间 通 常 要 么 已 然 通 过 localtimeO 作 了 本 地 化 处 
理 ， 要 么 早已 经 由 gmtime() 转 换 成 了 UTC。 


如 同 ctime() 一 样 ，asctime() 也 无 法 控制 其 所 生成 字符 串 的 格式 。 





asctime() 的 可 重 入 版 为 asctime_r()。 


程序 清单 10-1 演 示 asctime() 以 及 直到 本 章 结 尾 所 述 时 间 转 换 函 数 的 
用 法 。 访 程序 获取 当前 的 日 历时 间 ， 随 后 使 用 各 种 时 间 转 换 函 数 并 显示 





其 结果 。 下 例 为 冬季 在 德国 慕尼黑 运行 此 程序 的 结果 ， 该 地 区 处 于 欧洲 
中 部 时 间 这 一 时 区 ， 比 UTC 要 早 一 小 时 。 


$ date 
Tue Dec 28 16:01:51 CET 2010 
$ ./calendar_time 
Seconds since the Epoch (1 Jan 1970): 1293548517 (about 40.991 years) 
gettimeofday() returned 1293548517 secs, 715616 microsecs 
Broken down by gmtime(): 
year=110 mon=11 mday=28 hour=15 min=1 sec=57 wday=2 yday=361 isdst=0 
Broken down by localtime{): 
year=110 mon=11 mday=28 hour=16 min=1 sec=57 wday=2 yday=361 isdst=0 





asctime() formats the gmtime() value as: Tue Dec 28 15:01:57 2010 


ctime() formats the time() value as: Tue Dec 28 16:01:57 2010 
mktime(} of gmtime() value: 1293544917 secs 
mktime() of localtime() value: 1293548517 secs 3600 secs ahead of UTC 


程序 清单 10-1: 获取 和 转换 日 历时 间 


time/calendar_time.c 


#include <locale.h> 
#include <time.h> 
#include <sys/time.h> 
#include "tlpi hdr.h" 


#define SECONDS IN TROPICAL YEAR (365.24219 * 24 * 60 * 60) 


int 
main(int argc, char *argv[]) 
{ 
time t t; 
struct tm *gmp, *locp; 
struct tm gm, loc; 
struct timeval tv; 


t = time(NULL); 
printf("Seconds since the Epoch (1 Jan 1970): %ld", (long) t); 
printf(" (about %6.3f years)\n", t / SECONDS IN TROPICAL YEAR); 


if (gettimeofday(&tv, NULL) == -1) 
errExit("gettimeofday" ); 
printf(" gettimeofday() returned %ld secs, %ld microsecs\n", 
(long) tv.tv_sec, (long) tv.tv_usec); 


gmp = gmtime(&t); 
if (gmp == NULL) 
errExit("gmtime"); 


gm = *gmp; /* Save local copy, since *gmp may be modified 
by asctime() or gmtime() */ 
printf("Broken down by gmtime():\n"); 
printf(" year=%d mon=%d mday=%d hour=%d min=%d sec=%d ", gm.tm_year, 
gm.tm mon, gm.tm mday, gm.tm hour, gm.tm min, gm.tm sec); 
printf("wday=%d yday=%d isdst=%d\n", gm.tm wday, gm.tm yday, gm.tm isdst); 


locp = localtime(&t); 
if (locp == NULL) 
errExit("localtime"); 


loc = *locp; /* Save local copy */ 


printf("Broken down by localtime():\n"); 

printf(" year=%d mon=%d mday=%d hour=%d min=%d sec=%d ", 
loc.tm_year, loc.tm_mon, loc.tm_mday, 
loc.tm_hour, loc.tm_min, loc.tm_sec); 

printf("wday=%d yday=%d isdst=%d\n\n", 
loc.tm_wday, loc.tm_yday, loc.tm_isdst); 


printf("asctime() formats the gmtime() value as: %s", asctime(&gm)); 
printf("ctime() formats the time() value as: %s", ctime(&t)); 


printf("mktime() of gmtime() value: %ld secs\n", (long) mktime(&gm) ) ; 
printf("mktime() of localtime() value: %ld secs\n", (long) mktime(&loc)); 


exit(EXIT SUCCESS); 


time/calendar_time.c 


当 把 一 个 分 解 时 间 转 换 成 打印 格式 时 ， 函 数 strftime() 可 以 提供 更 为 
精确 的 控制 。 令 timeptr 指 向 分 解 时 间 ，strftime() 会 将 以 null 结 尾 、 由 日 
期 和 时 间 组 成 的 相应 字符 串 置 于 outstr 所 指向 的 缓冲 区 中 。 





#include <time.h> 
size_t strftime(char *outstr, size_t maxsize, const char *format, 
const struct tm *tzmeptr) ; 


Returns number of bytes placed in outstr (excluding 
terminating null byte) on success, or 0 on error 











outstr 中 返回 的 字符 串 按照 format 参 数 定义 的 格式 做 了 格式 化 。 
Maxsize 参 数 指 定 outstr 的 最 大 长 度 。 不 同 于 ctime() 和 asctime()， 
strftime() 不 会 在 字符 串 的 结尾 包括 换行 符 〈( 除 非 format 中 定义 有 换行 
符 ) 。 


如 果 成 功 ，strftime() 返 回 outstr 所 指 缓冲 区 的 字 节 长 度 ， 且 不 包括 
终止 空 字 节 。 如 果 结 果 字 符 串 的 总 长 度 ， 含 终止 空 字 节 ， 超 过 了 
maxsize 参 数 ， 那 么 strftime() 会 返回 0 以 示 出 错 ， 且 此 时 无 法 确定 outstr 的 
内 容 。 


strftime() 的 format 参 数 是 一 字符 串 ， 与 赋予 printf() 的 参数 相 类 似 。 
WLAD A) 的 字符 序列 是 对 转换 的 定义 ， 函 数 会 将 百 分 号 后 的 说 
明 符 字符 一 一 替换 为 日 期 和 时 间 的 组 成 部 分 。 这 是 一 套 相 当 丰 富 的 转换 
说 明 符 ， 表 10-1 中 所 列 的 是 其 一 个 子 集 。《 完 整 的 列表 可 见 诸 于 
a ) 除非 特别 注 明 ， 所 有 这 些 转 换 说 明 符 都 符合 SUSv3 
示 准 。 


%U 和 %W 说 明 符 都 生成 一 年 中 的 周 数 。%U 的 周 数 按 以 下 方法 计 
算 。 含 有 星期 日 的 第 一 周 编写 为 1， 此 周 的 前 一 周 编写 为 0。 如 果 星 期 天 
恰巧 是 当年 的 第 一 天 ， 那 么 就 没有 第 0 周 ， 当 年 的 最 后 一 天 则 属于 第 53 
ER 只 不 过 计算 对 象 是 周一 而 非 

通 利 情况 下 ， 我 们 希望 在 本 书 的 各 种 示范 程序 中 显示 当前 时 间 。 为 
此 ， 本 书 提供 了 函数 currTime()， 其 返回 一 字符 串 ， 内 含 strftime() 按 
format 参 数 格式 化 的 当前 时 间 。 











#include "curr time.h" 


char *currTime(const char *format); 


Returns pointer to statically allocated string, or NULL on error 





程序 清单 10-2 所 示 为 currTime0O 函 数 的 实现 。 





表 10-1: strftime(0 的 转换 说 明 符 选 集 


集 
本 分 号 (gb) 字符 
nem ba 
星期 几 的 全 条 
月 份 名 称 的 缩写 
Tue Feb 1 21:39:46 2011 
的 一 天 (2 位 数字 ，01 至 31 天 ) 
期 格式 (与 %m%d%y 相 同 ) 
中 的 一 天 《2 个 字符 ) 
ISO 日 期 格式 (与 %Y-%m-%d 相 同 ) 
小 时 《24 小 时 制 ，2 位 数 ) 



































%I 小 时 (12 小 时 制 ，2 位 数 ) 


wo jea (3 位 数字 ， 从 001 到 366) 
pm [th (2 位 ，01 到 12 ) 





E 《GNU 扩展 ) 





09 





和 am Camas 
2 


计算 、 一 年 中 的 周 数 (00353) ee 















































星期 几 编 号 〈0 至 6， 星 期 日 = 0) 








ian 


05 
05 








%y 2 位 数字 人 年份 11 


4 位 数字 年 份 


时 区 名 称 








程序 清单 10-2: 返回 当前 时 间 的 字符 串 的 函数 








time/curr_time.c 


#include <time.h> 
#include “curr _time.h" /* Declares function defined here */ 


#define BUF SIZE 1000 


/* Return a string containing the current time formatted according to 
the specification in ‘format’ (see strftime(3) for specifiers). 

If ‘format’ is NULL, we use "%c" as a specifier (which gives the 
date and time as for ctime(3}, but without the trailing newline). 
Rekurns NULL on error. */ 


cha 

currTime(const char *format) 

{ 
static char buf[BUF SIZE]; /* Nonreentrant */ 
time_t t; 
size t s; 


struct tm *tm; 
t = time(NULL); 
tm = localtime(&t); 
if (tm == NULL) 
return NULL; 
s = strftime(buf, BUF SIZE, (format != NULL) ? format : "%c", tm); 
return (s == 0) ? NULL : buf; 


time/curr_time.c 
将 打印 格式 时 间 转 换 为 分 解 时 间 


函数 strptime() 是 strftime() 的 逆 同 函数 ， 将 包含 日 期 和 时 间 的 字符 串 
转换 成 一 分 解 时 间 。 





#define XOPEN SOURCE 
#include <time.h> 
char *strptime(const char *str, const char *format, struct tm *f2meptr); 


Returns pointer to next unprocessed character in 
str on success, or NULL on error 











函数 strptime0O 按 照 参数 format 内 的 格式 要 求 ， 对 由 日 期 和 时 间 组 成 
ee 以 解析 ， 并 将 转换 后 的 分 解 时 间 置 于 指针 timeptr 所 指 问 的 


如 果 成 功 ，strptime() 返 回 一 指针 ， 指 问 str 中 下 一 个 未 经 处 理 的 字 
符 。 (如 果 字 符 串 中 还 包含 有 需要 应 用 程序 处 理 的 额外 信息 ， 这 一 特性 
就 能 派 上 用 场 。) 如果 无 法 匹配 整个 格式 字符 串 ，strptime() 返 回 
NULL， 以 示 出 现 错误 。 


strptime() 的 格式 规范 类 似 于 scanf(3)， 包 售 以 下 类 型 的 字符 。 


。 转换 字符 串 冠 以 一 个 百 分 号 (%) 字符 。 

。 如 包含 空格 字符 ， 则 意味 着 其 可 匹配 零 个 或 多 个 空格 。 

。 (9% 之 外 的 ) 非 空格 字符 必须 和 输入 字符 串 中 的 相同 字符 严格 匹 
配 。 


转换 说 明 类 似 于 之 前 为 strftime0O 给 出 的 内 容 〈 表 10-1) 。 主 要 的 区 
别 在 于 ， 此 处 的 说 明 符 更 为 通用 。 例 如 ， 不 拘 于 星期 名 称 的 全 称 或 简 
称 ，9%a 和 %A 都 可 接受 ， 而 且 %d 和 %e 均 可 用 于 读 取 月 中 的 个 位 天 数 ， 
无 论 该 数字 前 面 是 否 有 0。 此 外 ， 不 区 分 大 小 写 ， 例如，May 和 MAY 
是 相同 的 月 份 名 称 。 使 用 字符 串 %% 来 匹配 输入 字符 串 中 的 百 分 号 字 
符 。 strptime(3) 手 册页 提供 有 更 多 的 细 市 。 


glibc 在 实现 strptime() 时 ， 并 不 修改 tm 结构 体 中 那些 未 获 format 说 明 
符 初始 化 的 字段 。 这 也 意味 看 可 以 根据 多 个 字符 串 ， 例 如 ， 一 个 日 期 字 
符 串 和 一 个 时 间 字 符 串 ， 发 起 多 次 strptime0O 调 用 ， 来 创建 一 个 tm 结构 
体 。SUSv3 虽 然 允 许 这 一 行为 ， 但 并 不 强制 要 求实 现 ， 因 此 在 其 他 
UNIX 实 现 上 不 能 对 其 有 所 依赖 。 要 保证 应 用 的 可 移植 性 ， 束 必须 确 
保 ， 要 么 str 和 format 中 所 含 输入 信息 足以 设置 最 终 tm 结 构 的 所 有 字段 ， 
要 么 在 调用 strptime0 之 前 对 tm 结构 体 已 经 做 了 适当 的 初始 化 处 理 。 在 大 
多 数 情 况 下 ， 用 memsetO 把 整个 结构 体 置 为 0 也 就 足够 了 了 ， 但 要 留心 ， 




















在 glibc 和 许多 其 他 时 间 转 换 函 数 的 实现 中 ，m_mday 字 段 值 为 0， 意 为 上 
月 的 最 后 一 天 。 最 后 还 要 注意 ，strptime() 从 不 设置 tm 结构 体 的 tm_isdst 
字段 。 











GNU C 库 还 提供 有 与 strptime() 功 能 类 似 的 两 个 函 
aX: getdate) 〈 已 由 SUSv3 规 范 ， 且 应 用 广泛 ) 及 其 可 重 入 
版 getdate_r() (SUSv3 中 未 定义 ， 仅 获 少数 UNIX 实 现 文 
持 ) 。 此 处 将 不 会 介绍 这 些 函 数 ， 因 为 在 指定 用 于 扫描 日 
期 的 格式 时 ， 它 们 所 采用 的 是 外 部 文件 (由 环境 变量 
DATEMSK 定 义 ) ， 这 不 但 令 其 难以 使 用 ， 而 且 会 在 set- 
user-ID 程 序 中 造成 安全 漏洞 。 








程序 清单 10-3 演 示 了 strptime() 和 strftime() 的 用 法 。 该 程序 从 命令 行 
参数 中 接受 日 期 和 时 间 ， 然 后 用 strptime() 将 其 转换 为 一 分 解 时 间 ， 接 着 
使 用 strftime() 执 行道 向 转换 并 显示 结果 。 该 程序 接收 至 多 3 个 参数 ， 其 
中 前 两 个 为 必需 提供 。 第 一 个 参数 是 包含 日 期 和 时 间 的 字符 串 。 第 二 个 
参数 指定 了 strptime() 在 解析 第 一 个 参数 时 所 采用 的 格式 。 可 选 的 第 三 个 
参数 是 格式 字符 串 ， 用 于 strftime0 的 逆向 转换 。 如 果 省 略 此 参数 ， 将 使 
用 一 个 默认 的 格式 字符 串 。 (本 程序 中 使 用 的 setLocaleO 函 数 将 在 10.4 
节 中 加 以 介绍 。) 以 下 shell 会 话 日 志 显 示 了 使 用 该 程序 的 一 些 例子 : 
$ ./strtime "9:39:46pm 1 Feb 2011" "%I:%M:%S5%p %d %b %Y" 


calendar time (seconds since Epoch): 1296592786 
strftime() yields: 21:39:46 Tuesday, 01 February 2011 CET 








以 下 用 法 与 之 相似 ， 只 不 过 这 次 为 strftime() 明 确 指定 了 格式 : 


$ ./strtime "9:39:46pm 1 Feb 2011" "%I:%M:%S%p %d %b ZY" "%F AT" 
calendar time (seconds since Epoch): 1296592786 
strftime() yields: 2011-02-01 21:39:46 














程序 清单 10-3: 获取 和 转换 日 历时 间 














time/strtime.c 
#define XOPEN SOURCE 
#include <time.h> 
#include <locale.h> 
#include "tlpi_hdr.h” 


#define SBUF_SIZE 1000 


int 
main(int argc, char *argv[]) 


struct tm tm; 
char sbuf[SBUF_SIZE]; 
char *ofmt; 


if (argc < 3 || strcmp{argv[1], "--help") == 0) 
usageErr("%s input-date-time in-format [out-format]\n", argv[0]); 


if (setlocale(LC_ALL, "") == NULL) 
errExit("setlocale"); /* Use locale settings in conversions */ 


memset(&tm, 0, sizeof(struct tm)); /* Initialize 'tm' */ 
if (strptime(argv[1], argv[2], &tm) == NULL) 
fatal("strptime"); 


tm.tm_isdst = -1; /* Not set by strptime(); tells mktime() 
to determine if DST is in effect */ 
printf("calendar time (seconds since Epoch): %ld\n", (long) mktime(&tm)); 


ofmt = (argc > 3) ? argv[3] : "%H:%M:%S ZA, %d %B %Y XZ"; 

if (strftime(sbuf, SBUF SIZE, ofmt, &tm) == 0) 
fatal("strftime returned 0"); 

printf("strftime() yields: %s\n", sbuf); 


exit(EXIT SUCCESS); 


time/strtime.c 


10.3 WK 


不 同 的 国家 《有 时 甚至 是 同一 国家 内 的 不 同 地 区 ) 使 用 不 同 的 时 区 
和 履 时 制 。 对 于 要 输入 和 输出 时 间 的 程序 来 说 ， 必 须 对 系统 所 处 的 时 区 
ene 所 幸 的 是 ， 所 有 这 些 细节 部 已 经 由 C 语 言 函 数 库 包 
J 








时 区 定义 


时 区 信息 往往 是 既 浩 楷 又 多 变 的 。 出 于 这 一 原因 ， 系 统 没有 将 其 直 
0 而 是 以 标准 格式 保存 于 文件 中 ， 并 加 以 维 
Fo 





这 些 文件 位 于 目录 /usrshare/zoneinfo 中 。 该 目录 下 的 每 个 文件 都 包 
含 了 一 个 特定 国家 或 地 区 内 时 区 制度 的 相关 信息 ， 且 往往 根据 其 所 描述 
的 时 区 来 加 以 命名 ， 诸 如 EST〈 美 国 东 部 标准 时 间 〉 、CET【〔 欧 洲 中 部 
WHE) 、UTC、Turkey 和 Iran。 此 外 ， 可 以 利用 子 目 录 对 相关 时 区 进行 
有 层次 的 分 组 。 例 如 ，Pacific 目录 就 可 能 包含 文件 Auckland、 
Port_Moresby 和 Galapagos。 在 程序 中 指定 使 用 的 时 区 ， 实 际 上 是 指定 该 
目录 下 某 一 时 区 文件 的 相对 路 径 名 。 


系统 的 本 地 时 间 由 时 区 文件 /etc/localtime 定 义 ， 通 常 链接 
到 j/usr/share/zoneinfo 下 的 一 个 文件 。 








时 区 文件 的 格式 记述 于 tzfile(5) 手 册页 ， 其 创建 可 通过 
zic(8)〈 时 区 信息 编译 器 ，zoone information compiler) 工具 
来 完成 。zdump(8) 命 令 可 根据 指定 时 区 文件 中 的 时 区 来 显 
示 当 前 时 间 。 





为 程序 指定 时 区 





为 运行 中 的 程序 指定 一 个 时 区 ， 需 要 将 TZ 环境 变量 设置 为 由 一 冒 
写 (:) 和 时 区 名 称 组 成 的 字符 串 ， 其 中 时 区 名 称 定义 于 /usr/share/zoneinfo 
中 。 设 置 时 区 会 自动 影响 到 函数 ctime()、localtime()、mktime() 和 
strftime()。 


为 了 获取 当前 的 时 区 设置 ， 上 述 函 数 都 会 调用 tzset(3)， 对 如 下 3 个 
全 局 变量 进行 了 初始 化 : 
char *tzname[2]; /* Name of timezone and alternate (DST) timezone */ 
int daylight; /* Nonzero if there is an alternate (DST) timezone */ 


long timezone; /* Seconds difference between UTC and local 
standard time */ 


函数 tzset0) 会 首先 检查 环境 变量 TZ。 如 果 尚 未 设置 该 变量 ， 那 么 就 
采用 /etclocaltime 中 定义 的 默认 时 区 来 初始 化 时 区 。 如 果 TZ 环 境 变 量 的 
值 为 空 ， 或 无 法 与 时 区 文件 名 相 匹 配 ， 那 么 怠 使 用 UTC。 还 可 将 TZDIR. 
环境 变量 〈 非 标准 的 GNU 扩 展 ) 设置 为 搜寻 时 区 信息 的 目录 名 称 ， 以 蔡 
代 默 认 的 /usrshare/zoneinfo 目 录 。 


可 以 通过 运行 程序 清单 10-4 中 的 程序 来 观察 TZ 变 量 的 影响 力 。 第 一 
次 运行 输出 的 是 相应 系统 的 默认 时 区 COCA BEN fa], CET) 。 在 第 二 
次 运行 时 ， 由 于 指定 的 时 区 为 New Zealand， 其 在 每 年 此 时 已 进入 夏令 
时 ， 时 区 要 比 CET 提 前 12 个 小 时 。 





























$ ./show_time 

ctime() of time() value is: Tue Feb 1 10:25:56 2011 

asctime({) of local time is: Tue Feb 1 10:25:56 2011 

strftime() of local time is: Tuesday, 01 Feb 2011, 10:25:56 CET 

$ TZ=":Pacific/Auckland" ./show_time 

ctime() of time() value is: Tue Feb 1 22:26:19 2011 

asctime() of local time is: Tue Feb 1 22:26:19 2011 

strftime() of local time is: Tuesday, 01 February 2011, 22:26:19 NZDT 











程序 清单 10-4: 演示 时 区 和 地 区 的 效果 

















time/show_time.c 


#include <time.h> 
#include <locale.h> 
#include "tlpi_hdr.h" 


#define BUF_SIZE 200 


int 

main(int argc, char *argv[]) 
time_t t; 
struct tm *loc; 
char buf[BUF_SIZE]; 


if (setlocale(LC ALL, "") == NULL) 
errExit("setlocale"); /* Use locale settings in conversions */ 


t = time(NULL); 

printf("ctime() of time() value is: %s", ctime(&t)); 

loc = localtime(&t); 

if (loc == NULL) 
errExit("localtime"); 

printf("asctime() of local time is: %s", asctime({loc)); 

if (strftime(buf, BUF_SIZE, "%A, %d %B %Y, %H:%M:%S %Z", loc) == 0) 
fatal("strftime returned 0"); 

printf("strftime() of local time is: %s\n", buf); 


exit(EXIT SUCCESS); 


time/show_time.c 


SUSv3 为 设置 TZ 环 境 变 量 定 义 了 两 个 通用 方法 。 如 前 所 述 ， 可 将 
TZ 设 置 为 由 冒号 外 加 字符 串 组 成 的 字符 序列 ， 其 中 的 字符 串 用 以 标识 
时 区 ， 并 随 系统 实现 的 不 同 而 不 同 ， 通 常 为 时 区 描述 文件 的 路 径 名 。 
(在 采用 这 种 形式 时 ，Linux 和 其 他 一 些 UNIX 实 现 允 许 将 冒 与 省略， 但 
SUSv3 并 未 规范 这 一 行为 。 为 了 保证 代码 的 可 移植 性 ， 应 当 始 终 包含 冒 


Fo ) 


设置 TZ 的 另 一 种 方法 在 SUSv3 中 有 完整 的 定义 。 使 用 此 方法 ， 可 以 
将 如 下 形式 的 字符 串 赋 给 TZ: 


std offset [ dst [ offset ][ , start-date [ Hime | , end-date [ /lime ]]] 











为 了 便于 阅读 ， 在 上 面 这 行 字符 串 中 加 入 了 空格 ,但 实际 上 任何 空 
格 都 不 应 出 现在 TZ 中 。 方 括号 〈[]) 用 来 表示 可 选项 。 


std 和 dst 部 分 是 用 以 标识 标准 和 DST 时 区 名 称 的 字符 串 。 例 如 ，CET 
和 CEST 分 别 为 欧洲 中 部 时 间 和 欧洲 中 部 夏令 时 间 。 各 种 情况 下 的 offset 
分 别 表 示 欲 转换 为 UTC， 需 要 车 加 在 本 地 时 间 上 的 正 、 负 调整 值 。 最 后 
四 部 分 则 提供 了 一 个 规则 ， 描 述 何 时 从 标准 时 间 变 更 为 夏令 时 。 


可 以 多 种 格式 指定 date， 其 中 之 一 是 Mm.n.d， 意 即 : m(1 一 12) 月 
中 ， 第 n (1~5, 每 月 的 最 后 d 天 总 为 第 5 周 ) 周 ， 星期 d (0= 星 期 一 ， 6= 
星期 天 ) 。 如 果 省 略 time， 则 无 论 何 种 情况 下 均 默 认为 02:00:00 (上 午 2 
jt). 














以 下 将 TZ 定义 为 Central Europe ， 访 时 区 的 标准 时 间 比 UTC 提前 1 小 
时 ， 且 DST 始 于 3 月 的 最 后 一 个 星期 日 ， 直 至 10 月 的 最 后 一 个 星期 日 结 
束 ， 提 前 UTC 2 小 时 。 


TZ="CET-1:00: 00CEST-2:00:00,M3.5.0,M10.5.0 


此 处 省 略 了 对 DST 转 换 时 间 的 指定 ， 因 为 默认 其 发 生 于 02:00:00。 
显然 ， 较 之 于 如 下 的 Linux 专 有 格式 ， 上 述 形式 的 确 缺 乏 可 该 性: 


TZ=":Europe/Berlin" 


10.4 地 区 (Locale) 


世界 各 地 在 使 用 数 千 种 语言 ， 其 中 在 计算 机 系统 上 经 常 使 用 的 占 了 
相当 比例 。 此 外 ， 在 显示 诸如 数字 、 货 币 金 额 、 日 期 和 时 间 之 类 的 信息 
时 ， 不 同 国家 的 习俗 也 不 同 。 例 如 ， 大 多 数 欧 洲 国家 使 用 逗号 ， 而 非 小 
数 点 来 分 隔 实 数 的 整数 和 小 数 部 分 ， 大 多 数 国家 日 期 的 书写 格式 也 与 美 
国 所 采用 的 MM/DD/ YY 格式 并 不 相同 。SUSv3 对 locale 的 定义 为 : 用 户 
环境 中 依赖 于 语言 和 文化 习俗 的 一 个 子 集 。 


理想 情况 下 ， 意 欲 在 多 个 地 理 区 位 运行 的 任何 程序 都 应 处 理 地 区 
(locales) 概念 ， 以 期 以 用 户 的 语言 和 格式 来 显示 和 输入 信息 。 这 也 构 
成 了 一 个 相当 复杂 的 课题 一 一 国际 化 (internationalization)。 在 理想 情况 
下 ， 程 序 只 要 一 次 经 编写 ， 则 不 论 运行 于 何 处 ， 总 会 自动 以 正确 方式 来 
执行 IO 操作 ， 也 就 是 说 ， 完 成 本 地 化 〈localizatiom 人 任务。 尽管 存在 各 
种 文 持 工具 ， 程 序 国际 化 工作 依然 耗 时 不 菲 。 诸 如 glibc 之 类 的 程序 库 也 
提供 有 工具 ， 来 帮助 程序 文 持 国际 化 。 























经 常 将 术语 internationalization 写 为 118N， 意 即 : I 加 上 
18 个 字母 再 加 N。 这 一 形式 既 便 于 快速 书写 ， 叉 避免 了 单 
词 本 身 在 英语 和 美语 间 拼 写 方式 不 同 的 问题 。 


地 区 定义 


和 时 区 信息 一 样 ， 地 区 信息 同样 是 既 浩 索 且 多 变 的 。 出 于 这 一 原 
因 ， 与 其 要 求 各 个 程序 和 函数 库 来 存储 地 区 信息 ， 还 不 如 由 系统 按 标 准 
格式 将 地 区 信息 存储 于 文件 中 ， 并 加 以 维护 。 


地 区 信息 维护 于 /usr/share/local (在 一 些 发 行 版 本 中 为 /usr/lib/local) 
之 下 的 目录 层次 结构 中 。 该 目录 下 的 每 个 子 目 录 都 包含 一 特定 地 区 的 信 
Ho RHA RNA eA eH: 



































language|_territory| .codeset] |[@modifier] 





language 是 双 字 母 的 ISO 语言 代码 。territory 是 双 字 母 的 ISO 国家 代 
码 。codeset 表 示 字 符 编 码 集 。modifier 则 提供 了 一 种 方法 ， 用 以 区 分 多 
个 地 区 目录 下 language、territory 和 codeset 均 相同 的 状况 。de_DE.utf- 
8@euro 是 完整 地 区 目录 名 称 的 例子 之 一 ， 代 表 地 区 如 下 : 德语 ， 德 国 ， 
UTE - 8 字符 编码 ， 并 采用 欧元 作为 货币 单位 。 

正如 命名 格式 中 的 方 括号 所 示 ， 可 以 将 地 区 目录 名 称 中 的 相应 部 分 
省 略 。 通 常情 况 下 ， 命 名 只 包括 语言 和 国家 。 因 此 ，en_US 是 (说 天 语 
的 ) 美国 的 地 区 目录 ， 而 fr_CH 则 是 瑞士 法 语 区 的 地 区 目录 。 


这 里 CH 代表 Confoederatio Helvetica， 在 拉丁 语 (本 地 
中 性 语言 ，locally language-neutra) 中 意 即 “瑞士 >。 由 于 有 4 
ETES mE UK ERUTEN. 


当 在 程序 中 指定 要 使 用 的 地 区 时 ， 实 际 上 是 指定 了 msr /share/locale 
下 某 个 子 目录 的 名 称 。 如 果 程 序 指定 地 区 不 与 任何 子 目 录 名 称 相 匹 配 ， 
那么 C 语 言 函 数 库 将 按 如 下 顺序 将 各 部 分 从 指定 地 区 〈locale) PRIA, 
以 寻求 匹配 : 

1. codeset 

2. normalized codeset 


3. territory 


4. modifier 








标准 化 字符 编码 集 (normalized codeset) 是 一 个 特定 版 本 字符 编码 
集 的 名 称 ， 吻 除了 所 有 非 字 母 、 非 数字 的 字符 ， 且 将 所 有 字母 转换 为 小 
写 ， 最 终 字 符 串 前 冠 以 ISO 三 个 字符 。 标 准 化 的 目的 ， 在 于 排除 字符 集 
名 称 中 因 大 小 写 和 标点 符号 〈 人 例如， 额外 的 连 字 符 ) 而 发 生 的 变化 。 








这 里 是 剥离 过 程 的 一 个 例子 ， 假 设 为 一 程序 指定 的 地 区 为 


fr_CH.utf- 8， 但 并 不 存在 以 该 名 称 命名 的 地 区 目录 ， 那 么 如 果 fr_CH 目 
录 存 在 ， 则 与 之 匹配 。 如 采 他 -CH 目录 也 不 存在 ， 那 么 将 采用 他 地 区 目 








录 。 


万 一 全 目录 也 不 存在 ， 那 么 简 而 言 之 ，setLocale() 疯 数 将 会 报错 。 


/user/share/locale/locale.alias 文件 定义 了 为 程序 设 定 地 
区 的 替代 方法 。 详 见 locale.aliases(5) 手 册页 。 





每 个 地 区 子 目录 中 包括 有 标准 的 一 套 文 件 ， 指 定 了 此 地 区 的 约定 设 





， 如 表 10-2 所 示 。 关 于 本 表 中 的 信息 ， 还 要 注意 以 下 几 扩 。 


文件 LC_COLLATE 定 义 了 一 套 规则 ， 描 述 了 如 何在 一 字符 集 内 对 
字符 排序 (例如 alphabetical“ 按 字母 顺序 排列 的 ”字符 集 顺 序 ) o X 
些 规则 将 决定 函数 strcoll(3) 和 strxfrm(3) 的 动作 。 即 便 是 同属 拉丁 语 
系 的 语言 ， 其 遵循 的 排序 规则 也 不 相同 。 例 如 ， 一 些 欧洲 语言 有 和 额 
外 字母 ， 在 某 些 情况 下 排 在 字母 Z 之 后 。 男 外 还 有 特殊 情况 ， 西 班 
牙 语 的 双 字 母 序列 1， 排 序 时 位 于 字母 ] 之 后 。 又 比如 德语 的 元 音 变 
音字 符 i， 对 应 于 ae， 并 与 该 双 字 母 排 在 相同 位 置 。 

目录 LC_MESSAGES 是 程序 显示 信息 迈 问 国际 化 的 步骤 之 一 。 要 实 
现 更 为 全 面 的 程序 信息 国际 化 ， 可 以 采用 消息 目录 BS 
catopen(3) 和 catgets(3) 手 册页 ) 或 是 GNU 的 gettext API (参见 
http://www.gnu.org/) 。 

















Glibc 的 2.2.2 版 引入 了 一 系列 非 标准 的 地 区 新 类 别 。 
LC_ADDRESS 定 义 了 特定 于 地 区 的 邮政 地 址 表示 规则 。 
LC_IDENTIFICATION 指 定 了 识别 地 区 的 信息 。 

LC MEASUREMENT 定 义 了 地 区 的 度量 系统 《〈 例 如， 公制 / 
碳 制 ) 。LC_NAME 定 义 了 特定 于 地 区 的 人 名 及 头衔 表示 
规则 。LC_PAPER 定 义 了 该 地 区 的 标准 纸张 尺寸 (例如 ， 


美国 信纸 /其 他 大 多 数 国 家 所 使 用 的 A4 纸 ) 。 
LC_TELEPHONE 则 定义 了 特定 于 地 区 的 国内 及 国际 电话 号 
码 表示 规则 ， 以 及 国际 长 途 国 家 代码 和 国际 拨号 前 绥 。 





表 10-2: 特定 于 地 区 的 子 目 录 内 容 





参见 isalpha(3) 手 册页 ) 以 及 大 小 写 转换 规 











该 文件 包含 针对 一 字符 集 的 排序 











值 的 格式 化 规则 〈( 见 localeconv(3) 和 <locale.h>) 





该 文件 包含 对 币值 以 外 数字 的 格式 化 规则 《〈 见 localeconv(3) 和 


<locale.h> ) 





该 文件 包含 对 日 期 和 时 间 的 格式 化 ; 








该 目录 下 所 含 文件 ， 针 对 肯定 和 和 否定 〈 是 / 否 ) 响应 ， 就 格式 及 数 
LC_MESSAGES | 信 做 了 规定 








系统 中 实际 定义 的 地 区 可 能 会 各 有 不 同 。 除 了 必须 定义 一 个 名 为 
POSIX (与 C 同 义 ， 后 者 的 存在 是 由 于 历史 原因 〉 的 标准 地 区 外 ， 
SUSv3 没 有 对 此 作出 任何 要 求 。POSIX 折 射出 UNIX 系 统 的 历史 渊源 。 
因 之 ， 系 统 建立 于 ASCII 字 符 集 之 上， 使 用 英文 来 描述 日 期 ， 并 
以 “yesmo" 来 啊 应 。 该 地 区 的 货币 和 数字 格式 则 处 于 未 定义 状态 。 








locale 命 令 显 示 当 前 地 区 环境 (本 shell 内 ) 的 相关 信 
Ho fit locale — a 则 将 列 出 系统 上 定义 的 整套 地 区 。 


为 程序 设置 地 区 
函数 setlocaleO 既 可 设置 也 可 得 询 程序 的 当前 地 区 。 





#include <locale.h> 


char *setlocale(int category, const char *locale) ; 


Returns pointer to a (usually statically allocated) string identifying 
the new or current locale on success, or NULL on error 











category 参 数 选 择 设 置 或 查询 地 区 的 哪 一 部 分 ， 它 仅 能 使 用 表 10-2 
中 列 出 的 地 区 类 别 的 第 量 名 称 。 因 此 ， 它 可 以 设置 地 区 的 时 间 显示 格式 
是 德国 ， 而 地 区 的 货币 符号 是 美元 。 或 者 ， 更 常见 的 是 ， 我 们 可 以 利用 
LC_ALL 来 指定 我 们 要 设置 的 地 区 的 所 有 部 分 的 值 。 


使 用 setLocaleO 设 置地 区 有 两 种 不 同 的 方法 。locale 参 数 可 能 是 一 个 
字符 串 ， 指 定 系 统 上 已 定义 的 一 个 地 区 例如，/usr /lib /locale 中 的 子 目 
录 的 名 称 ) ， 如 de_DE 或 en _US。 另 外， 地 区 可 能 被 指定 为 空 字符 串 ， 
这 意味 着 从 环境 变量 取得 地 区 的 设置 。 


setlocale(LC_ALL, ""); 


我 们 必须 这 样 调用 才能 使 程序 使 用 环境 变量 中 的 地 区 。 如 果 调 用 被 
省 略 ， 这 些 环境 变量 将 不 会 对 程序 生效 。 

当 运 行程 序 调用 了 setLocale(LC_ALL，" ")， 我 们 能 够 使 用 一 系列 
环境 变量 来 控制 地 区 的 各 部 分 内 容 ， 环 境 变 量 的 名 称 也 是 对 应 于 表 10-2 
中 列 出 的 类 型 : LC_CTYPE、LC_COLLATE、LC_MONETARY、 

LC_ NUMERIC、LC_TIME、LC_MESSAGES。 另 外 ， 我 们 可 以 使 用 
LC_ALL 或 LANG 环 境 变量 指定 整个 地 区 的 设置 。 如 果 设 置 了 多 个 先前 
的 环境 变量 ， 那 么 LC_ALEL 会 覆盖 所 有 其 他 的 LC_* 环 境 变量 ， 同 时 

















LANG 的 优先 级 最 低 。 因 此 ， 通 常 使 用 LANG 为 地 区 所 有 内 容 设 置 默 认 
然后 用 单独 的 LC_* 变 量 ， 设 置地 区 的 各 个 方面 内 容 来 履 兰 默认 


_ BUG, setLocale() 返 回 一 个 指针 指 问 标识 这 一 类 地 区 设置 的 字符 串 
通常 是 静态 分 配 的 ) 。 如 果 我 们 仪 需要 查看 地 区 的 设置 而 不 需要 改变 
它 ， 那 么 我 们 可 以 指定 locale 参数 为 NULL。 


地 区 设置 影响 众多 GNU/ Linux 实 用 程序 ， 以 及 glibc 的 许多 函数 的 功 
ae E aaron (10.2.3) ， 当 我 们 在 不 同 的 地 
运行 程序 清 单 10-4，strftime 返 回 的 结果 如 下 : 


$ LANG=de DE ./show time German. locale 
ctime() of time() value is: Tue Feb 1 12:23:39 2011 

asctime() of local time is: Tue Feb 1 12:23:39 2011 

strftime() of local time is: Dienstag, 01 Februar 2011, 12:23:39 CET 


下 一 个 运行 演示 LC_TIME 比 LANG 的 优先 级 高 ; 


$ LANG=de_DE LC_TIME=it_IT ./show_time German and Italian locales 
ctime() of time() value is: Tue Feb 1 12:24:03 2011 

asctime() of local time is: Tue Feb 1 12:24:03 2011 

strftime() of local time is: martedi, 01 febbraio 2011, 12:24:03 CET 


而 这 个 运行 结果 表明 ，LC_ALL 超 过 LC_TIME 的 优先 级 : 


$ LC ALL=fr FR LC TIME=en US ./show time French and US locates 
ctime() of time() value is: Tue Feb 1 12:25:38 2011 

asctime() of local time is: Tue Feb 1 12:25:38 2011 

strftime() of local time is: mardi, 01 février 2011, 12:25:38 CET 


10.5 更 新 系统 时 钟 


我 们 现在 来 看 两 个 更 新 系统 时 钟 的 接口 : settimeofday() All 
adjtime()。 这 些 接口 都 很 少 被 应 用 程序 使 用 ， 因 为 系统 时 间 通 常 是 由 工 
具 软 件 维护 ， 如 网 络 时 间 协 议 (Network Time Protocol) 守护 进程 ， 并 
且 它 们 需要 调用 者 已 被 授权 CCAP_SYS_TIME) 。 


系统 调用 settimeofday() 是 gettimeofday() 的 逆向 操作 (这 是 我 们 在 
10.1 节 中 描述 的 ) 。 它 将 tv 指向 timeval 结 构 体 里 的 秒 数 和 微 秒 数 ， 设 置 
到 系统 的 日 历时 间 。 





#define BSD SOURCE 
#include <sys/time.h> 


int settimeofday(const struct timeval *tv, const struct timezone *tz); 








Returns 0 on success, or -1 on error 





和 函数 gettimeofday0 一 样 ，tz 参 数 已 被 废弃 ， 这 个 参数 应 该 始终 指 
定 为 NULL。 


tv.tv_usec 了 字段 的 微 秒 精度 并 不 意味 着 我 们 以 微 秒 精度 来 设置 系统 时 
钟 ， 因 为 时 钟 的 精度 可 能 会 低 于 微 秒 。 


虽然 SUSv3 没 有 定义 settimeofdayO0， 但 它 在 其 他 UNIX 实 现 中 被 广泛 
使 用 。 








Linux 还 提供 了 stime() 系 统 调 用 来 设置 系统 时 钟 。 
settimeofday() 和 stime() 之 间 的 区 别 是 ， 后 者 调用 允许 使 用 秒 
的 精度 来 表示 新 的 日 历时 间 。 和 函数 time() 与 gettimeofday() 
相同 ，stime() 和 settimeofday() 的 并 存 是 由 历史 原因 造成 
的 : 拥有 更 高 精确 度 的 后 一 个 函数 ， 是 由 4.3BSD 添 加 的 。 





settimeofday() 调 用 所 造成 的 那 种 系统 时 间 的 突然 变化 ， 可 能 会 对 依 
赖 于 系统 时 钟 单调 递增 的 应 用 造成 有 害 的 影响 (例如 ，make(1)， 数 据 
库 系 统 使 用 的 时 间 戳 或 包含 时 间 戳 记 的 日 志文 件 ) 。 出 于 这 个 原因 ， 当 
对 时 间 做 微小 调整 时 《〈 几 秒 钟 误 关 ) ， 通 各 是 推荐 使 用 库 函 数 
adjtime0， 它 将 系统 时 钟 逐步 调整 到 正确 的 时 间 。 








#define _BSD_ SOURCE 
ftinclude <sys/time.h> 


int adjtime(struct timeval *delta, struct timeval *olddelta) ; 
Returns 0 on success, or -1 on error 














delta 参 数 指 癌 一 个 timeval 结 构 体 ， 指 定 需 要 改变 时 间 的 秒 和 微 秒 
数 。 如 果 这 个 值 是 正 数 ， 那 么 每 秒 系统 时 间 都 会 额外 拨 快 一 点 点 ， 直 到 
增加 完 所 需 的 时 间 。 如 果 delta 值 为 负 时 ， 时 钟 以 类 似 的 方式 减 慢 。 





Linux/x86-32 以 每 2000 秒 变化 1 秒 〈 或 每 天 43.2 秒 ) 的 
频率 调整 时 钟 。 


在 adjtimeO 函 数 执行 的 时 间 里 ， 它 可 能 无 法 完成 时 钟 调整 。 在 这 种 
情况 下 ， 剩 余 未 经 调整 的 时 间 存 放 在 olddelta 指 向 的 timeval 结 构 体 内 。 
如 果 我 们 不 关心 这 个 值 ， 我 们 可 以 指定 olddelta 为 NULL。 相 反 ， 如 果 我 
们 只 关心 当前 未 完成 时 间 校 正 的 信息 ， 而 并 不 想 改变 它 ， 我 们 可 以 指定 
delta 参 数 为 NULL。 

虽然 SUSv3 未 定义 adjtime0， 可 大 多 数 UNIX 实 现 提供 了 这 个 函数 。 


adjtime() 在 Linux 上 ， 基 于 更 通用 和 复杂 的 特定 于 Linux 
的 系统 调用 adjtimex() 来 完成 功能 。 这 个 系统 调用 也 同时 被 
网 络 时 间 协 议 NTP》〉 和 守护 进程 调用 。 如 需 进 一 步 信 息 ， 








请 参阅 Linux 的 源 代码 ，Linux adjtimex(2) 帮 助手 册页 和 NTP 
规范 ([Mills, 1992]) 。 


10.6 ”软件 时 钟 (jiffies) 


在 本 书 中 所 描述 的 时 间 相 关 的 各 种 系统 调用 的 精度 是 受 限 于 系统 软 
件 时 钟 (software clocg) 的 分 辨 率 ， 它 的 度量 单位 被 称 为 jiffies。jiffies 的 
大 小 是 定义 在 内 核 源 代码 的 常量 HZ。 这 是 内 核 按 照 round-robin 的 分 时 调 
度 算法 〈35.1 节 ) 分 配 CPU 进程 的 单位 。 


在 2.4 或 以 上 版 本 的 Linux/x86-32 内 核 中 ， 软 件 时 钟 速度 是 100 替 
效 ， 也 就 是 说 ， 一 个 jiffty 是 10 塞 秒 。 


自 Linux 面 世 以 来 ， 由 于 CPU 的 速度 已 大 大 增加 ，Linux / x86- 32 
2.6.0 内 核 的 软件 时 钟 速度 已 经 提高 到 1000 赫 效 。 更 高 的 软件 时 钟 速率 意 
味 着 定时 器 可 以 有 更 高 的 操作 精度 和 时 间 可 以 拥有 更 高 的 测量 精度 。 然 
而 ， 这 并 非 可 以 任意 提高 时 钟 频 率 ， 因 为 每 个 时 钟 中 断 会 消耗 少量 的 
CPU 时 间 ， 这 部 分 时 间 CPU 无 法 执行 任何 操作 。 


经 过 内 核 开 发 人 员 之 间 的 的 讨论 ， 最 终 导致 软件 时 钟 频率 成 为 一 个 
可 配置 的 内 核 的 选项 〈 包 括 处 理 器 类 型 和 特性 ， 定 时 器 的 频率 ) 。 自 
2.6.13 内 核 ， 时 钟 频 率 可 以 设置 到 100、250 CERA) 或 1000 赫 效 ， 对 应 
的 jiffy 值 分 别 为 10、4、1 训 秒 。 自 内 核 2.6.20， 增 加 了 一 个 频率 : 3007 
兹 ， 它 可 以 被 两 种 常见 的 视频 帧 速率 25 帧 每 秒 (PAL) 和 30 帧 每 秒 
(NTSC) 整除 。 











10.7 进程 时 间 


进程 时 间 是 进程 创建 后 使 用 的 CPU 时 间 数 量 。 出 于 记录 的 目的 ， 内 
核 把 CPU 时 间 分 成 以 下 两 部 分 。 


。 用户 CPU 时 间 是 在 用 户 模式 下 执行 所 花费 的 时 间 数 量 。 有 时 也 称 
为 虚拟 时 间 (virtual time〉， 这 对 于 程序 来 说 ， 是 它 已 经 得 到 CPU 
的 时 间 。 

。 系统 CPU 时 间 是 在 内 核 模式 中 执行 所 花 旨 的 时 间 数 量 。 这 是 内 核 用 
于 执行 系统 调用 或 代表 程序 执行 的 其 他 任务 例如， 服务 页 错误 ) 
的 时 间 。 

有 了 时候， 进程 时 间 是 指 处 理 过 程 中 所 消耗 的 总 CPU 时 间 。 

当 我 们 运行 一 个 shell 程 序 ， 我 们 可 以 使 用 的 time(1) 命 令 ， 同 时 获得 
这 两 个 部 分 的 时 间 值 ， 以 及 运行 程序 所 需 的 实际 时 间 。 
$ time ./myprog 
real om4. 84s 


user om1.030s 
sys 0m3 . 435 


ABV AAtimes(), RRE Ta, FES A butte a AA 
体 返 回 。 

















#include <sys/times.h> 


clock_t times(struct tms *buf); 


Returns number of clock ticks (sysconf(_SC_CLK_TCK)) since 
“arbitrary” time in past on success, or (clock_t) -1 on error 











buf 指 向 的 TMS 结 构 体 有 下 列 格式 : 


struct tms { 
clock t tms utime; /* User CPU time used by caller */ 
clock t tms stime; /* System CPU time used by caller */ 
clock t tms cutime; /* User CPU time of all (waited for) children */ 
clock t tms cstime; /* System CPU time of all (waited for) children */ 


tms 结 构 体 的 前 两 个 字段 返回 调用 进程 到 目前 为 止 使 用 的 用 户 和 系 
统 组 件 的 CPU 时 间 。 最 后 两 个 字段 返回 的 信息 是 : 父 进程 〈 比 如 ， 
人 执行 了 系统 调用 wait() 的 所 有 已 经 终止 的 子 进程 使 用 
CPU 时 间 。 


数据 类 型 clock_t 是 用 时 钟 计时 单元 (clock tick) 为 单位 度量 时 间 的 
整 型 值 ， 习 惯用 于 计算 tms 结 构 体 的 4 个 字段 。 我 们 可 以 调用 
sysconf(_SC_CLK_TCK) 来 获得 每 秒 包含 的 时 钟 计时 单元 数 ， 然 后 用 这 
个 数字 除 以 clock_t 转 换 为 秒 。【〔 我 们 在 11.2 节 叙述 sysconf()。) 


在 大 多 数 Linux 的 硬件 架构 ，sysconf(_SC_CLK_TCK) 
返回 100。 与 此 对 应 的 内 核 常 量 是 USER_HZ。 然 而 
USER_HZ 在 其 他 几 个 架构 下 可 以 被 定义 超过 100， 如 Alpha 
和 IA - 64。 


如 果 成 功 ，times() 返 回 自 过 去 的 任意 点 流逝 的 以 时 钟 计 时 单元 为 单 
位 的 (真实 的 ) 时 间 。SUSv3 特 别 未 定义 这 点 是 什么 ， 只 是 说 ， 这 将 是 
在 调用 进程 的 生命 周期 内 的 一 个 固定 点 。 因 此 ， 这 个 返回 值 唯一 的 用 法 
是 通过 计算 一 对 timesO 调 用 返回 的 值 的 震 ， 来 计算 进程 执行 消耗 的 时 
间 。 然 而 ， 即 使 是 这 种 用 法 ，times0 的 返回 值 仍然 不 可 靠 的 ， 因 为 它 可 
能 会 洲 出 clock_t 的 有 效 范 围 ， 这 时 times0 的 返回 值 将 再 次 从 0 开始 计算 
《也 就 是 说 ， 一 个 稍 后 的 times() 的 调用 返回 的 数值 可 能 会 低 于 一 个 更 早 
的 timesO 调 用 ) 。 可 靠 的 测量 经 过 时 间 的 方法 是 使 用 函数 gettimeofday() 
《10.1 节 所 述 ) 。 














在 Linux 上， 我 们 可 以 指定 buf 参 数 为 NULL。 在 这 种 情况 下 ， 
timesO 只 是 简单 地 返回 一 个 函数 结果 。 然 而 ， 这 是 没有 意义 的 。 SUSv3 
并 未 定义 buf 可 以 使 用 NULL， 因 此 许多 其 他 UNIX 实 现 需要 这 个 参数 必 
须 为 一 个 非 NULL 值 。 


函数 clock0 提 供 了 一 个 简单 的 接口 用 于 取得 进程 时 间 。 它 返回 一 个 
值 描述 了 调用 进程 使 用 的 总 的 CPU 时 间 (包括 用 户 和 系统 )。 














#include <time.h> 


clock t clock(void); 


Returns total CPU time used by calling process measured in 
CLOCKS PER SEC, or (clock_t) -1 on error 











time() 的 返回 值 的 计量 单位 是 CLOCKS_PER_SEC， 所 以 我 们 必须 除 
以 这 个 值 来 获得 进程 所 使 用 的 CPU 时 间 秒 数 。 在 POSIX.1， 
CLOCKS_PER_SEC 是 常量 10000， FEVER AT RT PR (10.675) 的 分 辨 
率 是 多 少 。clockO 的 精度 最 终 仍然 受 限 于 软件 时 钟 的 分 辨 率 。 


虽然 clockO0 和 timesO 返 回 相 同 的 数据 类 型 clock t， 这 两 
个 接口 使 用 的 测量 单位 却 并 不 相同 。 这 是 历史 原因 造成 了 
clock_t 定 义 的 冲突 ， 一 个 是 POSIX.1 标 准 ， 而 另 一 个 是 C 编 
程 语言 标准 。 





即使 CLOCKS_PER_SEC 是 常量 10000，SUSv3 注 明 ， 这 个 常量 在 
不 兼容 XSI (non-XSI- conformanb 的 系统 上 可 以 为 整 型 变量 ， 所 以 ， 我 
们 不 能 简单 地 把 A 量 〈 即 ， 我 们 不 能 够 使 用 #ifdef 预 
处 理 表达 式 ) 。 可 能 会 被 定义 为 一 个 长 整数 ( 即 1000000L) ， 我 们 总 
ERAN A i ERRA, 因此 我 们 可 以 简单 地 用 printfO 把 它 打印 输出 
( 见 3.6.2 节 ) 。 


SUSv3 摘 述 clockO 应 该 返回 “进程 所 使 用 的 处 理 堪 时 间 ?” 时 有 不 同 的 
解释 。 在 一 些 UNIX 的 实现 中 ，clock0O 返 回 的 时 间 包 含 所 有 等 待 子 进 程 
使 用 的 CPU 时 间 。 而 在 Linux 上 ， 它 不 包括 。 


示例 程序 
在 程序 清单 10-5 中 的 程序 演示 了 如 何 使 用 本 市 中 描述 的 功能 。 函 数 


displayProcessTimes() 首 先 打印 由 调用 者 提供 的 信息 ， 然 后 使 用 dock() 和 
times() 来 获得 和 显示 进程 时 间 。 主 程序 首先 调用 函数 











displayProcessTimes()， 然 后 执行 一 个 循环 ， 通 过 重复 调用 getppid() 消 耗 
一 些 CPU 时 间 ， 再 次 调用 displayProcessTimes0) 来 查看 这 个 循环 会 消耗 多 
少 CPU 时 间 。 当 我 们 使 用 这 个 程序 调用 getppid0 十 万 次 ， 这 束 是 我 们 看 
到 的 : 


$ ./process time 10000000 
CLOCKS PER SEC=1000000 sysconf( SC CLK TCK)=100 


At program start: 
clock() returns: 0 clocks-per-sec (0.00 secs) 
times() yields: user CPU=0.00; system CPU: 0.00 
After getppid() loop: 
clock() returns: 2960000 clocks-per-sec (2.96 secs) 
times() yields: user CPU=1.09; system CPU: 1.87 























程序 清单 10-5: 获取 进程 CPU 时 间 


time/process time.c 
#include <sys/times.h> 
#include <time.h> 
#include "tlpi hdr.h" 


static void /* Display 'msg' and process times */ 
displayProcessTimes(const char *msg) 
{ 


struct tms t; 
clock t clockTime; 
static long clockTicks = 0; 


if (msg != NULL) 
printf("%s", msg}; 


if (clockTicks == 0) { /* Fetch clock ticks on first call */ 
clockTicks = sysconf( SC CLK TCK); 
if (clockTicks == -1) 
errExit("sysconf"); 


} 


clockTime = clock{); 
if (clockTime == -1) 
errExit("clock"); 


printf(" clock() returns: %ld clocks-per-sec (%.2f secs)\n", 
(long) clockTime, (double) clockTime / CLOCKS PER SEC); 


if (times(&t) == -1) 
errExit("times"); 
printf(" times() yields: user CPU=%.2f; system CPU: %.2f\n", 
(double) t.tms_utime / clockTicks, 
(double) t.tms_stime / clockTicks); 
} 


int 
main(int argc, char *argv[]) 


int numCalls, j; 


printf("CLOCKS PER SEC=%ld sysconf( SC CLK _TCK)=%ld\n\n", 
(long) CLOCKS PER SEC, sysconf{_SC_CLK_TCK)); 


displayProcessTimes("At program start:\n"); 
numCalls = (argc > 1) ? getInt(argv[1], GN_ GT 0, "num-calls") : 100000000; 
for (j = 0; j < numCalls; j++) 
(void) getppid(); 
displayProcessTimes("After getppid() loop:\n"); 


exit(EXIT_ SUCCESS); 


time/process time. 


10.8 ”总 结 


真实 时 间 对 应 于 时 间 定 义 的 每 一 天 。 妆 真实 时 间 通 过 一 些 标 准点 计 
算 的 时 候 ， 我 们 称 它 为 日 历时 间 。 才 的 时 间 相 对 ， 它 是 度量 一 个 进 
程 生命 周期 中 的 一 些 点 (通常 是 开始 ) 


进程 时 间 是 由 一 个 进程 使 用 的 CPU 时 间 量 ， 并 划分 为 用 户 时 间 和 系 
统 时 间 。 

多 种 系统 调用 允许 我 们 获取 和 设置 系统 时 钟 值 〈 即 日 历时 间 ， 以 秒 
为 单位 从 Epoch 计 算 ) ， 以 及 一 系列 的 库 函 数 能 够 完成 从 日 历时 间 到 其 


他 时 间 格 式 之 间 的 转换 ， 包括 分 解 时 间 和 具有 可 读 性 字符 串 。 描 述 这 种 
转换 把 我 们 引入 了 地 区 和 国际 化 的 讨论 。 


使 用 和 显示 时 间 和 日 期 是 许多 应 用 程序 的 一 个 重要 组 成 部 分 ， 我 们 


会 在 这 本 书后 面 的 革 节 中 经 常 使 用 到 本 市 描述 的 功能 。 我 们 也 会 在 第 23 
章 更 多 地 介绍 时 间 的 度量 。 


一 步 的 信息 
关于 Linux 内 核 如 何 度 量 时 间 的 详细 信息 可 以 参考 [Love, 2010]。 


关于 时 区 和 国际 化 的 进一步 讨论 ， 可 以 参考 GNU C 库 手 册 ER 
地 址 : http://www.gnu.org/) 。SUSv3 文 档 也 包括 地 区 的 详细 描述 

















10.9 ”练习 


10-1. 假设 一 个 系统 调用 sysconf(_SC_CLK_TCK) 返 回 的 值 是 
100。 假 设 times0 返 回 clock ft 的 值 是 一 个 无 符号 的 32 位 整数 ， 需 要 多 久 
这 个 值 才 能 进入 下 一 个 从 0 开始 的 周期 ? 对 clock0O 返 回 的 
CLOCKS_PER_SEC 值 执行 相同 的 计算 。 








第 11 章 ”系统 限制 和 选项 


但 凡 UNIX 实 现 ， 无 不 对 各 种 系统 特性 和 资源 加 以 限制 ， 并 提供 
《或 者 选择 不 提供 ) 由 各 种 标准 所 定义 的 选项 ， 例 如 : 


一 个 进程 能 同时 拥有 多 少 已 打开 的 文件 ? 
系统 是 否 文 持 实 时 信号? 

int 类 型 变量 可 存储 的 最 大 值 是 多 少 ? 

一 个 程序 的 参数 列表 能 有 多 大 ? 

路 径 名 的 最 大 长 度 是 多 少 ? 


尽管 可 以 把 假定 的 限制 和 选项 硬性 写 入 程序 编码 ， 但 这 将 破坏 程序 
的 可 移植 性 ， 因 为 限制 和 选项 可 能 会 有 所 不 同 。 


。 在 UNIX 实 现 之 间 : 虽然 限制 和 选项 在 茶 个 特定 UNIX 实 现 中 可 能 是 
固定 的 ， 但 在 不 同 的 UNIX 实 现 之 间 ， 可 能 会 有 所 不 同 。int 变 量 可 
存储 的 最 大 值 就 是 此 类 限制 的 例子 之 一 。 

特定 实现 的 运行 环境 : 例如 ， 可 能 重新 配置 了 内 核 ， 改 变 了 东 个 限 
制 。 叉 或 者 ， 在 茶 个 系统 上 编译 的 应 用 程序 ， 却 在 力 一 个 限制 和 选 
项 有 所 不 同 的 系统 中 运行 。 

从 一 个 文件 系统 到 另外 一 个 文件 系统 : 例如 ， 传 统 的 System V 文 件 
系统 允许 文件 名 长 达 14 个 字 节 ， 而 传统 的 BSD 文 件 系 统 和 大 多 

数 “ 原 生 *Linux 文 件 系统 则 允许 文件 名 局 达 255 个 字 市 。 


因为 系统 限制 和 选项 会 影响 应 用 程序 的 行为 ， 所 以 可 移植 应 用 程序 
再 要 获取 限制 值 ， 弄 清 系统 对 选项 的 文 持 情况 。C 语 言 标 准 和 SUSv3 为 
此 而 提供 了 两 种 重要 途径 。 


。 在 编译 程序 时 能 够 获得 一 些 限 制 和 选项 。 例 如 ，int 类 型 的 最 大 值 取 
决 于 人 硬件 结构 和 编译 器 的 设计 选择 。 此 类 限制 可 在 头 文件 中 记录 。 

。 男 外 一 些 限制 和 选项 在 程序 运行 时 可 能 会 有 变化 。 对 此 ，SUSvV3 定 
义 了 3 个 函数 sysconf()、pathconf() 和 fpathconf()， 供 应 用 程序 调用 以 
检查 系统 实现 的 限制 和 选项 。 


SUSv3 规 定 有 一 系列 限制 ， 要 求 符合 规范 的 实现 必须 支持 ， 同 时 还 





























规定 了 一 套 选项 ， 特 定 系 统 可 以 有 选择 地 对 其 中 各 个 选项 予以 文 持 。 本 
章 介 绍 了 部 分 限制 和 选项 ， 其 余 则 会 在 后 续 章 节 中 适时 加 以 描述 。 








11.1 系统 限制 


SUSv3 要 求 ， 针 对 其 所 规范 的 每 个 限制 ， 所 有 实现 都 必须 文 持 一 个 
最 小 值 。 在 大 多 数 情 况 下 ， 会 将 这 些 最 小 值 定 义 为 <limits.h> 文 件 中 的 党 
量 ， 其 命名 则 冠 以 字符 串 _POSIX _， 而 且 (通常 ) 还 包含 字符 串 
_MAX， 因 此 ， 常 量 命名 形 如 _POSIX_XXX_MAX。 


如 果 应 用 程序 将 本 身 限 制 在 SUSv3 对 每 个 限制 所 要 求 的 最 小 值 之 
内 ， 那 么 该 程序 对 符合 标准 的 所 有 实现 都 具有 可 移植 性 。 然 而 ， 这 一 做 
法 阻碍 了 应 用 程序 去 利用 特定 实现 可 提供 的 更 高 限制 。 因 此 ， 在 特定 系 
统 上 获取 限制 ， 通 第 更 为 可 取 的 方法 是 使 用 <limits.h> 文 件 、sysconfO 或 
pathconf(). 








SUSv3 将 其 所 定义 的 各 类 限制 描述 为 最 小 值 ， 但 命名 
却 使 用 了 字符 串 _MAX， 这 可 能 颇 令 人 疑惑 。 换 一 种 思 
路 ， 将 此 类 和 钟 量 中 的 每 一 个 都 视 为 对 茶 类 资源 或 特性 的 上 
限 ， 且 标准 要 求 这 些 上 限 都 必须 拥有 一 个 确定 的 最 小 值 ， 
这 种 命名 的 用 意 也 残 不 言 自明 了 。 








在 某 些 情况 下 ， 会 为 某 个 限制 提供 最 大 值 ， 并 且 在 对 
这 些 值 的 命名 中 包含 字符 串 _MIN。 对 于 这 些 常量 ， 道 理 正 
好 反 过 来 ; 它们 代表 了 对 某 些 资源 的 下 限 ， 按 照 标准 规 
定 ， 在 符合 标准 的 实现 中 ， 该 下 限 不 能 高 于 某 个 值 。 例 
如 ， 限 制 FLT_MIN(1E-37) 为 某 个 实现 中 所 能 表征 的 最 小 浮 
点 数 定义 了 最 大 值 。 所 有 满足 标准 的 实现 至 少 能 够 表征 如 
此 之 小 的 浮 点 数 。 











每 个 限制 都 有 一 个 名 称 ， 与 上 述 最 小 值 的 名 称 相对 应 ， 但 缺少 了 


_POSIX 前 级 。 某 个 实现 可 以 在 <limits.h> 文 件 中 以 该 名 称 定义 一 个 常 
量 ， 用 以 表示 该 实现 的 相应 限制 。 若 已 然 定 义 ， 则 该 限制 值 总 是 至 少 等 
同 于 前 述 最 大 值 ( 即 XXX_MAX >= POSIX XXX MAX). 


SUSv3 将 其 规定 的 限制 归 为 3 类 : 运行 时 恒定 值 、 路 径 名 变量 值 和 
运行 时 可 增加 值 。 在 下 列 段落 中 将 描述 这 些 类 别 并 提供 一 些 例子 。 


运行 时 恒定 值 〈 可 能 不 确定 ) 


所 谓 运 行 时 恒定 值 是 指 茶 一 限制 ， 吞 已然 在 <limits.h> 文 件 中 定义 ， 
则 对 于 实现 而 言 固定 不 变 。 然 而 该 值 可 能 是 不 确定 的 (因为 该 值 可 能 依 
赖 于 可 用 的 内 存 空 间 〉， 因 而 在 <limits.h> 文 件 中 会 忽略 对 其 定义 。 在 这 
种 情况 下 即使 在 <limits.h> 文 件 中 己 然 定义 了 该 限制 ， 应 用 程序 可 以 
使 用 sysconfO 来 获取 运行 时 的 值 。 


MQ_PRIO_MAX 限 制 就 是 运行 时 恒定 值 的 例子 之 一 。 正 如 52.5.1 节 
所 述 ， 针 对 POSIX 消 息 队 列 中 的 消息 ， 存 在 着 优先 级 方面 的 限制 。 
SUSv3 定义 了 值 为 32 的 常量 POSIX_MQ PRIO MAX， 将 其 作为 符合 
规范 的 实现 为 该 限制 所 必须 提供 的 最 小 值 。 这 意味 着 ， 所 有 符合 规范 的 
实现 ， 其 对 消息 优先 级 的 文 持 至 少 应 为 从 0 一 31。 一 个 UNIX 实 现 可 以 为 
此 限制 设 定 更 高 值 ， 并 将 该 值 在 <limits.h> 文 件 中 以 常量 
MQ_PRIO_MAX 加 以 定义 。 例 如 ，Linux 就 将 MQ_PRIO_MAX 的 值 定 义 
为 32768。 也 可 以 通过 下 列 调用 在 运行 时 获取 该 值 : 


lim = sysconf( SC MO PRIO MAX); 
路 径 名 变量 值 


所 谓 路 径 名 变量 值 是 指 与 路 径 名 《文件 、 目 录 、 终 端 等 ) 相关 的 限 
制 ， 每 个 限制 可 能 是 相对 于 某 个 系统 实现 的 常量 ， 也 可 能 随 文件 系统 的 
不 同 而 不 同 。 在 限制 可 能 因 路 径 名 而 发 生变 化 的 情况 下 ， 应 用 程序 可 以 
使 用 pathconfO 或 fpathconf0 来 获取 该 值 。 


NAME_MAX 限 制 是 路 径 名 变量 值 的 例子 之 一 。 此 限制 定义 了 在 一 
个 特定 文件 系统 中 文件 名 的 最 大 长 度 。SUSv3 定 义 了 值 为 14 ( 老 版 本 
的 System V 文件 系统 限制 ) 的 常量 POSIX_NAME_MAX， 作 为 系统 实 
现 必须 支持 的 最 小 限制 值 。 系 统 实现 可 以 定义 一 个 高 于 此 值 的 
NAME_MAX 限 制 ， 并 /或 回应 用 开放 如 下 形式 的 调用 ， 以 获取 特定 文件 















































系统 的 相关 信息 : 


lim = pathconf(directory path, PC NAME MAX) 


参数 directory_path 是 目标 文件 系统 上 的 目录 路 径 名 。 
运行 时 可 增加 值 


运行 时 可 增加 值 是 指 茶 一 限制 ， 相 对 于 特定 实现 其 值 回 定 ， 且 运行 
此 实现 的 所 有 系统 至 少 都 应 文 持 这 一 最 小 值 。 然 而 ， 特 定 系统 在 运行 时 
facials 应 用 程序 可 以 使 用 sysconf0 来 获得 系统 所 文 持 的 实际 

















运行 时 可 增加 值 的 例子 之 一 是 NGROUPS_MAX， 该 限制 定义 了 一 
进程 可 同时 从 属 的 辅助 组 ID (9.6 节 ) 的 最 大 数量 。 SUSv3 定 义 了 相应 的 
最 小 值 POSIX_NGROUPS_MAX， 其 值 为 8。 应 用 可 在 运行 时 通过 调用 
sysconf(_SC_NGROUPS_MAX) 来 获取 此 限制 值 。 


对 选 定 SUSv3 限 制 的 总 结 


表 11-1 列 举 了 与 本 书 有 关 ， 由 SUSv3 所 定义 的 部 分 限制 (其 他 限制 
将 在 后 续 章 节 中 加 以 介绍 )。 


表 11-1: 选 定 的 SUSv3 限 制 











限制 名 称 (<limits.h>) ey AA 


提供 给 exec() 的 参数 (argv) 

与 环 卉 变量 (environ) 所 占 
ARG MAX 4096 | SC_ARG_MAX 存储 空间 之 和 的 最 大 字 节 

数 〈 见 6.7 节 和 27.2.3 节 ) 

















Z X% =L E, pa 今 级 
LOGIN_NAME_MAX e _SC_LOGIN_NAME_MAX oo Z (R8 
E 








进程 同时 可 打开 的 文件 描 
述 符 的 最 大 数量 ， 比 可 用 
OPEN_MAX 20 |_SC_OPEN_MAX 文件 描述 符 的 最 大 数量 多 1 


AS (736.245) 
进程 所 属 辅助 组 ID 数量 的 


一 个 虚拟 内 存 页 的 大 小 
SC_PAGESIZE (SC_ PAGE SIZE 与 其 同 
义 ) 



































排队 实时 信号 的 最 大 数量 
(422.877) 


_SC STREAM MAX 同 时 可 打开 的 stdio 流 的 最 
大 数量 


排除 终止 空 字符 外 ， 文 件 
Saree vee 名 称 可 达 的 最 大 字 节 长 度 


_SC_SIGQUEUE_MAX 


256 |_PC_ PATH MAX is ag ea 


一 次 性 (原子 操作 〉 写 入 
PIPE_BUF 512 | PC PIPE BUF 管道 或 FIFO 中 的 最 大 字 节 
žr (44.147) 


表 11-1 中 的 第 一 列 给 出 了 限制 的 名 称 ， 可 将 其 作为 常量 定义 于 
<limits.h> 文 件 中 ， 用 于 表示 特定 实现 下 的 限制 。 第 二 列 是 SUSv3 为 这 些 
限制 所 定义 的 最 小 值 (也 定义 于 <limits.h> 文 件 中 ) 。 在 大 多 数 情 况 下 ， 
会 将 每 个 限制 的 最 小 值 定义 为 冠 以 字符 串 _POSIX_ 的 和 常量。 例如， 常量 
_POSIX_RTSIG MAX (其 值 为 8) 为 SUSv3 实 现 对 相应 RTSIG_MAX 常 





Š se pt> 24 E ph E 
RTSIG_MAX _SC_RTSIG MAX 单 实时 信号 的 最 大 数量 
(022.877) 

















量 的 最 低 要 求 。 第 三 列 列 出 了 为 在 运行 期 间 获 取 实 现 的 限制 ， 调 用 
sysconfO 或 pathconfO 时 应 输入 入 参 的 常量 名 。 冠 以 _SC _ 的 常量 用 于 
sysconf()， 先 以 _PC_ 的 常量 用 于 pathconf() 和 fpathconf()。 


下 列 为 对 表 11-1 的 补充 信息 ， 请 了 予 关注 。 


e getdtablesize() 函 数 是 确定 进程 文件 描述 符 (OPEN_MAX) 限制 的 
备 选 方法 ， 已 遭 弃 用 ， 该 图 数 曾 一度 为 SUSv2 所 定义 《标记 为 
LEGACY) ， 但 SUSv3 将 其 剔除 。 

。 getpagesize(0) 函 数 是 确定 系统 页 大 小 (_SC_PAGESIZE) 的 备 选 方 
法 ， 已 然 废弃 。 该 函数 一 度 曾 为 SUSv2 所 定义 《标记 为 
LEGACY) ， 但 SUSv3 将 其 剔除 。 

e 定义 于 <stdio.h> 文 件 中 的 常量 FOPEN_MAX， 等 同 于 常量 
STREAM MAX. 

。NAME_MAX 不 包含 终止 空 字符 ， 而 PATH_MAX 则 包括 。POSIX.1 
标准 在 定义 PATH_MAX 时 ， 对 于 是 否 包含 终止 空 字符 始终 合 糊 不 
清 ， 而 上 述 差异 则 恰好 弥补 了 这 一 缺陷 。 定 义 PATH_MAX 中 包含 
终止 符 也 意味 着 ， 为 路 径 名 称 分 配 了 PATH_MAX 个 字 节 的 应 用 程 
序 依然 符合 标准 。 


从 shell 中 获取 限制 和 选项 : getconf 


在 shell 中 ， 可 以 使 用 getconf 命 令 获取 特定 UNIX 系 统 中 己 然 实现 的 
限制 和 选项 。 该 命令 的 格式 一 般 如 下 : 


$ getconf variable-name [ pathname | 











variable-name 标 识 用 户 意 欲 获取 的 限制 ， 应 是 符合 SUSV3 标 准 的 限 
制 名 称 ， 例 如 : ARG_MAX 或 NAME_MAX。 但 凡 限 制 与 路 径 名 相关 ， 
则 还 需要 指定 一 个 路 径 名 ， 作为 命令 的 第 二 个 参数 ， 如 下 第 二 个 实例 所 
地 


$ getconf ARG MAX 

131072 

$ getconf NAME MAX /boot 
255 





11.2 在 运行 时 获取 系统 限制 (和 选项 ) 
sysconf() 疯 数 允 许 应 用 程序 在 运行 时 获得 系统 限制 值 。 





#include <unistd.h> 


long sysconf(int name); 
Returns value of limit specified by name, 
or -] if limit is indeterminate or an error occurred 











参数 name 应 为 定义 于 <unistd.h> 文 件 中 的 _SC_ 系 列 常量 之 一 ， 其 中 
部 分 在 表 11-1 中 己 有 所 罗列 。 限 制 值 将 作为 函数 结果 返回 。 

若 无 法 确定 某 一 限制 ， 则 sysconfO 返 回 -1。 若 调用 sysconfO 函 数 时 
发 生 错误 ， 也 会 返回 -1。《 唯 一 指定 的 错误 是 EINVAL， 表 示 name 无 
效 。) 为 区 别 上 述 两 种 情况 ， 必 须 在 调用 函数 前 将 errno 设 置 为 0， 如 果 
调用 返回 -1， 且 调用 后 errno 值 不 为 0， 那 么 调用 sysconf() 函 数 时 发 生 了 


He. 


由 sysconf() 函 数 所 返回 的 限制 值 类 型 总 是 (长 〉， 整 型 
pathconfO 和 fpathconfO 也 是 如 此 ) 。 在 对 sysconf() 函 数 的 
原理 描述 中 ，SUSvV3 特 意 指出 ， 一 度 曾 考虑 将 字符 串 作为 
可 能 的 返回 值 ， 但 由 于 实现 和 使 用 的 复杂 性 而 最 终 放 弃 了 
1X — RAAB 


程序 清单 11-1 所 示 为 调用 sysconf() 来 展示 各 种 系统 限制 。 在 某 一 
Linux 2.6.31/x86-32 系 统 上 运行 该 程序 ， 将 产生 如 下 结 





$ ./t_sysconf 


_SC ARG MAX: 2097152 
_SC LOGIN NAME MAX: 256 
_SC_ OPEN MAX: 1024 
_SC_NGROUPS_MAX: 65536 
_SC_PAGESIZE: 4096 
_SC RTSIG MAX: 32 











程序 清单 11-1: 使 用 sysconf() iB 


syslim/t_sysconf.c 
#include "tlpi_hdr.h" 








static void /* Print 'msg' plus sysconf() value for 'name' */ 
sysconfPrint(const char *msg, int name) 
{ 
long lim; 
errno = 0; 
lim = sysconf(name) ; 
if (lim t= -1) { /* Call succeeded, limit determinate */ 
printf("%s %ld\n", msg, lim); 
} else { 
if (errno == 0) /* Call succeeded, limit indeterminate */ 
printf("%s (indeterminate) \n", msg); 
else /* Call failed */ 
errExit("sysconf %s", msg); 
} 
} 
int 
main(int argc, char *argv[]) 
{ 
sysconfPrint(" SC ARG MAX: ", SC ARG MAX); 
sysconfPrint(" SC LOGIN NAME MAX: ", SC LOGIN NAME MAX); 
sysconfPrint(" SC_OPEN_MAX: ", _SC_OPEN MAX); 
sysconfPrint("_SC_NGROUPS MAX: ", _SC _NGROUPS MAX); 
sysconfPrint ("_SC_PAGESIZE : ", _SC_PAGESIZE js 
sysconfPrint("_SC_RTSIG MAX: ", _SC RTSIG MAX); 
exit(EXIT_SUCCESS) ; 
} 


syslim/t_sysconf.c 


SUSv3 要 求 ， 针 对 特定 限制 ， 调 用 sysconfO 所 获取 的 值 在 调用 进程 
的 生命 周期 内 应 保持 不 变 。 例 如 ， 就 可 以 这 样 认 定 : 针对 
_SC_PAGESIZE 限 制 的 返回 值 在 进程 运行 期 间 不 会 改变 。 





在 Linux 系 统 中 ， 对 于 上 述 要 求 ， 有 一 些 (合理 的 ) 例 
外 。 进 程 能 够 使 用 setrlimit()( 见 36.2 节 )〉 修改 进程 的 各 种 
资源 限制 ， 这 会 波及 由 sysconf() 所 报告 的 限制 值 : 

RLIMIT NOFILE， 该 限制 确定 进程 能 够 打开 的 文件 数量 
(_SC_OPEN_MAX) ; RLIMIT_NPROC( 实 际 并 未 纳入 
SUSv3 中 )， 即 允许 进程 基于 每 用 户 所 创建 的 子 进程 限额 
(_SC_CHILD_ MAX) ; RLIMIT_STACK， 始 于 Linux 
2.6.23 版 本 ， 该 限制 确定 了 进程 的 命令 行 参数 和 环境 变量 所 
占 存 储 空间 的 限额 (_SC_ARG_MAX， 具 体 参 见 execve(2) 
SE MTL 





11.3 ”运行 时 获取 与 文件 相关 的 限制 《和 选项 ) 


M fpathconfO 函 数 允 许 应 用 程序 在 运行 时 获取 文件 相关 的 
限制 值 。 








ftinclude <unistd.h> 


long pathconf(const char *pathname, int name); 
long fpathconf(int fd, int name); 


Both return value of limit specitied by name, 
or -1 if limit is indeterminate or an error occurred 














pathconf() 和 fpathconf() 之 间 唯 一 的 区 别 在 于 对 文件 或 目录 的 指定 方 
式 。pathconf() 采 用 路 径 名 方式 来 指定 ， 而 fpathconf() 则 使 用 (之 前 已 经 
打开 的 ) 文件 描述 符 。 


参数 name 则 是 定义 于 <unistd.h> 文 件 中 的 _PC_ 系 列 常量 之 一 ， 在 表 
11-1 中 己 经 列举 了 其 中 的 一 部 分 。 表 11-2 又 针对 表 11-1 中 展示 的 _PC_* 
常量 ， 提 供 了 更 深入 的 细节 。 


限制 的 值 将 作为 函数 结果 返回 。 如 要 区 分 限制 值 不 确定 与 发 生 错 误 
的 情况 ， 应 对 方式 与 sysconfO 相 同 。 


有 别 于 sysconfO 函 数 ，SUSv3 并 不 要 求 pathconfO 和 fpathconfO 的 返 
回 值 在 进程 的 生命 周期 内 保持 恒定 。 这 是 因为 ， 例 如 ， 在 进程 运行 期 
可 能 会 外 载 一 个 文件 系统 ， 然 后 再 以 不 同 特性 重新 装载 该 文件 系 








表 11-2: pathconfO 函 数 中 ， 选 定 _PC_ 系 列 命名 的 详细 说 明 

















针对 目录 ， 返回 该 目录 下 文件 命名 的 最 大 长 度 ， 对 于 其 他 文件 类 


对 于 目录 ， 返 回 该 目录 中 相对 路 径 名 的 最 大 长 度 ， 对 于 其 他 文件 








aa) 
= 
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_PC_PATH_MAX |Æ, WAVE 





对 于 FIFO 或 者 管道 ， 返 回 一 个 应 用 于 引用 文件 的 值 。 对 于 目 
_PC_PIPE_BUF 录 ， 返 回 的 值 应 用 于 在 该 目录 下 创建 的 FIFO。 对 于 其 他 文件 























类 型 ， 则 未 作 规 定 








程序 清单 11-2 所 示 为 针对 由 标准 输入 所 指向 的 文件 ， 使 用 
fpathconf() 函 数 获取 各 种 限制 。 运 行 该 程序 时 ， 奉 将 ext2 文 件 系 统 上 的 
茶 一 目录 指定 为 标准 输入 ， 可 产生 如 下 结果 : 
$ ./t_fpathconf < . 

OPC NAME MAX: 255 


_PC PATH MAX: 4096 
_PC PIPE BUF: 4096 





程序 清单 11-2: 使 用 fpathconfO 函 数 





syslim/t_fpathconf.c 
#include "tlpi hdr.h" 


static void /* Print ‘msg’ plus value of fpathconf (fd, name) */ 
fpathconfPrint(const char *msg, int fd, int name) 
{ 
long lim; 
errno = 0; 
lim = fpathconf(fd, name); 
if (lim != -1) { /* Call succeeded, limit determinate */ 
printf("%s %ld\n", msg, lim); 
} else { 
if (errno == 0) /* Call succeeded, limit indeterminate */ 
printf("%s (indeterminate)\n", msg); 
else /* Call failed */ 
errExit("fpathconf %s", msg); 
} 
} 
int 


main(int argc, char *argv[]) 


fpathconfPrint(" PC NAME MAX: ", STDIN FILENO, PC NAME MAX); 
fpathconfPrint(" PC PATH MAX: ", STDIN FILENO, PC PATH MAX); 
fpathconfPrint(" PC PIPE BUF: ", STDIN FILENO, PC PIPE BUF); 
exit (EXIT_SUCCESS) ; 


syslim/t_fpathconf.c 


11.4 不 确定 的 限制 


有 时 ， 系 统 实现 并 未 将 一 些 系统 限制 定义 为 限制 常量 〈 比 如 : 


PATH_ MAX) ， 并 且 sysconf0 或 pathconfO 在 返回 相应 限制 (比如 
_PC_PATH _MAX) 时 会 将 其 归 为 不 确定 。 对 此 ， 可 采用 如 下 策略 之 一 。 


当 编 写 一 个 可 在 多 个 UNIX 实 现 间 移 植 的 应 用 程序 时 ， 可 选择 使 用 
SUSv3 所 规定 的 最 低 限 制 值 。 此 类 以 _POSIX_* _ MAX 形式 命名 的 常 
量 ， 有 具体 参见 11.1 节 。 此 方法 有 时 并 不 可 行 ， 因 为 该 限制 之 低 已 经 
超 乎 实际 情况 ， 正 如 POSIX_PATH_MAX#il_POSIX_OPEN_MAX 
的 情况 。 

在 某 些 情况 下 ， 切 实 可 行 的 解决 方法 是 省 去 对 限制 的 检查 ， 取 而 代 
之 以 执行 相关 的 系统 调用 或 库 函 数 。 《类似 观点 也 适用 于 11.5 节 中 
所 描述 的 一 些 SUSv3 选 项 。) 如 果 调 用 失败 ， 且 errno 表 明 出 错 是 由 
于 超出 了 系统 限制 时 ， 那 么 可 以 根据 需要 调整 应 用 的 行为 ， 并 再 次 
尝试 调用 。 例 如 ， 对 于 可 发 送 给 进程 的 实时 信号 队列 长 度 ， 大 多 数 
UNIX 实 现 都 进行 了 强制 限制 。 一 旦 达到 限额 ， 试 图 进一步 发 送信 
+ (fi AsigqueueQ rian) 将 以 失败 告终 ， 且 会 将 错误 号 errorno 置 为 
EAGAIN。 这 时 ， 发 送 进程 只 需 简 单 重 试 即 可 ， 或 许 是 在 等 待 片刻 
之 后 。 与 之 相 类 似 ， 试 图 打开 一 个 文件 时 ， 若 文件 命名 过 长 ， 将 会 
产生 ENAMETOOLONG 错 误 ， 之 后 应 用 程序 可 以 一 个 更 加 简短 的 

命名 进行 重 试 。 

自行 编写 程序 或 函数 ， 以 推断 或 估算 限制 值 。 无 论 在 哪 一 种 情况 

下 ， 都 会 调用 相关 的 sysconf0) 或 pathconf()， 若 限制 不 确定 ， 则 函数 
ee eet Ee 
是 可 行 的 。 

也 可 以 利用 诸如 GNU Autoconf 之 类 的 扩展 工具 ， 该 工具 能 够 确定 各 
种 系统 特性 及 限制 存在 与 否 、 如 何 设置 。Autoconf 程 序 可 基于 其 收 
集 到 的 信息 而 生成 头 文件 ， 并 能 在 C 程 序 中 将 其 包含 史 在 内 。 关 于 
Autoconf 的 更 多 信息 ， 请 参考 http://www.gnu.org/software/ autoconf/ 
中 的 内 容 。 























11.5 ”系统 选项 


除了 对 各 种 系统 资源 的 限制 加 以 规范 外 ，SUSv3 还 规定 了 UNIX 实 
现 可 文 持 的 各 种 选项 。 这 包括 对 诸如 实时 信号 、POSIX 共 享 内 存 、 任 务 
控制 以 及 POSIX 线 程 之 类 功能 的 支持 。 除 少数 特例 外 ， 并 未 要 求实 现 支 
持 这 些 选 项 。 相 反 ， 对 于 实现 在 编译 及 运行 时 是 否 支 持 某 一 特定 特性 ， 
SUSv3 人 允许 实现 目 行 给 出 建议 。 


通过 在 <unistd.h> 文 件 中 定义 相应 常量 ， 实 现 能 够 在 编译 时 通告 其 
对 特定 SUSv3 选 项 的 文 持 。 此 类 稼 量 的 命名 均 会 冠 以 前 级 《比如 
_POSIX_ 或 者 XOPEN_) ， 以 标识 其 源 于 何 种 标准 。 


各 个 选项 和 常量， 一 经 定义 ， 其 值 必 为 下 列 之 一 。 


。 值 为 -1， 表 示 实 现 不 支持 该 选项 。 此 时 ， 系 统 实现 无 需 定 义 与 该 选 
项 有 关 的 头 文件 、 数 据 类 型 和 函数 接口 。 可 以 使 用 #f 预 处 理 程序 指 
令 ， 通 过 条 件 编译 来 处 理 这 种 情况 。 

。 值 为 0， 表 示 实 现 可 能 支持 该 选项 。 应 用 程序 必须 在 运行 时 检查 该 
选项 是 否 获 得 支持 。 

。 值 大 于 0， 则 表示 实现 支持 该 选项 。 实 现 定 义 了 与 该 选项 有 关 的 所 
有 头 文件 、 数 据 类 型 和 函数 接口 ， 且 其 行为 也 符合 规范 要 求 。 在 很 
多 情况 下 ，SUSv3 要 求 这 一 正 值 为 200112L， 该 常量 对 应 于 批准 
SUSv3 标 准 的 年 、 月 。 (SUSv4 中 ， 将 类 似 功 能 的 值 设 为 
200809L。) 



































当 定 义 常 量 为 0 时 ， 应 用 程序 可 使 用 sysconf() 和 pathconf() 或 f 
pathconf()〉 在 运行 时 检查 选项 是 否 获得 实现 的 支持 。 传 递 给 这 些 函 数 的 
入 参 name， 其 命名 通常 与 编译 时 常量 形式 相同 ， 只 是 前 级 为 _ SC_ 或 
_PC_ 所 取代。 系统 实现 必须 至 少 提 供 头 文件 、 常 量 以 及 实施 运行 时 检 
查 所 必要 的 函数 接口 。 














对 于 未 定义 的 选项 常量 ， 其 含义 到 底 等 同 于 常量 0〈 可 
能 支持 该 选项 ) 还 是 -1〈 不 支持 该 选项 ) ，SUSv3 并 未 做 


出 明确 规定 。 随 后 ， 标 准 委员 会 作出 裁决 ， 规 定 这 种 情况 
应 与 定义 为 -1 的 常量 含义 相同 ， 并 且 SUSv4 对 此 明确 作出 
了 规定 。 


表 11-3 列 举 了 SUSv3 所 规定 的 一 些 选 项 。 表 中 第 一 列 针对 选项 〈 定 
义 于 <unistd.h> 文 件 中 ) 给 出 了 相关 编译 时 常量 的 名 称 ， 以 及 sysconf() 


(_SC_*) 和 pathconf()(_PC_*) 函 数 的 相应 入 参 name 值 。 对 于 特定 选 
项 ， 请 注意 以 下 几 点 。 











e 某 些 选项 在 SUSv3 中 是 必需 的 ， 即 编译 时 其 常量 值 总 应 大 于 0。 历 
史上 ， 这 些 选 项 一 度 确实 曾 是 可 选项 ， 但 如 今 已 是 时 过 境 迁 。“ 备 
注 ” 栏 会 以 字符 “+” 标 识 此 类 选项 。 (许多 在 SUSvV3 中 的 可 选项 在 
SUSv4 中 已 经 成 为 必 选 项 。) 


虽然 这 些 选 项 在 SUSv3 中 是 必需 的 ， 但 在 安装 一 些 
UNIX 系 统 时 ， 大 配置 不 当 ， 系 统 依然 会 与 规范 不 符 。 因 
此 ， 对 可 移植 的 应 用 程序 而 言 ， 不 管 标准 是 个 对 影 啊 应 用 
的 选项 作出 了 要 求 ， 总 应 检查 系统 是 个 文 持 该 选项 。 











。 对 于 某 些 选项 ， 其 编译 时 常量 必须 为 -1 以 外 的 值 。 换 言 之 ， 要 么 必 
须 支 持 该 选项 ， 要 么 必须 有 方法 可 以 检查 出 系统 在 运行 时 是 否 支持 
该 选项 。 这 些 选项 的 “备注 " 栏 以 字符 “*” 标 识 这 些 选项 。 








表 11-3: 已 选 的 SUSv3 选 项 


选项 (常量 ) 名 (sysconf() / pathconf() 











入 参 name 名 ) 








_POSIX_ASYNCHRONOUS_IO 





(_SC_ASYNCHRONOUS_IO) 异步 IJO 


仅 有 特权 级 进程 能 够 使 用 chown() 和 
fchown() 函 数 将 文件 的 用 户 帮 和 组 ID 
ERE (15.3.2 节 ) 





POSIX_CHOWN_RESTRICTED 


(_PC_CHOWN_RESTRICTED) 修改 为 入 





POSIX_JOB_CONTROL ; qh 
一 一 一 \ PY | 
(.SC_JOB_CONTROL) 作业 控制 (34.779) 


_POSIX_MESSAGE_PASSING 


W 自 | Poke a 
C SC MESSAGE, PASSING) POSIX 消息 队列 (第 52 章 ) 





_POSIX_PRIORITY_SCHEDULING 
(_SC_PRIORITY_SCHEDULING) 





进程 调度 (35.345) 


_POSIX_REALTIME_SIGNALS 


(_SC_REALTIME_ SIGNALS) SAE STR 22.80) 





进程 拥有 的 保存 (saved)set-user-ID 和 保 
存 (saved)set-group-ID (9.4 节 ) 





_POSIX_SAVED_IDS(none) 


_POSIX_SEMAPHORES 


> O Are ze 
(_SC_SEMAPHORES) POSIX 信 号 《第 53 章 ) 





_POSIX_SHARED_MEMORY_OBJECTS 
(_SC_SHARED_MEMORY_OBJECTS) 








POSIX 共享 内 存 对 象 “第 








_POSIX_THREADS (_SC_THREADS) POSIX 线程 





_XOPEN_UNIX (_SC_XOPEN_UNIX) ”| 支持 XSI 扩展 功能 (1.3.4 节 ) 





11.6 ”总结 


: 对 于 系统 实现 必须 文 持 的 限制 和 可 能 支持 的 系统 选项 ，SUSv3 都 做 
了 规范 。 


通常 ， 不 建议 将 对 系统 限制 和 选项 的 假设 值 硬 性 写 入 应 用 程序 代 
码 ， 因 为 这 些 值 既 可 能 随 系统 的 不 同 而 发 生变 化 ， 也 可 能 在 同一 个 系统 
实现 中 因 不 同 的 运行 期 间或 文件 系统 而 不 同 。 因 此 ，SUSv3 规 定 了 一 干 
方法 ， 借 助 于 此 ， 系 统 实现 可 发 布 其 所 文 持 的 限制 和 选项 。 对 于 大 多 数 
限制 ，SUSv3 规 定 了 所 有 实现 所 必须 文 持 的 最 小 值 。 此 外 ， 每 个 实现 还 
能 在 编译 时 (通过 定义 于 <limits.h> 或 <unistd.h> 文 件 中 的 常量 ) 和 /或 运行 
时 (通过 调用 sysconf(). pathconf()#k fpathconf() e420) 发 布 其 特有 的 限制 
和 选项 。 此 类 技术 同样 可 应 用 于 找 出 实现 所 文 持 的 SUSv3 选 项 。 在 一 些 
情况 下 ， 无 论 使 用 上 述 何 种 方法 ， 都 不 能 获取 某 个 特定 限制 的 值 。 对 于 
必须 采用 特殊 技术 来 确定 应 用 程序 所 应 遵循 的 限 

I}. 


更 多 信息 


[Stevens & Rago, 2005]#51% All[Gallmeister, 1995] 第 2 章 均 涵盖 了 
与 本 章 相 类 似 的 知识 ，[Lewine，1991] 也 提供 了 很 多 有 用 的 (尽管 稍 有 
过 时 ) 背景 知识 。 在 Linux 及 glibc 中 与 POSIX 选 项 有 关 的 一 些 详细 信 
fs, nj SLi http://people.redhat.com/drepper/posix-option-groups.html . 
相关 的 Linux 手 册页 如 下 : sysconf(3). pathconf(3), 
feature_test_macros(7)、posixoptions(7) 和 standards(7)。 


最 佳 的 信息 来 源 (虽然 有 时 难以 理解 〉 还 是 SUSv3 中 的 相关 部 


分 ， 特 别 是 基本 定义 “XBD) 的 第 2 章 以 及 针对 <unistd.h>、<limits.h>、 
sysconf() 和 fpathconf() 的 规格 说 明 。[Josey，2004] 也 为 SUSvV3 的 使 用 提供 
了 指导 。 








11.7 练习 
11-1. 尝试 在 其 他 UNIX 实 现 中 运行 程序 清单 11-1 所 列 程序 。 
11-2. 党 试 在 其 他 文件 系统 中 运行 程序 清单 11-2 所 列 程序 。 








QD) 译 者 注 : #include. 


第 12 章 系统 和 进程 信息 sWuy 


本 章 将 研究 一 系列 系统 和 进程 信息 的 访问 方法 ， 重 点 讨论 /proc 文 件 
系统 。 本 章 还 描述 了 uname() 系 统 调用 ， 该 调用 用 于 获取 各 种 系统 标 


Wo 


12.1 /proc 文件 系统 


在 较 老 的 UNIX 实 现 中 ， 通 常 并 无 简单 方法 来 获取 或 修改 ) 内 核 
属性 并 回答 如 下 问题 : 


。 系统 中 有 多 少 进程 正在 运行 ， 其 属 主 是 谁 ? 
。 一 个 进程 已 经 打开 了 什么 文件 ? 





目前 锁定 了 什么 文件 ， 哪 些 进程 持 有 这 些 锁 ? 
系统 正在 使 用 什么 套 接 字 (socket) ? 


一 些 老 版 UNIX 实 现 解决 这 一 问题 的 方法 是 允许 特权 级 程序 深入 内 
核 内 存 中 的 数据 结构 。 然 而 ， 这 会 带 来 各 种 问题 。 特 别 是 ， 这 要 求 对 内 
核 数 据 结构 具有 专业 知识 ， 并 且 这 些 结构 可 能 因 内 核 版 本 的 演进 而 发 生 
改变 ， 故 而 需要 加 以 重 写 。 


为 了 提供 更 为 简便 的 方法 来 访问 内 核 信 息 ， 许 多 现代 UNIX 实 现 提 
供 了 一 个 /proc 虚 拟 文件 系统 。 该 文件 系统 驻 留 村 /proc 目 录 中 ， 包 含 了 各 
种 用 于 展示 内 核 信息 的 文件 ， 并 且 允 许 进程 通过 常规 文件 W/O 系统 调用 
来 方便 地 读 取 ， 有 时 还 可 以 修改 这 些 信息 。 之 所 以 将 /proc 文 件 系统 称 为 
虚拟 ， 是 因为 其 包含 的 文件 和 子 目 录 并 未 存储 于 磁盘 上 ， 而 是 由 内 核 在 
进程 访问 此 类 信息 时 动态 创建 而 成 。 


本 节 展 示 了 /proc 文 件 系统 的 概况 。 后 续 各 章 将 视 各 自主 题 来 描述 特 
定 的 /proc 文 件 。 虽 然 许 多 UNIX 实 现 提 供 了 /proc 文 件 系统 ， 但 SUSv3 并 
未 对 其 进行 规范 ， 本 书 所 述 细节 是 Linux 专 有 的 。 

















12.1.1 获取 与 进程 有 关 的 信息 : /proc/PID 


对 于 系统 中 每 个 进程 ， 内 核 都 提供 了 相应 的 目录 ， 命 名 
为 /prowPID， 其 中 PID 是 进程 的 ID。 在 此 目录 中 的 各 种 文件 和 子 目 录 包 
含 了 进程 的 相关 人 信息。 例如， 通过 查看 /proc/1 目 录 下 的 文件 ， 可 以 获取 
init 进 程 的 信息 ， 该 进程 的 ID 总 是 为 1。 


每 个 /proc/PID 目 录 中 都 存在 一 个 命名 为 status 的 文件 ， 提 供 了 有 关 
该 进程 的 一 系列 信息 。 


$ cat /proc/1/status 


Name: init Name of command run by this process 
State: S (sleeping) State of this process 

Tgid: 1 Thread group ID (traditional PID, geipid()) 
Pid: 1 Actually, thread ID (gettid()) 

PPid: 0 Parent process ID 

TracerPid: 0 PID of tracing process (0 if not traced) 

Uid: 0 0 0 0 Real, effective, saved set, and FS UIDs 

Gid: 0 0 0 0 Real, effective, saved set, and FS GIDs 
FDSize: 256 # of file descriptor slots currently allocated 
Groups: Supplementary group IDs 

VmPeak: 852 kB Peak virtual memory size 

VmSize: 724 kB Current virtual memory size 

VmLck : 0 kB Locked memory 

VmHWM : 288 kB Peak resident set size 

VmRSS: 288 kB Current resident sel. size 

VmData : 148 kB Data segment size 

VmStk: 88 kB Slack size 

VmExe: 484 kB Text (executable code) size 

VmLib: 0 kB Shared library code size 

VmPTE : 12 kB Size of page table (since 2.6.10) 

Threads: 1 # of threads in this thread’s thread group 
SigQ: 0/3067 Current/max. queued signals (since 2.6.12) 
SigPnd: 0000000000000000 Signals pending for thread 

ShdPnd: 0000000000000000 Signals pending for process (since 2.6) 
SigBlk: 0000000000000000 Blocked signals 

SigIgn: fffffffes770d8fc Ignored signals 

SigCgt: 00000000280b2603 Caught signals 

CapInh: 0000000000000000 Inheritable capabilities 

CapPrm: ooooooooft ttt fff Permitied capabilities 

CapEff: O00000000fffffeff Effective capabilities 

CapBnd: 00000000ffffffff Capability bounding set (since 2.6.26) 
Cpus allowed: 1 CPUs allowed, mask (since 2.6.24) 
Cpus_allowed_list: 0 Same as above, list format (since 2.6.26) 
Mems allowed: 1 Memory nodes allowed, mask (since 2.6.24) 
Mems_ allowed list: 0 Same as above, list format (since 2.6.26) 
voluntary ctxt switches: 6998 Voluntary context switches (since 2.6.23) 
nonvoluntary_ctxt_switches: 107 Involuntary context switches (since 2.6.23) 
Stack usage: 8 kB Stack usage high-water mark (since 2.6.32) 


上 面 的 输出 来 自 于 内 核 2.6.32。 正 如 伴随 文件 输出 的 “ 始 于 ”说 明 所 
示 ， 该 文件 格式 随 大 时 间 的 推移 而 不 断 演进 ， 在 不 同 内 核 版 本 中 增加 了 
新 字段 〈 极 少 情况 下 ， 也 会 移 除 字段 ，。 除了 注释 中 Linux 2.6 所 市 来 
的 改变 之 外 ，Linux 2.4 增 加 了 Tgid、TracerPid、FDSize 和 Threads 字 
Fro) 


TASC TE AY RANE, RS SEH AN HH RF proc thE H BY) 
要 点 所 在 。 当 这 些 文件 由 多 个 条 目 组 成 时 ， 对 其 解析 应 当 谨 慎 从 事 ， 在 











这 种 情况 下 ， 应 得 找 包 含 特殊 字符 串 〈 如 ，PPid) 的 匹配 行 记 录 ， 


按照 (人 逻辑 ) 行 号 来 处 理 文 件 。 


表 12-1 列 举 了 在 每 个 /proc/PID 目 录 中 的 部 分 其 他 文件 。 


表 12-1: 每 个 /proc/PID 晶 





以 \0 分 隔 的 命令 行 参 数 
指向 当前 工作 目录 的 符号 链接 



































录 下 的 文件 节选 








表 ， 以 \0 分 隔 





牛 的 符号 链接 








而 非 


指向 根 目录 的 符号 链接 


























AEA (Hein, ARD, SEE 








内 存 使 用 量 、 




















为 进程 中 的 每 个 线程 均 包 含 一 个 子 目 录 〈 始 自 Linux 2.6) 





/procPID/fd 目 录 


/proc/PID/fd 目 录 为 进程 打开 的 每 个 文件 描述 符 都 包含 了 一 个 符号 链 
接 ， 每 个 符号 链接 的 名 称 都 与 描述 符 的 数值 相 匹 配 。 例 如 ，/proc/1968/1 
是 ID 为 1968 的 进程 中 指 同 标 准 输出 的 符号 链接 ， 更 多 信息 参见 5.11 节 。 


为 方便 起 见 ， 任 何 进程 都 可 使 用 符号 链接 /proc/self 来 访问 其 自己 
的 /proc/PID 目 录 。 





线程 /proc/PID/task 目 录 


Linux 2.4 增 加 了 线程 组 概念 ， 正 式 文 持 POSIX 线 程 模 型 。 因 为 线程 
组 中 的 一 些 属性 对 于 线程 而 言 是 唯一 的 ， 所 以 Linux 2.4 在 /procPID 目 录 
下 增加 了 一 个 task 子 目录 。 针 对 进程 中 的 每 个 线程 ， 内 核 提 供 了 
以 /proc/PID/task/TID 命 名 的 子 目 录 ， 其 中 TID 是 该 线程 的 线程 ID。 (此 
值 等 同 于 在 线程 中 调用 getti dO 函数 的 返回 值 。) 


每 个 /proc/PID/task/TID 子 目录 中 都 有 一 套 类 似 于 /proc/PID 目 录 内 容 
的 文件 和 目录 。 因 为 线程 共享 了 多 个 属性 ， 所 以 这 些 文件 中 的 许多 信息 
对 进程 中 各 个 线程 而 言 都 是 相同 的 。 然 而 ， 这 些 文件 也 显示 了 每 个 线程 
的 独特 信息 ， 故 而 是 合理 的 。 例 如 ， 在 线程 组 
的 /proc/PID/task/TID/status 文 件 中 ， 存 在 那 种 对 每 个 线程 而 言 ， 内 容 都 
有 可 能 不 同 的 字段 ，State、Pid、SigPnd、SigBlk、CapInh、CapPrm、 
CapEff 和 CapBnd 就 在 此 列 。 


12.1.2 /proc 目录 下 的 系统 信息 


/proc 目 录 下 的 各 种 文件 和 子 目 录 提 供 了 对 系统 级 信息 的 访问 。 图 
12-1 展 示 了 其 中 的 部 分 。 








filesystems, kallsyms, loadavg, locks, meminfo, 
partitions, stat, swaps, uptime, version, vmstat 
sockstat, sockstaté, 
tcp, tcp6, udp, udp6 日 录 


net 





sys 


kernel acct, core pattern, hostname, 


msgmax, msgmnb, msgmni, pid_max, 
sem, shmall, shmmax, shmmni 





net 


somaxconn 


ip_local_port_range 


overcommit memory , 
overcommit_ratio 


msg, sem, shm 


图 12-1: /proc 目 录 下 文件 和 子 目录 的 节选 


图 12-1 中 的 许多 文件 在 本 书 的 其 他 章节 进行 描述 。 表 12-2 总 结 了 图 
12-1 所 示 /proc 子 目录 的 一 般 用 途 。 
表 12-2: 节选 /proc 子 目录 的 用 途 
| 























目录 中 文件 表达 的 信息 


目 xR 


/proc/net 有 关 网 络 和 套 接 字 的 状态 信息 












/proc/sys/net 网 络 和 套 接 字 的 设置 
/proc/sys/vm 内 存 管理 设置 
/proc/sysvipc 有 关 System V IPC 对 象 的 信息 














12.1.3 访问 /proc 文 件 


通常 使 用 shell 脚 本 来 访问 /proc 目 录 下 的 文件 (使 用 诸如 Python 或 者 
Perl 之 类 的 脚本 语言 ， 很 容易 解析 大 多 数 /proc 目 录 下 包含 有 多 个 值 的 文 
。 例 如 ， 使 用 如 下 shell 命 令 ， 束 可 以 修改 和 查看 /proc 目 录 下 的 文件 

容 : 


# echo 100000 > /proc/sys/kernel/pid_max 
# cat /proc/sys/kernel/pid_max 
100000 


也 可 以 从 程序 中 使 用 常规 VO 系统 调用 来 访问 /proc 目 录 下 的 文件 。 
但 在 访问 这 些 文件 时 ， 有 如 下 一 些 限制 。 


e /proc 目 录 下 的 一 些 文件 是 只 读 的 ， 即 这 些 文 件 仅 用 于 显示 内 核 信 
妃 ， 但 无 法 对 其 进行 修改 。/proc/PID 目 录 下 的 大 多 数 文件 就 属于 此 
类 型 。 

e /proc 目 录 下 的 一 些 文 件 仅 能 由 文件 拥有 者 〈 或 特权 级 进程 ) 读 取 。 
例如 ，/proc/PID 目 录 下 的 所 有 文件 都 属于 拥有 相应 进程 的 用 户 ， 而 





且 即 使 是 对 文件 的 属 主 ， 其 中 的 部 分 文件 〈 如 : proc/PID/environ 文 
件 ) 也 仅仅 授予 了 读 权 限 。 

。 除了 /proc/PID 子 目录 中 的 文件 ，/proc 目 录 的 其 他 文件 大 多 属于 root 
用 户 ， 并 且 也 仪 有 root 用 户 能 够 修改 那些 可 修改 的 文件 。 


访问 /proc/PID 目 录 中 的 文件 


/proc/PID 目 录 内 容 变 化 不 定 。 每 个 目录 随 着 含有 相应 进程 ID 的 进程 
创建 而 生 ， 又 随 进程 的 终止 而 灭 。 这 意味 着 要 确定 特定 /procPID 目 录 的 
存在 ， 就 需要 干净 利沙 地 处 理 如 下 可 能 性 : 当 打 开 此 目录 下 的 文件 时 ， 
进程 已 经 终止 ， 并 且 也 已 经 删除 了 相应 的 /procPID 目 录 。 


示例 程序 


程序 清单 12-1 展 示 了 如 何 读 取 和 修改 一 个 /proc 目 录 下 的 文件 。 访 程 
序 读 取 并 显示 了 /procsys/kernel/pid_max 文 件 的 内 容 。 若 提供 了 命令 行 参 
数 ， 则 程序 将 使 用 此 参数 对 文件 进行 更 新 。 该 文件 (Linux 2.6 的 新 增 文 
件 ) 规定 了 进程 ID 的 上 限 “〈 见 6.2 节 ) 。 此 处 是 运用 该 程序 的 一 个 例 
子 : 


$ su Privilege ts required to update pid_max file 
Password: 

# ./procfs pidmax 10000 

Old value: 32768 

/proc/sys/kernel/pid_ max now contains 10000 

















程序 清单 12-1: 访问 /proc/sys/kernel/pid_max 文 件 





sysinfo/procfs_pidmax.c 


#include <fcntl.h> 
#include "tlpi_hdr.h" 


#define MAX LINE 100 


int 
main(int argc, char *argv[]) 


int fd; 
char line[MAX_ LINE]; 
ssize 七 n; 


fd = open("/proc/sys/kernel/pid_ max", (argc > 1) ? O_RDWR : O_RDONLY); 
if (fd == -1) 
errExit("open"); 


n = read(fd, line, MAX LINE); 
if (n == -1) 
errExit("read"); 


if (argc > 1) 
printf("Old value: "); 
printf("%.*s", (int) n, line); 


if (argc > 1) { 
if (write(fd, argv[1], strlen(argv[1])) != strlen(argv[1])) 
fatal("write() failed"); 


i 


system("echo /proc/sys/kernel/pid_max now contains 
"cat /proc/sys/kernel/pid_max`"}; 


} 


exit(EXIT SUCCESS); 


sysinfo/procfs_pidmax.c 


12.2 系统 标识 : uname() 


uname() 系 统 调用 返回 了 一 系列 关于 主机 系统 的 标识 信息 ， 存 储 于 
utsbuf 所 指 问 的 结构 中 。 








#include <sys/utsname.h> 


int uname(struct utsname *utsbuf); 


Returns 0 on success, or -1 on error 











utsbuf 参 数 是 一 个 指向 utsname 结 构 的 指针 ， 其 定义 如 下 : 
#define UTSNAME LENGTH 65 


struct utsname { 


char sysname[ UTSNAME LENGTH]; /* Implementation name */ 

char nodename[_UTSNAME_LENGTH] ; /* Node name on network */ 

char release[_UTSNAME LENGTH]; /* Implementation release level */ 

char version[ UTSNAME LENGTH]; /* Release version level */ 

char machine[_UTSNAME_ LENGTH]; /* Hardware on which system 

is running */ 

#ifdef GNU SOURCE /* Following is Linux-specific */ 

char domainname[ UTSNAME LENGTH]; /* NIS domain name of host */ 
#endif 





SUSv3 规 范 了 uname0， 但 对 utsname 结 构 中 各 种 字段 的 长 度 未 加 定 
义 ， 仅 要 求 字 符 串 以 空 字 节 终 止 。 在 Linux 中 ， 这 些 字 段 长 度 均 为 65 个 
字 节 ， 其 中 包括 了 空 字 节 终 止 符 所 占用 的 空间 。 而 在 一 些 UNIX 实 现 
中 ， 这 些 字段 更 短 ， 但 在 其 他 操作 系统 〈 如 Solaris) 中 ， 这 些 字段 的 长 
度 长 达 257 个 字 节 。 


utsname 结 构 中 的 sysname、release、version 和 machine 字 段 由 内 核 自 
动 设 置 。 


在 Linux 中 ，/proc/sys/kernel 目 录 下 的 3 个 文件 提供 了 与 
utsname 结 构 的 sysname、release 和 version 字段 返回 值 相 同 


的 信息 ， 这 些 只 读 文 件 分 别 为 ostype、osrelease 和 version 。 
另外 一 个 文件 /proc/version， 也 包含 了 这 些 信 息 ， 并 且 还 包 
含 了 有 关内 核 编译 的 步骤 信息 〈 即 执行 编译 的 用 户 名 、 用 
于 编译 的 主机 名 ， 以 及 使 用 的 gcc 版 本 )。 


nodename 字 上 段 的 返回 (i 由 sethostname() 系 统 调 用 设置 (详情 请 参考 
fal 的 手册 页 ) 。 通 常 ， 该 值 类 似 于 系统 DNS 域名 中 的 前 绥 主 机 


domainname 字 段 的 返回 值 由 setdomainname0O 系 统 调用 设置 〈 详 情 请 
参考 此 系统 调用 的 手册 页 ) 。 该 值 是 主机 的 网 络 信息 服务 CNIS) 域名 
《与 主机 域名 不 同 ) 。 


gethostname() 系 统 调用 (是 sethostname0 函 数 的 反 向 操 
VE) 用 于 获取 系统 主机 名 ， 也 可 利用 hostname(1) 命 令 和 
Linux 特 有 的 /proc/hostname 文 件 来 查看 和 设置 系统 主机 名 。 


getdomainname() 系 统 调用 (setdomainname() 函 数 的 反 
HEE) 用 于 获取 NIS 域 名 ， 也 可 利用 domainname(1) 命 令 
和 Linux 特 有 的 /proc/domainname 文 件 来 查看 和 设置 NIS 域 
Zo 





sethostname() 和 setdomainname() 系 统 调用 在 应 用 程序 中 
鲜 有 使 用 。 通 常 ， 会 在 系统 启动 时 运行 启动 脚本 来 确立 主 
机 名 和 NIS 域 名 。 














程序 清单 12-2 中 程序 展示 了 uname() 的 返回 信息 。 下 面 是 运行 该 程序 


可 能 看 到 的 输出 信息 : 


$ ./t_uname 

Node name: tekapo 

System name: Linux 

Release: 2.6.30-default 

Version: #3 SMP Fri Jul 17 10:25:00 CEST 2009 
Machine: i686 

Domain name: 


#define _GNU_SOURCE 

#include <sys/utsname.h> 
#include "tlpi_hdr.h" 

int 

main(int argc, char *argv[]) 


struct utsname uts; 


if (uname(&uts) == -1) 
errExit ("uname"); 


printf("Node name: %s\n", uts.nodename); 
printf("System name: %s\n", uts.sysname) ; 


printf("Release: %s\n", uts.release); 
printf("Version: %s\n", uts.version); 
printf("Machine: %s\n", uts.machine) ; 


#ifdef _GNU_SOURCE 

printf("Domain name: %s\n", uts.domainname) ; 
#endif 

exit(EXIT SUCCESS); 
} 





程序 清单 12-2: 使 月 








sySinfo/t_uname.c 


sysinfo/t_uname.c 


H uname() 


12.3 总结 


/proc 文 件 系统 回应 用 程序 暴露 了 一 系列 内 核 信 息 。 每 个 /proc/PID 子 
目录 都 包含 有 许多 文件 和 子 目 录 ， 是 进程 ID 为 PID 的 进程 提供 的 相关 信 
恩 。/proc 目 录 下 的 其 他 许多 文件 和 目录 ， 则 暴露 了 应 用 程序 可 以 读 取 ， 
有 时 还 可 以 修改 的 系统 级 信息 。 


使 用 uname() 系 统 调 用 ， 能 够 获取 UNIX 的 实现 信息 以 及 应 用 程序 所 
运行 的 机 器 类 型 。 
进 阶 信息 

关于 /proc 文 件 系统 的 深入 信息 可 见 诸 于 proc (5) 手册 页 、 内 核 源 


文件 Documentation/filesystems/proc.txt 以 及 Documentation/sysctl 目 录 下 的 
各 种 文件 。 
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12-1. 编写 一 个 程序 ， 以 用 户 名 作为 命令 行 参数 ， 列 表 显 示 该 用 户 
F 所 有 正在 运行 的 进程 ID 和 命令 名 。 (程序 清单 8-1 中 的 
userIdFromName() 函 数 对 本 题 程序 的 编写 可 能 会 有 所 帮助 。〉 通过 分 析 
系统 中 /proc/PID/status 文 件 的 Name: 和 Uid: 各 行 信息 ， 可 以 实现 此 功 
能 。 遍 历 系 统 的 所 有 /proc/PID 目 录 需 要 使 用 readdir(3) 函 数 ，18.8 节 对 其 
进行 了 描述 。 程 序 必须 能 够 正确 处 理 如 下 可 能 性 ， 在 确定 目录 存在 与 各 
序 尝试 打开 相应 /proc/PID/status 文 件 之 间 ，/proc/PID 目 录 消失 了 。 


12-2. 编写 一 个 程序 绘制 树 状 结构 ， 展 示 系 统 中 所 有 进程 的 父子 关 
系 ， 根 节点 为 init 进 程 。 对 每 个 进程 而 言 ， 程 序 应 该 显示 进程 ID 和 所 执 
行 的 行 命令 。 程 序 输出 类 似 于 pstree(1) 的 输出 结果 ， 但 也 无 需 像 后 者 那 
样 复杂 。 每 个 进程 的 父 进 程 可 通过 对 /proc/PID/status 系 统 文 件 中 PPid: 
行 的 分 析 获 得 。 但 是 需要 小 心 处 理 如 下 可 能 性 : 在 扫 拉 所 有 /proc/PID 目 
录 的 过 程 中 ， 进 程 的 父 进程 〈 以 及 父 进 程 的 /prowPID 目 录 ) 消失 了 。 


12-3. 编写 一 个 程序 ， 列 表 展 示 打 开 同 一 特定 路 径 名 文件 的 所 有 进 
程 。 可 以 通过 分 析 所 有 /proc/PID/fd/* 符 号 链接 的 内 容 来 实现 此 功能 。 这 
需要 利用 readdir(3) 函 数 来 骨 套 循环 ， 扫 描 所 有 /proc/PID 目录 以 及 每 
个 /proc/PID 目 录 下 所 有 /proc/PID/fd 的 条 目 内 容 。 读 取 /proc/PID/fd/n 符 号 
链接 的 内 容 ， 需 要 使 用 readlink()，18.5 节 对 其 进行 了 描述 。 














第 13 划 ”文件 W/O 绥 冲 


出 于 速度 和 效率 考虑 ， 系 统 IO 调 用 《〈 即 内 核 ) 和 标准 C 语 言 库 IO 
函数 《〈 即 stdio 函 数 ) 在 操作 磁盘 文件 时 会 对 数据 进行 缓冲 。 本 章 描述 了 
这 两 种 类 型 的 缓冲 ， 并 讨论 了 其 对 应 用 程序 性 能 的 影响 。 本 章 还 讨论 了 
可 以 屏蔽 或 影响 绥 冲 的 各 种 技术 ， 以 及 直接 IO 技术 一 在 某 些 需要 经 
过 内 核 缓冲 的 场景 中 非常 有 用 。 














13.1 文件 WO 的 内 核 缓冲 : 缓冲 区 高 速 缓存 


read() 和 write() 系 统 调用 在 操作 磁盘 文件 时 不 会 直接 发 起 磁盘 访问 ， 
而 是 仅仅 在 用 户 空 间 绥 冲 区 与 内 核 缓冲 区 高 速 绥 存 (kernel buffer 
cache) 之 间 复 制 数 据 。 例 如 ， 如 下 调用 将 3 个 字 节 的 数据 从 用 户 空间 内 
存 传递 到 内 核 空间 的 缓冲 区 中 : 


write(fd, "abc", 3); 


write0) 随 即 返 回 。 在 后 续 东 个 时 刻 ， 和 内核 会 将 其 缓冲 区 中 的 数据 写 
入 《刷新 至 ) 磁盘 。【〈 因 此 ， 可 以 说 系统 调用 与 磁盘 操作 并 不 同步 。) 
如 果 在 此 期 间 ， 必 一 进程 试图 读 取 该 文件 的 这 几 个 字 节 ， 那 么 内 核 将 目 
动 从 缓冲 区 高 速 缓存 中 提供 这 些 数据 ， 而 不 是 从 文件 中 《〈 读 取 过 期 的 内 
容 ) 。 


与 此 同 理 ， 对 输入 而 言 ， 内 核 从 磁盘 中 读 取 数据 并 存储 到 内 核 缓冲 
区 中 。read0 调 用 将 从 该 缓冲 区 中 读 取 数据 ， 直 至 把 缓冲 区 中 的 数据 取 
完 ， 这 时 ， 内 核 会 将 文件 的 下 一 段 内 容 读 入 缓冲 区 高 速 缓存 。 〈 这 里 的 
描述 有 所 简化 。 对 于 序列 化 的 文件 访问 ， 内 核 通 常会 尝试 执行 预 读 ， 以 
确保 在 需要 之 前 就 将 文件 的 下 一 数据 块 读 入 缓冲 区 高 速 缓存 中 。 更 多 关 
于 预 读 的 内 容 请 参考 13.5 节 。 ) 


采用 这 一 设计 ， 意 在 使 read() 和 write() 调 用 的 操作 更 为 快速 ， 因 为 它 
们 不 需要 等 待 〈 缓 慢 的 ) 磁盘 操作 。 同 时 ， 这 一 设计 也 极为 高 效 ， 因 为 
这 减少 了 内 核 必须 执行 的 磁盘 传输 次 数 。 


Linux 内 核对 缓冲 区 高 速 缓存 的 大 小 没有 固定 上 限 。 内 核 会 分 配 尽 
可 能 多 的 缓冲 区 高 速 缓存 页 ， 而 仪 受 限于 两 个 因素 : 可 用 的 物理 内 存 总 
量 ， 以 及 出 于 其 他 目的 对 物理 内 存 的 需求 〈 例 如 ， 需 要 将 正在 运行 进程 
的 文本 和 数据 页 保留 在 物理 内 存 中 ) 。 奉 可 用 内 存 不 足 ， 则 内 核 会 将 一 
些 修改 过 的 缓冲 区 高 速 缓存 页 内 容 刷新 到 磁盘 ， 并 释放 其 供 系统 重用 。 




















更 确切 地 说 ， 从 内 核 2.4 开 始 ，Linux 不 再 维护 一 个 单 
独 的 缓冲 区 高 速 缓存 。 相 反 ， 会 将 文件 W/O 绥 冲 区 置 于 页 面 


高 速 缓存 中 ， 其 中 还 含有 诸如 内 存 映射 文件 的 页 面 。 然 
而 ， 正 文 的 讨论 采用 了 “缓冲 区 高 速 缓存 (buffer 

cache) ”这 一 术语 ， 因 为 这 是 UNIX 实现 中 历史 悠久 的 通 
称 。 


绥 冲 区 大 小 对 VO 系统 调用 性 能 的 影响 


无 论 是 让 磁盘 写 1000 次 ， 每 次 写 入 一 个 字 节 ， 还 是 一 次 写 入 1000 个 
字 节 ， 内 核 访 问 磁盘 的 字 节 数 都 是 相同 的 。 然 而 ， 我 们 更 属意 于 后 者 ， 
因为 它 只 需要 一 次 系统 调用 ， 而 前 者 则 需要 调用 1000 次 。 尽 管 比 磁 盘 操 
作 要 快 许 多 ， 但 系统 调用 所 耗费 的 时 间 总 量 也 相当 可 观 : 内 核 必须 捕获 
调用 ， 检 查 系 统 调用 参数 的 有 效 性 ， 在 用 户 空间 和 内 核 空间 之 间 传 输 数 
据 〈 详 情 参 见 3.1 节 ) 。 


为 BUF_SIZE (BUF_SIZE 指定 了 每 次 调用 read0 和 write0 时 所 传输 
的 字 节 数 ) 设 定 不 同 的 天 小 来 运行 程序 清单 41， 可 以 观察 到 不 同 大 小 
的 缓冲 区 对 执行 文件 WO 所 产生 的 影响 。 表 13-1 所 示 为 在 Linux ext2 文 件 
系统 上 复制 大 小 为 100MB 的 文件 ， 该 程序 在 使 用 不 同 BUF_SIZE 值 时 所 
需要 的 时 间 。 有 关 本 表 中 的 信息 ， 需 要 注意 以 下 几 点 。 


。 总 用 时 和 总 CPU 时 间 这 两 列 含 义 很 明显 。 而 用 户 CPU 和 系统 CPU 两 
列 是 将 总 CPU 用 时 分 解 为 在 用 户 模式 下 执行 代码 所 需 的 时 间 和 执行 
内 核 代 码 所 需 的 时 间 《〈“ 比 如 ， 系 统 调用 ) 。 

。 表 中 测试 结果 得 自 于 2.6.30 普 通 (vanilla〉 内 核 下 ， 块 大 小 为 4096 
字 节 的 ext2 文 件 系 统 。 




















所 谓 普 通 内 核 (vanilla kernel) ， 意 指 未 打 补 丁 的 主线 
(mainline) 内 核 。 与 之 形成 鲜明 对 比 的 是 大 多 数 发 行商 所 
提供 的 内 核 ， 常 包含 各 种 补丁 来 修复 错误 和 添加 新 功能 。 








。 每 行 显示 的 结果 为 在 给 定 缓冲 区 大 小 下 运行 20 次 的 均值 。 在 这 些 测 
试 以 及 本 章 后 续 提 及 的 其 他 测试 里 ， 在 程序 每 次 的 执行 间隔 中 ， 会 
撮 载 并 再 次 重新 装配 文件 系统 ， 以 确保 文件 系统 的 缓冲 区 高 速 缓存 
为 室 。 计 时 则 由 shell 命 令 time 完 成 。 


表 13-1: 复制 100MB 大 小 的 文件 所 需 时 间 














[TI 
al lm | 


因为 采用 不 同 的 组 名 区 大 小 时 ， 数 据 的 传输 总 量 〈 因 此 招致 磁盘 操 
作 的 数量 ) 是 相同 的 ， 表 13-1 所 示 为 发 起 read0 和 write0 调 用 的 开销 。 绥 
冲 区 大 小 为 1 字 节 时 ， 需 要 调用 read0 和 write01 亿 次 ， 绥 冲 区 大 小 为 4096 
个 字 节 时 ， 需 要 调用 read0 和 write0 24000 次 左右 ， 几 乎 达到 最 优 性 能 。 
设置 再 超过 这 个 值 ， 对 性 能 的 提升 就 不 显著 了 ， 这 是 因为 与 在 用 户 空 间 
和 内 核 空间 之 间 复 制 数据 以 及 执行 实际 磁盘 VO 所 花 引 的 时 间 相 比 ， 
read() 和 write() 系统 调用 的 成 本 就 显得 微不足道 了 。 


时 间 ( 秒 ) 
BUF_SIZE 
总 CPU 用 时 “| 用 户 CPU 用 时 | 系统 CPU 用 时 


1 

2 

4 
16 
32 
64 
128 
256 
512 

















从 表 13-1 的 最 后 一 行 中 可 以 粗略 估算 出 在 用 户 空 间 与 


内 核 空 间 之 间 传 输 数 据 以 及 执行 文件 VO 的 总 耗 时 。 因 为 此 
时 系统 调用 的 次 数 相对 较 少 ， 所 以 它们 所 花费 的 时 间 相 对 
于 总 耗 时 和 CPU 时 间 可 以 忽略 不 计 。 据 此 可 认为 ， 系 统 
CPU 时 间 主 要 是 测量 用 户 空间 与 内 核 空间 之 间 数 据 传输 所 
消耗 的 时 间 。 而 总 耗 时 则 是 对 与 磁盘 传输 数据 所 需 时 间 的 
估算 。“【〈 正 如 下 面 将 提 到 的 ， 时 间 主 要 花 在 了 对 磁盘 的 读 
eles) 























总 之 ， 如 果 与 文件 发 生 大 量 的 数据 传输 ， 通 过 采用 大 块 空间 缓冲 数 
据 ， 以 及 执行 更 少 的 系统 调用 ， 可 以 极 大 地 提高 I/O 性 能 。 


表 13-1 度 量 了 一 系列 因素 : 执行 read0 和 write0 系 统 调 用 所 需 的 时 
间 、 内 核 空间 和 用 户 空 间 绥 冲 区 之 间 传 输 数据 所 需 的 时 间 、 站 核 缓冲 区 
与 磁盘 之 间 传 输 数 据 所 需 的 时 间 。 再 进一步 考虑 一 下 最 后 一 个 要 素 ， 显 
然 ， 将 输入 文件 的 内 容 传 输 到 缓冲 区 高 速 缓存 是 不 可 避免 的 。 然 而 ， 当 
数据 从 用 户 空 x 间 传输 到 内 核 空间 后 ，write0O) 调 用 立即 返回 。 由 于 测试 系 
统 上 的 RAM 大 小 (4 GB) 远 超 欲 复制 文件 的 大 小 〈100MB ) ， 据 此 推 
断 ， 当 程序 完成 时 ， 输 出 文件 实际 尚未 写 入 磁 往 。 因 此 ， 再 进一步 做 个 
实验 ， 运 行 一 个 程序 ， 使 用 不 同 大 小 的 缓冲 区 ， 以 write() 随意 向 文件 中 
写 入 一 些 数据 。 运 行 结果 如 表 13-2 所 示 。 


同样 ， 表 13-2 中 数据 是 来 自 于 内 核 2.6.30， 以 及 块 大 小 为 4096 字 市 
的 ext2 文 件 系 统 ， 并 且 每 行 显示 为 运行 了 20 次 后 的 均值 。 本 节 并 未 列 出 
测试 程序 (filebuff/ write_bytes.c) 的 代码 清单 ， 但 可 从 随 本 书 一 起 发 行 
的 源码 中 获取 。 














表 13-2: 写 一 个 100MB 大 小 的 文件 所 需要 的 时 间 
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19.99 





表 13-2 显 示 为 使 用 不 同 大 小 的 缓冲 区 调用 write0 从 用 户 空 间 同 内 核 
绥 冲 区 高 速 缓存 传输 数据 所 花费 的 成 本 。 组 冲 区 越 大 ， 与 表 13-1 中 数据 
的 差异 就 越 明 显 。 例 如 ， 对 于 一 个 65536 字 节 大 小 的 缓冲 区 ， 在 表 13-1 
中 总 耗 时 为 2.06 秒 ， 而 表 13-2 中 仅 为 0.09 秒 。 这 是 因为 在 后 者 的 情况 下 
并 未 执行 实际 的 磁盘 IO 操作 。 换 言 之 ， 表 13-1 中 采用 大 绥 冲 区 时 的 耗 时 
绝 大 部 分 花 在 了 对 磁盘 的 读 取 上 。 


正如 13.3 节 所 述 ， 知 强制 在 数据 传输 到 磁盘 前 阻塞 输出 操作 ， 则 调 
用 writeO 所 需 的 时 间 会 显著 上 升 。 

















最 后 ， 值 得 注意 的 是 ， 表 13-2 〈 以 及 表 13-3) 中 信息 仅仅 代表 了 对 
文件 系统 评价 基准 的 形式 之 一 ， 还 不 完善 。 此 外 ， 文 件 系 统 不 同 ， 结 果 
可 能 也 会 有 所 不 同 。 对 文件 系统 的 度量 还 有 各 种 其 他 标准 ， 比 如 多 用 
户 、 高 负载 下 的 性 能 表现 ， 创 建 和 删除 文件 的 速度 ， 在 一 个 大 型 目录 下 
搜索 一 个 文件 所 需 的 时 间 ， 存 储 小 文件 所 需 的 空间 ， 或 者 在 遭遇 系统 骨 
溃 时 对 文件 完整 性 的 维护 。 只 要 IO 或 是 其 他 文件 系统 操作 的 性 能 至 关 
重要 ， 那 么 在 目标 平台 上 针对 特定 应 用 的 测试 基准 就 不 可 蔡 代 。 





13.2 stdio 库 的 缓冲 

当 操 作 磁 盘 文件 时 ， 绥 冲 大 块 数据 以 减少 系统 调用 ，C 语 言 函 数 库 
的 VO 函数 (比如 ，fprintf()、fscanf()、fgets()、fputs()、fputc()、 
fgetc()〉 正 是 这 么 做 的 。 因 此 ， 使 用 stdio 库 可 以 使 编程 者 免 于 自行 处 理 
对 数据 的 缓冲 ， 无 论 是 调用 write() 来 输出 ， 还 是 调用 read0 来 输入 。 
设置 一 个 stdio 流 的 缓冲 模式 


调用 setvbufO 函 数 ， 可 以 控制 stdio 库 使 用 绥 冲 的 形式 。 








ftinclude <stdio.h> 


int setvbuf(FILE *séream, char *buf, int mode, size_t size); 


Returns 0 on success, or nonzero on error 











参数 stream 标 识 将 要 修改 哪个 文件 流 的 缓冲 。 打 开 流 后 ， 必 须 在 调 
用 任何 其 他 stdio 函 数 之 前 先 调用 setvbufO 。setvbufO 调 用 将 影响 后 续 在 指 
定 流 上 进行 的 所 有 stdio 操 作 。 


不 要 将 stdio 库 所 使 用 的 流 与 System V 系 统 的 STREAMS 
机 制 相 混 消 ，Linux 的 主线 内 核 中 并 未 实现 System V 系统 的 
STREAMS 。 


参数 buf 和 size 则 针对 参数 stream 要 使 用 的 缓冲 区 ， 指 定 这 些 参 数 有 
如 下 两 种 方式 。 


e 如 果 参 数 buf 不 为 NULL， 那 么 其 指 同 size 大 小 的 内 存 块 以 作为 
stream 的 绥 冲 区 。 因 为 stdio 库 将 要 使 用 buf 指 向 的 缓冲 区 ， 所 以 应 该 
以 动态 或 静态 在 堆 中 为 该 缓冲 区 分 配 一 块 空间 (使 用 malloc0O 或 类 似 
函数 )， 而 不 应 是 分 配 在 栈 上 的 函数 本 地 变量 。 人 否则 ， 函 数 返 回 时 














将 销毁 其 栈 帧 ， 从 而 导致 混乱 。 

e 和 若 buf 为 NULL， 那 么 stdio 库 会 为 stream 自 动 分 配 一 个 缓冲 区 《除非 
选择 非 缓冲 的 TO， 如 下 所 述 ) 。SUSv3 人 允许 ， 但 不 强制 要 求 库 实现 
使 用 size 来 确定 其 缓冲 区 的 大 小 。glibc 实 现 会 在 该 场景 下 忽略 size 人 参 





参数 mode 指 定 了 绥 冲 类 型 ， 并 具有 下 列 值 之 一 。 
_IONBF 


不 对 IO 进行 缓冲 。 每 个 stdio 库 函数 将 立即 调用 write0) 或 者 read()， 
并 且 忽 略 buf 和 size 参 数 ， 可 以 分 别 指 定 两 个 参数 为 NULL 和 0。stderr 默 
认 属 于 这 一 类 型 ， 从 而 保证 错误 能 立即 输出 。 


_IOLBF 


采用 行 缓冲 WO。 指 代 终端 设备 的 流 默认 属于 这 一 类 型 。 对 于 输出 
流 ， 在 输出 一 个 换行 符 《 除 非 缓冲 区 已 经 填 满 ) 前 将 缓冲 数据 。 对 于 输 
入 流 ， 每 次 读 取 一 行 数据 。 


_IOFBF 


采用 全 绥 冲 IO。 单 次 读 、 写 数据 《〈 通 过 read0 或 write0 系 统 调用 ) 
的 大 小 与 缓冲 区 相同 。 指 代 磁 盘 的 流 默 认 采 用 此 模式 。 
下 面 的 代码 演示 了 setvbufO 函 数 的 用 法 : 


#define BUF SIZE 1024 
static char buf[BUF SIZE]; 


if (setvbuf(stdout, buf, IOFBF, BUF SIZE) != 0) 
errExit("setvbuf"); 


注意 : setvbuf() 出 错时 返回 非 0 值 (而 不 一 定 是 -1) 。 
setbufO 函 数 构建 于 setvbufO 之 上 ， 执 行 了 类 似 任务 。 





#include <stdio.h> 


void setbuf(FILE *stream, char *buf); 











setbuf(fp,buf) 调 用 除了 不 返回 函数 结果 外 ， 就 相当 于 : 
setvbuf(fp, buf, (buf != NULL) ? IOFBF: _IONBF, BUFSIZ); 
要 么 将 参数 buf 指 定 为 NULL 以 表示 无 缓冲 ， 要 么 指向 由 调用 者 分 配 


的 BUFSIZ 个 字 节 大 小 的 缓冲 区 。 (BUFSIZ 定 义 于 <stdio.h> 头 文件 中 。 
glibc 库 实现 将 此 常量 定义 为 一 个 典型 值 8192。) 


setbuffer0 函 数 类 似 于 setbufO 函 数 ， 但 允许 调用 者 指定 buf 绥 冲 区 大 


小 。 





#define BSD SOURCE 
#include <stdio.h> 





void setbuffer(FILE *stream, char *buf, size_t size); 





对 setbuffer(fp,buf,size) 的 调用 相当 于 如 下 调用 : 


setvbuf(fp, buf, (buf != NULL) ? _IOFBF : _IONBF, size); 


| SUSv3 并 未 对 setbuffer() 函 数 加 以 定义 ， 但 大 多 数 UNIX 实 现 均 支 持 


Kio 
刷新 stdio 绥 冲 区 
无 论 当 前 采用 何 种 缓冲 区 模式 ， 在 任何 时 候 ， 都 可 以 使 用 fflush() 


库 函 数 强 制 将 stdio 输 出 流 中 的 数据 《〈 即 通过 write0 ) 刷新 到 内 核 缓冲 区 
中 。 此 函数 会 刷新 指定 stream 的 输出 缓冲 区 。 





#include <stdio.h> 


int fflush(FILE *séream); 


Returns 0 on success, EOF on error 











若 参 数 stream 为 NULL， 则 fflushO 将 刷新 所 有 的 stdio 缓 冲 区 。 


也 能 将 ffush0) 函 数 应 用 于 输入 流 ， 这 将 丢弃 业已 缓冲 的 输入 数 
据 。( 当 程序 下 一 次 尝试 从 流 中 读 取 数据 时 ， 将 重新 装 满 缓冲 区 。) 


当 关 闭 相 应 流 时 ， 将 目 动 刷新 其 stdio 绥 冲 区 。 





在 包括 glibc 库 在 内 的 许多 C 函 数 库 实 现 中 ， 知 stdin 和 stdout 指 同一 终 
端 ， 那 么 无 论 何 时 从 stdin 中 读 取 输入 时 ， 都 将 隐 含 调用 一 次 
fflush(stdoub 函 数 。 这 将 刷新 写 入 stdout 的 任何 提示 ， 但 不 包括 终止 换行 
符 〈 比 如 ，Pprintf("Date: ")) 。 然 而 ，SUSv3 和 C99 并 未 规定 这 一 行为 ， 
也 并 非 所 有 的 C 语 言 函 数 库 都 实现 了 这 一 行为 。 要 保证 程序 的 可 移植 
性 ， 应 用 应 使 用 显 式 的 fflush(stdout) 调 用 来 确保 显示 这 些 提 示 。 








若 打 开 一 个 流 同 时 用 于 输入 和 输出 ， 则 C99 标 准 中 提出 
了 两 项 要 求 。 诈 先 ， 一 个 输出 操作 不 能 紧 跟 一 个 输入 操 
作 ， 必 须 在 二 者 之 间 调 用 fflush0) 函 数 或 是 一 个 文件 定位 函 
数 (fseek()、fsetpos() 或 者 rewind()) 。 其 次 ， 一 个 输入 操 
作 不 能 紧 跟 一 个 输出 操作 ， 必 须 在 二 者 之 间 调 用 一 个 文件 
定位 函数 ， 除 非 输 入 操作 遭遇 文件 结尾 。 


13.3 ”控制 文件 IO 的 内 核 缓冲 


强制 刷新 内 核 缓冲 区 到 输出 文件 是 可 能 的 。 这 有 时 很 有 必要 ， 例 
如 ， 当 应 用 程序 《诸如 数据 库 的 日 志 进 程 ) 要 确保 在 继续 操作 前 将 输出 
真正 写 入 磁盘 〈 或 者 至 少 写 入 磁盘 的 便 件 高 速 缓存 中 ) 。 


在 描述 用 于 控制 内 核 缓冲 的 系统 调用 之 前 ， 有 必要 先 熟 悉 一 下 
SUSv3 中 的 相关 定义 。 


同步 WO 数据 完整 性 和 同步 WO 文件 完整 性 


SUSvV3 将 同步 WO 完成 定义 为 : 某 一 VO 操作 ， 要 么 已 成 功 完成 到 
做 盘 的 数据 传递 ， 要 么 被 诊断 为 不 成 功 。 


SUSv3 定 义 了 两 种 不 同类 型 的 同步 JO 完 成 ， 二 者 之 间 的 区 别 涉及 用 
于 描述 文件 的 元 数据 《关于 数据 的 数据 ) ， 亦 即 内 核 针对 文件 而 存储 的 
数据 。14.4 市 在 描述 文件 i-node 时 将 详细 讨论 文件 的 元 数据 ， 但 就 目前 
而 言 ， 了 解 文 件 元 数据 包含 了 些 什么 ， 诸 如 文件 属 主 、 属 组 、 文 件 权 
限 、 文 件 大 小 、 文 件 〈 硬 ) 链接 数量 ， 表 明文 件 最 近 访 问 、 修 改 以 及 元 
数据 发 生变 化 的 时 间 戳 ， 指 同文 件数 据 块 的 指针 ， 就 足够 了 。 


SUSvV3 定 义 的 第 一 种 同步 WO 完成 类 型 是 synchronized I/O data 
integrity completion2， 骨 在 确保 针对 文件 的 一 次 更 新 传递 了 足够 的 信息 
《到 磁盘 〉， 以 便于 之 后 对 数据 的 获取 。 


束 读 操作 而 言 ， 这 意味 着 被 请 求 的 文件 数据 已 经 (从 磁盘 ) 传递 给 
进程 。 硝 存在 任何 影响 到 所 请 求 数据 的 挂 起 写 操作 ， 那 么 在 执行 读 
操作 之 前 ， 会 将 这 些 数据 传递 到 磁盘 。 

束 写 操作 而 言 ， 这 意味 看 写 请 求 所 指定 的 数据 已 传递 (至 磁盘 ) 完 
毕 ， 且 用 于 获取 数据 的 所 有 文件 元 数据 也 已 传递 (至 磁盘) 完毕。 
此 处 的 要 点 在 于 要 获取 文件 数据 ， 并 非 需要 传递 所 有 经 过 修改 的 文 
件 元 数据 属性 。 发 生 修 改 的 文件 元 数据 中 需要 传递 的 属性 之 一 是 文 
件 大 小 如 果 写 操作 确实 扩展 了 文件 ) 。 相 形 之 下 ， 如 有 果 是 文件 时 
间 礁 发 生 了 变化 ， 残 无需 在 下 次 获取 数据 前 将 其 传递 到 磁盘 。 


























Synchronized I/O file integrity completion 是 SUSv3 定 义 的 另 一 种 同步 


IO 完成 ， 也 是 上 述 synchronized I/O data integrity completion 的 超 集 。 该 

IO 完成 模式 的 区 别 在 于 在 对 文件 的 一 次 更 新 过 程 中 ， 要 将 所 有 发 生 更 

a 即使 有 些 在 后 续 对 文件 数据 的 读 操作 
\ 需 要 。 


用 于 控制 文件 VO 内 核 缓冲 的 系统 调用 
fsync() 系 统 调用 将 使 绥 冲 数据 和 与 打开 文件 描述 符 fd 相 关 的 所 有 元 


数据 都 刷新 到 磁盘 上 。 调 用 fsync0 会 强制 使 文件 处 于 Synchronized 1/0 
file integrity completion 状 态 。 








#include <unistd.h> 


int fsync(int fd); 


Returns 0 on success, or -1 on error 














仅 在 对 碰 盘 设备 《或 者 至 少 是 其 高 速 缓存 ) 的 传递 完成 后 ，fsync() 
调用 才 会 返回 。 


fdatasync() 系 统 调 用 的 运作 类 似 于 fsync()， 只 是 强制 文件 处 于 
synchronized 1/O data integrity completion 的 状态 。 





#include <unistd.h> 


int fdatasync(int fd); 








Returns 0 on success, or -1 on error 





fdatasync() 可 能 会 减少 对 人 磁盘 操作 的 次 数 ， 由 fsyncO 调 用 请 求 的 两 
次 变 为 一 次 。 例 如 ， 和 若 修 改 了 文件 数据 ， 而 文件 大 小 不 变 ， 那 么 调用 
fdatasyncO 只 强制 进行 了 数据 更 新 。“【 前 面 已 然 述 及 ， 针 对 synchronized 
IO data completion 状 态 ， 如 果 是 诸如 最 近 修 改 时 间 惟 之 类 的 元 数据 属性 
发 生 了 变化 ， 那 么 是 无 需 传 递 到 磁盘 的 。) 相 比 之 下 ，fsyncO 调 用 会 强 
制 将 元 数据 传递 到 磁盘 上 。 


对 茶 些 应 用 而 言 ， 以 这 种 方式 来 减少 磁盘 IO 操作 的 次 数 是 很 有 用 
的 ， 比 如 对 性 能 要 求 极 高 ， 而 对 茶 些 元 数据 《比如 时 间 惟 ) 的 准确 性 要 
求 不 高 的 应 用 。 当 应 用 程序 同时 进行 多 处 文件 更 新 时 ， 二 者 存在 相当 大 
的 性 能 差异 ， 因 为 文件 数据 和 元 数据 通常 驻 留 在 磁盘 的 不 同 区 域 ， 更 新 


























这 些 数据 需要 反复 在 整个 磁盘 上 执行 寻 道 操作 。 


Linux 2.2 以 及 更 早 版 本 的 内 核 将 fdatasync() 实 现 为 对 fsync() 的 调 
用 ， 因 而 性 能 也 未 获得 提升 。 


始 于 内 核 2.6.17，Linux 提 供 了 非 标准 的 系统 调用 
sync_file_range()， 当 刷新 文件 数据 时 ， 该 调用 提供 比 
fdatasync() 调 用 更 为 精准 的 控制 。 调 用 者 能 够 指定 待 刷 新 的 
文件 区 域 ， 并 且 还 能 指定 标志 ， 以 控制 该 系统 调用 在 遭遇 
写 人 厂 盘 时 是 否 阻塞 。 更 详细 的 信息 请 参阅 sync_file_range(2) 
FU. 


sync(O 系 统 调 用 会 使 包含 更 新 文件 信息 的 所 有 内 核 缓冲 区 《〈 即 数据 
块 、 指 针 块 、 元 数据 等 ) 刷新 到 磁盘 上 。 





#include <unistd.h> 








void sync(void); 








在 Linux 实 现 中 ，sync0O 调 用 仅 在 所 有 数据 已 传递 到 磁盘 上 〔〈 或 者 至 
少 高 速 缓存 ) 时 返回 。 然 而 ，SUSv3 却 允许 sync0O 实 现 只 是 简单 调度 一 
下 IO 传递 ， 在 动作 未 完成 之 前 即 可 返回 。 








在 内 容 发 生变 化 的 内 核 缓冲 区 在 30 秒 内 未 经 显 式 方 式 
同步 到 磁盘 上 ， 则 一 条 长 期 运行 的 内 核 线程 会 确保 将 其 刷 
新 到 磁盘 上 。 这 一 做 法 是 为 了 规避 缓冲 区 与 相关 磁盘 文件 
内 容 长 期 处 于 不 一 致 状态 (以 至 于 在 系统 骨 尝 时 发 生 数 据 
ER) 的 问题 。 在 Linux 2.6 版 本 中 ， 访 任务 由 pdflush 内 核 


线程 执行 。〔 在 Linux 2.4 版 本 中 ， 则 由 kupdated 内 核 线程 执 
Janae 


文件 /proc/sys/vm/dirty_expire_centisecs 规 定 了 在 pdflush 
刷新 之 前 脏 绥 冲 区 必须 达到 的 “年 龄 ”《〈 以 1% 秒 为 单位 ) 。 
位 于 同一 目录 下 的 其 他 文件 则 控制 了 pdflush 操 作 的 其 他 方 
面 。 





使 所 有 写 入 同步 : O_SYNC 
调用 open0 函 数 时 如 指定 O _SYNC 标 志 ， 则 会 使 所 有 后 续 和 输出 同步 


(synchronous) 。 


fd = open(pathname, O WRONLY | 0 SYNC); 


调用 open0 后 ， 每 个 writeO 调 用 会 自动 将 文件 数据 和 元 数据 刷新 到 
磁盘 上 CR, Synchronized I/O file integrity completion 的 要 求 执行 写 
操作 ) 。 





早期 BSD 系 统 曾 使 用 O_FSYNC 标 志 来 提供 O_SYNC 标 
志 的 功能 。 在 glibc 库 中 ， 将 O_FSYNC 定 义 为 与 O_SYNC 标 
alee 


O_SYNC 对 性 能 的 影响 





采用 O_SYNC 标 志 (或 者 频繁 调用 fsync()、fdatasync() 或 syncO) 对 
性 能 的 影响 极 大 。 表 13-3 所 示 为 采用 不 同 缓冲 区 大 小 ， 在 有 、 无 
O_SYNC 标 识 的 情况 下 将 一 百 万 字 节 写 入 一 个 〈 位 于 ext2 文 件 系 统 上 
的 ) 新 创建 文件 所 需要 的 时 间 。 运 行 〈 随 本 书 一 同 发 行 源 码 中 的 


filebuff/write_bytes.c 程 序 ) 结果 取 自 于 vanilla 2.6.30 内 核 以 及 块 大 小 为 
4096 字 市 的 ext2 文 件 系 统 。 每 行 数据 均 为 在 给 定 绥 冲 区 大 小 下 运行 20 次 
的 平均 值 。 


从 表 中 可 以 看 出 ，O_SYNC 标 志 使 运行 总 用 时 大 为 增加 一 一 在 缓冲 
区 为 1 字 节 的 情况 下 ， 运 行 时 间 相 差 1000 多 倍 。 还 要 注意 ， 以 O_SYNC 
标志 执行 写 操作 时 运行 总 用 时 和 CPU 时 间 之 间 的 巨大 差异 。 这 是 因为 系 
统 在 将 每 个 缓冲 区 中 数据 向 磁盘 传递 时 会 把 程序 阻塞 起 来 。 


表 13-3 所 示 的 结果 中 还 略 去 了 使 用 O_SYNC 时 影响 性 能 的 一 个 深层 
次 因素 。 现 代 磁 盘 驱 动 器 均 内 置 大 型 高 速 缓存 ， 而 默认 情况 下 ， 使 用 
O_SYNC 只 是 将 数据 传递 到 该 缓存 中 。 如 果 禁 用 磁盘 上 的 高 速 缓存 (使 
用 命令 hdparm -W0) ， 那 么 O_SYNC 对 性 能 的 影响 将 变 得 更 为 极端 。 在 
绥 冲 区 大 小 为 1 字 节 的 情况 下 ， 运 行 总 用 时 从 1030 秒 攀升 到 16000 秒 左 
右 。 而 当 缓冲 区 大 小 为 4096 字 节 时 ， 运 行 总 用 时 也 会 从 0.34 秒 上 升 到 4 


BD 


























4213-3: O_SYNC 标 志 对 写 入 1MB 速 度 的 影响 


所 需 时 间 ( 秒 ) 


BUF_SIZE 无 O_SYNC 
总 之 ， 如 果 需 要 强制 刷新 内 核 缓冲 区 ， 那 么 在 设计 应 用 程序 时 就 应 

考虑 是 否 可 以 使 用 大 尺寸 的 write0) 绥 冲 区 ， 或 者 在 调用 fsync0) 或 

fdatasync() 时 谨慎 行事 ， 而 不 是 在 打开 文件 时 就 使 用 O_SYNC 标 志 。 


O_DSYNC 和 O_RSYNC 标 志 














SUSvV3 规 定 了 两 个 与 同步 WO 有 关 的 、 更 为 细 化 的 打开 文件 状态 标 
志 : O_DSYNC 和 O_RSYNC。 


O_DSYNC 标 志 要 求 写 操作 按照 synchronized I/O data integrity 


completion 来 执行 (类 似 于 fdatasync()，。 与 之 相映 成 趣 的 是 O_SYNC 标 
志 ， 遵 从 synchronized I/O file integrity completion (类 似 于 fsync() 函 
数 ) 。 


O_RSYNC 标 志 是 与 0O_SYNC 标 志 或 O_DSYNC 标 志 配 合 一 起 使 用 

的 ， 将 这 些 标志 对 写 操作 的 作用 结合 到 读 操 作 中 。 如 果 在 打开 文件 时 辣 
时 指定 O_RSYNC 和 O_DSYNC 标 志 ， 那 么 就 意味 着 会 遵照 synchronized 
IO data integrity completion 的 要 求 来 完成 所 有 后 续 读 操作 〈 即 ， 在 执行 
读 操 作 之 前 ， 像 执行 O_DSYNC 标 志 一 样 完成 所 有 竺 处 理 的 写 操作 ) 。 
而 在 打开 文件 时 指定 O_RSYNC 和 O_SYNC 标 志 ， 则 意味 着 会 遵照 
synchronized IO file integrity completion 的 要 求 来 完成 所 有 后 续 读 操作 

人 前 ， 像 执行 O_SYNC 标 志 一 样 完成 所 有 待 处 理 的 
SPE) 。 


2.6.33 版 本 之 前 的 Linux 内 核 并 未 实现 O _DSYNC 和 O_RSYNC 标 
志 。glibc 头 文件 当时 只 是 将 这 些 常量 定义 为 O_SYNC 标 志 。【〔 以 上 描述 
实际 上 不 适用 于 O_RSYNC 标 志 ， 因 为 O_SYNC 与 读 操作 无 关 。) 


始 于 2.6.33 版 本 ，Linux 内 核实 现 了 O_DSYNC 标 志 的 功能 ， 而 
O_RSYNC 标 志 的 功能 则 可 望 在 未 来 的 版 本 中 添加 。 














在 2.6.33 版 本 之 前 ，Linux 内 核 并 未 完全 实现 O_SYNC 
的 语义 ， 而 是 将 其 实现 为 O_DSYNC 标 志 。 针 对 基于 较 老 内 
核 而 构建 的 应 用 程序 ， 为 保证 其 行为 的 一 致 性 ， 与 老 版 
GNU C 函 数 库 链接 的 应 用 程序 会 继续 为 O0_ SYNC 标 志 提 供 
O_DSYNC 标 志 的 语义 ， 即 使 在 Linux 2.6.33 及 更 高 版 本 的 
运行 环境 下 。 





13.4 IO 缓冲 小 结 


图 13-1 概 括 了 stdio 函 数 库 和 内 核 所 采用 的 缓冲 (针对 输出 文件 )， 
以 及 对 各 种 缓冲 类 型 的 控制 机 制 。 从 图 中 和 目 上 而 下 ， 首 先是 通过 stdio 库 
将 用 户 数据 传递 到 stdio 缓 冲 区 ， 该 缓冲 区 位 于 用 户 态 内 存 区 。 当 缓冲 区 
填 满 时 ，stdio 库 会 调用 write0 系 统 调用 ， 将 数据 传递 到 内 核 高 速 缓冲 区 
《位 于 内 核 态 内 存 区 ) 。 最 终 ， 内 核发 起 磁盘 操作 ， 将 数据 传递 到 磁 


盘 。 
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图 13-1: WO 缓冲 小 结 





图 13-1 左 侧 所 示 为 可 于 任何 时 刻 显 式 强制 刷新 各 类 缓冲 区 的 调用 。 
图 右 侧 所 示 为 促使 刷新 自动 化 的 调用 :一 是 通过 禁用 stdio 库 的 绥 冲 ， 二 
征 在 文件 输出 类 的 系统 调用 中 局 用 同步 ， 从 而 使 每 个 write0 调 用 立刻 刷 


新 到 磁盘 。 





13.5 “就 IO 模式 回 内 核 提 出 建议 


posix_fadviseO 系 统 调用 人 允许 进程 就 自 映 访 问 文 件数 据 时 可 能 采取 
的 模式 通知 内 核 。 





#define XOPEN SOURCE 600 
ftinclude <fcntl.h> 


int posix_fadvise(int fd, off_t offset, off_t len, int advice); 





Returns 0 on success, or a positive error number on error 





内 核 可 以 但 不 必 非 要 ) 根据 posix_fadvise() 所 提供 的 信息 来 优化 
对 缓冲 区 高 速 缓存 的 使 用 ， 进 而 提高 进程 和 整个 系统 的 性 能 。 调 用 
posix_fadvise() 对 程序 语义 并 无 影响 。 


参数 fd 所 指 为 一 文件 描述 符 ， 调 用 期 望 通知 内 核 进程 对 fd 指 代 文件 
的 访问 模式 。 参 数 offset 和 len 确 定 了 建议 所 适用 的 文件 区 域 。offset 指 定 
了 区 域 起 始 的 偏 移 量 ，len 指 定 了 区 域 的 大 小 《以 字 节 数 为 单位 ) © len 
为 0 表示 从 offset 开 始 ， 直 至 文件 结尾 。 在 内 核 2.6.6 版 本 之 前 ，len 为 0 
MAAN ERE AOS.) 


B Badviceze mn HEE HM CPR REN. AA RB 
PA 





POSIX_FADV_NORMAL 
进程 对 访问 模式 并 无 特别 建议 。 如 果 没 有 建议 ， 这 就 是 默认 行为 。 
在 Linux 中 ， 该 操作 将 文件 预 读 窗口 大 小 置 为 默认 值 (128KB) 。 


POSIX_FADV_SEQUENTIAL 


进程 预计 会 从 低 侦 移 量 到 高 侦 移 量 顺序 读 取 数 据 。 在 Linux 中 ， 该 
操作 将 文件 预 读 窗口 大 小 置 为 默认 值 的 两 倍 。 


POSIX_FADV_RANDOM 


进程 预计 以 随机 顺序 访问 数据 。 在 Linux 中 ， 该 选项 会 禁用 文件 预 








it. 
POSIX_FADV_WILLNEED 


进程 预计 会 在 不 久 的 将 来 访问 指定 的 文件 区 域 。 内 核 将 由 offset 和 
len 指 定 区 域 的 文件 数据 预先 填充 到 绥 冲 区 高 速 缓存 中 。 后 续 对 该 文件 
的 read0 调 用 将 不 会 阻塞 磁盘 IO， 只 需 从 缓冲 区 高 速 缓存 中 抓 取 数据 即 
可 。 对 于 从 文件 读 取 的 数据 在 缓冲 区 高 速 绥 存 中 能 保留 多 长 时 间 ， 内 核 
并 无 保证 。 如 果 其 他 进程 或 内 核 的 活动 对 内 存 存 在 强劲 需求 ， 那 么 最 终 
会 重用 到 这 些 页 面 。 换 言 之 ， 如 果 内 存 压力 高 ， 程 序 员 就 应 该 确保 
posix_fadvise() 调 用 和 后 续 read() 调 用 间 的 总 运行 时 长 较 短 。 (Linux 特 有 
的 系统 调用 readahead0O) 提 供 了 与 POSIX_FADV_WILLNEED 操 作 等 效 的 
功能 。) 


POSIX_FADV_DONTNEED 


进程 预计 在 不 久 的 将 来 将 不 会 访问 指定 的 文件 区 域 。 这 一 操作 给 内 
核 的 建议 是 释放 相关 的 高 速 缓存 页 面 〈 如 果 存 在 的 话 ) 。 在 Linux 中 ， 
该 操作 将 分 两 步 执行 。 首 先 ， 如 果 底 层 设 备 目 前 没有 挤 满 一 系列 排队 的 
写 操 作 请 求 ， 那 么 内 核 会 对 指定 区 域 中 已 修改 的 页 面 进行 刷新 。 之 后 ， 
内 核 会 尝试 释放 该 区 域 的 高 速 缓存 页 面 。 仅 当 该 区 域 中 已 修改 的 页 面 在 
第 一 步 中 成 功 写 入 底层 设备 时 ， 第 二 步 才 可 能 操作 成 功 ， 也 就 是 说 ， 在 
该 设备 的 写 入 操作 请 求 没 有 发 生 拥 罕 的 情况 下 。 因 为 应 用 程序 无 法 控制 
设备 的 拥塞 (congestion) ， 所 以 要 确保 释放 高 速 缓存 页 面 ， 变 通 的 方 
法 之 一 是 在 POSIX_FADV_DONTNEED 操 作 之 前 对 指定 的 参数 fd 调用 
sync()#kfdatasync(). 

















POSIX_FADV_NOREUSE 


进程 预计 会 一 次 性 地 访问 指定 文件 区 域 ， 不 再 复 用 。 这 等 于 提示 入 
een 在 Linux 中 ， 该 操作 目前 不 起 


对 posix_fadvise() 的 规范 是 SUSv3 中 的 新 增 内 容 ， 并 非 所 有 UNIX 实 
现 都 支持 该 接口 。Linux 内 核 从 2.6 版 本 开始 提供 posix_fadvise()。 





13.6” 绕 过 缓冲 区 高 速 缓存 直接 IO 


始 于 内 核 2.4，Linux 允 许 应 用 程序 在 执行 磁盘 1/O 时 绕 过 绥 冲 区 蜗 速 
缓存 ， 从 用 户 空间 直接 将 数据 传递 到 文件 或 磁盘 设备 。 有 时 也 称 此 为 直 
4210/0 (direct VO) 或 者 裸 IO(raw I/O). 


此 处 的 描述 细节 为 Linux 所 特有 ，SUSv3 并 未 对 其 进行 
规范 。 尽 管 如 此 ， 大 多 数 UNIX 实 现 均 对 设备 和 文件 提供 了 
某 种 形式 的 直接 MO 访问 。 


有 时 会 将 直接 1/O 误 认为 获取 快速 WO 性 能 的 一 种 手段 。 然 而 ， 对 于 
大 多 数 应 用 而 言 ， 使 用 直接 WO 可 能 会 大 大 降低 性 能 。 这 是 因为 为 了 提 
高 IO 性 能 ， 内 核 针对 缓冲 区 高 速 缓存 做 了 不 少 优 化 ， 其 中 包括 : 按 顺 
FIER, ÆI (clusters) 磁盘 块 上 执行 WO， 人 允许 访问 同一 文件 的 
多 个 进程 共享 高 速 缓存 的 缓冲 区 。 应 用 如 使 用 了 直接 IO 将 无 法 受益 
这 些 优 化 举措。 直接 IO 只 适用 于 有 特定 IO 需求 的 应 用 。 例 如 数据 库 系 
统 ， 其 高 速 缓存 和 IO 优化 机 制 均 自 成 一 体 ， 无 需 内 核 消 耗 CPU 时 间 和 
内 存 去 完成 相同 任务 。 


可 针对 一 个 单独 文件 或 块 设备 〈 比 如 ， 一 块 磁盘 ) 执行 直接 IO。 
PASM M, 需要 在 调用 open() 打 开 文 件 或 设备 时 指定 O_DIRECT 标 











O_DIRECT 标 志 自 内 核 2.4.10 开 始 有 效 ， 并 非 所 有 Linux 文 件 系统 和 
内 核 版 本 都 支持 该 标志 。 绝 大 多 数 原生 (native) 文件 系统 都 支持 
O_DIRECT， 但 许多 非 UNIX 文 件 系统 (比如 VFAT)〉 则 不 支持 。 对 于 所 
关注 的 文件 系统 ， 有 必要 进行 相关 测试 〈 若 文件 系统 不 文 持 
O_DIRECT， 则 open0 将 失败 并 返回 错误 号 EINVAL ) 或 是 阅读 内 核 源 
码 ， 以 此 来 加 以 验证 。 





若 一 进程 以 O_DIRECT 标 志 打 开 某 文件 ， 而 男 一 进程 
以 普通 方式 (即使 用 了 高 速 缓存 缓冲 区 〉 打开 同一 文件 ， 
则 由 直接 IO 所 读 写 的 数据 与 缓冲 区 高 速 缓存 中 内 容 之 间 不 
存在 一 致 性 。 应 尽量 避免 这 一 场景 。 


raw(8) 手 册页 描述 了 一 个 获取 对 磁盘 设备 进行 原始 访问 
的 老 技术 《现在 已 过 时 ) 。 





直接 IO 的 对 齐 限制 





因为 直接 WO (针对 磁盘 设备 和 文件 ) 涉及 对 磁盘 的 直接 访问 ， 所 


以 在 执行 WO 时 ， 必 须 遵守 一 些 限制 。 





o 用 于 传递 数据 的 缓冲 区 ， 其 内 存 边 界 必 须 对 齐 为 块 大 小 的 整数 倍 。 
。 数据 传输 的 开始 点 ， 亦 即 文 件 和 设备 的 偏 移 量 ， 必 须 是 块 大 小 的 整 


数 倍 。 
© 待 传递 数据 的 长 度 必 须 是 块 大 小 的 整数 倍 。 


不 遵守 上 述 任 一 限制 均 将 导致 EINVAL 错 误 。 在 上 述 列 表 中 ， 块 大 





小 (block size〉 指 设备 的 物理 块 大 小 (通常 为 512 字 节 ) 。 


当 执 行 直接 IO 时 ，Linux 2.4 比 Linux 2.6 限 制 更 为 严 
Be: 对 齐 、 长 度 及 偏 移 量 必须 是 底层 文件 系统 逻辑 块 大 小 
的 整数 倍 。 (典型 文件 系统 的 逻辑 块 大 小 为 1024、2048 或 
4096 字 节 。) 








示例 程序 





程序 清单 13-1 提 供 了 一 个 使 用 O_DIRECT 标 志 打 开 一 个 文件 读 取 数 


据 的 简单 例子 。 该 程序 可 指定 多 达 4 个 命令 行 参 数 ， 依 次 为 要 读 取 的 文 
件 、 要 从 文件 中 读 取 的 字 市 数 、 读 之 前 在 文件 中 定位 (seek) 的 偏 移 量 
和 传递 给 read() 的 数据 缓冲 区 对 齐 。 最 后 两 个 为 可 选 参 数 ， 上 默认 值 分 别 
为 0 字 市 和 4096 字 市 。 下 面 是 运行 该 程序 的 一 些 示 例 : 








$ ./direct_read /test/x 512 Read 512 bytes at offset 0 

Read 512 bytes Succeeds 

$ ./direct_read /test/x 256 

ERROR [EINVAL Invalid argument] read Length is not a multiple of 512 

$ ./direct_read /test/x 512 1 

ERROR [EINVAL Invalid argument] read Offset is not a multiple of 512 

$ ./direct_read /test/x 4096 8192 512 

Read 4096 bytes Succeeds 

$ ./direct_read /test/x 4096 512 256 

ERROR [EINVAL Invalid argument] read Alignment is not a multiple of 512 


程序 清单 13-1 中 程序 使 用 memalign0 函 数 来 分 配 一 块 内 
存 ， 其 内 存 块 与 第 一 个 参数 的 整数 倍 对 齐 。7.1.4 节 对 
memalign()P ANA ATH IA - 














程序 清单 13-1: 使 用 O_DIRECT 跳 过 缓冲 区 高 速 缓存 

















filebuff/direct_read.c 


#detine _GNU_SOURCE /* Obtain O_DIRECT definition from <fcntl.h> */ 
#include <fcntl.h> 

#include <malloc.h> 

#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[ ]) 


int fd; 

ssize t numRead; 

size t length, alignment; 
off t offset; 

void *buf; 


if (argc < 3 || strcmp(argv[1], "--help") == 0) 
usageErr("%s file length [offset [alignment] ]\n", argv[0]); 


length = getLong(argv[2], GN_ANY BASE, "length"); 
offset = (argc > 3) ? getLong(argv[3], GN ANY BASE, “offset") : 0; 
alignment = (argc > 4) ? getLong(argv[4], GN_ANY BASE, “alignment") : 4096; 


fd = open(argv[1], O_RDONLY | O DIRECT); 
if (fd == -1) 
errExit("open"); 


/* memalign() allocates a block of memory aligned on an address that 
is a multiple of its first argument. The following expression 
ensures that 'buf' is aligned on a non-power-of-two multiple of 
‘alignment’. We do this to ensure that if, for example, we ask 
for a 256-byte aligned buffer, then we don't accidentally get 
a buffer that is also aligned on a 512-byte boundary. 


The ‘(char *)' cast is needed to allow pointer arithmetic (which 
is not possible on the ‘void *' returned by memalign{)). */ 


buf = (char *) memalign(alignment * 2, length + alignment) + alignment; 
if (buf == NULL) 
errExit("memalign”) ; 


if (lseek(fd, offset, SEEK_SET) == -1) 
errExit("lseek"); 

numRead = read(fd, buf, length); 

if (numRead == -1) 
errExit("read"); 

printf("Read %ld bytes\n", (long) numRead) ; 


exit(EXIT SUCCESS); 


filebuff/direct_read.c 


13.7 ”混合 使 用 库 函 数 和 系统 调用 进行 文件 IO 


在 同一 文件 上 执行 IO 操作 时 ， 还 可 以 将 系统 调用 和 标准 C 语 言 库 函 
数 混合 使 用 。fileno0 和 fdopen0O 函 数 有 助 于 完成 这 一 工作 。 





#include <stdio.h> 
int fileno(FILE *séream); 

Returns file descriptor on success, or -] on error 
FILE *fdopen(int fd, const char *mode); 


Returns (new) file pointer on success, or NULL on crror 











给 定 一 个 “文件 ) Fi, fileno() eh BURFI IFA DAN SCPE HAE CBN 
stdio 库 在 该 流 上 已 经 打开 的 文件 描述 符 ) 。 随 即 可 以 在 诸如 readO)、 
write0、dup0 和 fcnt0 之 类 的 MO 系统 调用 中 正 稼 使 用 该 文件 描述 符 。 


fdopen() 函 数 与 fileno0 函 数 的 功能 相反 。 给 定 一 个 文件 摘 述 符 ， 访 
函数 将 创建 了 一 个 使 用 该 描述 符 进 行文 件 UO 的 相应 流 。mode 参 数 与 
fopen(O) 函 数 中 mode 参 数 含 义 相 同 。 例 如 ，iz 为 读 ，w 为 写 ，a 为 退 加 。 午 
8 5 则 对 fdopenO 的 调用 将 失 
败 。 


fdopen0 函 数 对 非常 规 文件 描述 符 特 别 有 用 。 正 如 后 续 章 节 将 提 及 
的 ， 创 建 套 接 字 和 管道 的 系统 调用 总 是 返回 文件 描述 符 。 为 了 在 这 些 文 
件 类 型 上 使 用 stdio 库 函数 ， 必 须 使 用 fdopen0 函 数 来 创建 相应 文件 注 。 


当 使 用 stdio 库 函数 ， 并 结合 系统 IO 调用 来 实现 对 磁盘 文件 的 IO 操 
作 时 ， 必 须 将 缓冲 问题 牢记 于 心 。IO 系 统 调 用 会 直接 将 数据 传递 到 内 
核 缓冲 区 噩 速 缓存 ， 而 stdio 库 函数 会 等 到 用 户 空间 的 流 缓 冲 区 填 满 ， 再 
ed T 请 考虑 如 下 同 标 准 输出 写 

















printf("To man the world is twofold, "); 
write(STDOUT FILENO, "in accordance with his twofold attitude.\n", 41); 


通常 情况 下 ，PprintfO 函 数 的 输出 往往 在 write(0) 函 数 的 输出 之 后 出 
现 。 因 此 ， 代 码 产 生 如 下 输出 : 


in accordance with his twofold attitude. 
To man the world is twofold, 


将 MO 系统 调用 和 stdio 函 数 混合 使 用 时 ， 使 用 fflush0 来 规避 这 一 问 
题 ， 是 明智 之 举 。 也 可 以 使 用 setvbuf0 或 setbufO 使 缓冲 区 失效 ， 但 这 样 


做 可 能 会 影响 应 用 的 IO 性 能 ， 因 为 每 个 输出 操作 将 引起 一 次 writeO0 系 统 
调用 。 


要 将 1/O 系 统 调用 和 stdio 函 数 混 合 使 用 ，SUSv3 针 对 此 
类 应 用 的 要 求 有 所 规范 。 详 情 参 见 系统 接口 卷 (System 
Interfaces (XSH))“ 通 用 信息 ”一 章 中 “文件 摘 述 符 和 标准 IO 


DR Ra 
m He 








13.8 ”总 结 


输入 输出 数据 的 缓冲 由 内 核 和 stdio 库 完成 。 有 时 可 能 希望 阻止 组 
冲 ， 但 这 需要 了 解 其 对 应 用 程序 性 能 的 影响 。 可 以 使 用 各 种 系统 调用 和 
库 函 数 来 控制 内 核 和 stdio 缓冲 ， 并 执行 一 次 性 的 缓冲 区 刷新 。 


进程 使 用 posix_fadvise0 函 数 ， 可 就 进程 对 特定 文件 可 能 采取 的 数 
据 访 问 模 式 同 内 核 提 出 建议 。 内 核 可 籍 此 来 优化 对 绥 冲 区 高 速 缓存 的 应 
用 ， 进 而 提高 WO 性 能 。 


在 Linux 环 境 下 ，open() 所 特有 的 O_DIRECT 标 识 允 许 特定 应 用 跳 过 
绥 冲 区 高 速 缓存 。 


在 对 同一 个 文件 执行 IO 操作 时 ，fleno0 和 fdopen0 有 助 于 系统 调用 
和 标准 C 话 言 库 函数 的 混合 使 用 。 给 定 一 个 流 ，fileno0 将 返回 相应 的 文 
Do earecw rane 针对 指定 的 打开 文件 描述 符 创 建 
一 个 新 的 流 。 


补充 信息 


[Bach，1986] 描 述 了 System V 中 绥 冲 区 高 速 缓存 的 实现 和 优势 。 
[Goodheart & Cox，1994] 和 [Vahalia，1996] 也 描述 了 System V 组 冲 区 高 
速 缓存 的 基本 原理 和 实现 。 更 多 关于 Linux 环 境 下 的 相关 信息 参见 [Bovet 
& Cesati，2005] 和 [Love，2010]。 











13.9 练习 


13-1. 使 用 shell 内 磐 的 time 命令 ， 测 算 程 序 清单 4-1(copy.a 在 当前 
环境 下 的 用 时 。 


a) 使 用 不 同 的 文件 和 缓冲 区 大 小 进行 试验 。 编 译 应 用 程序 时 使 用 - 
DBUF _SIZE=nbytes 选 项 可 设置 缓冲 区 大 小 。 


b) 对 open0 的 系统 调用 加 入 O_SYNC 标识 ， 针 对 不 同 大 小 的 缓冲 
区 ， 速 度 存在 多 大 差异 ? 


c) 在 一 系列 文件 系统 (比如 ，ext3、XFS、Btrfs 和 JES〉 中 执行 这 
些 计 时 测试 。 结 果 相 似 吗 ? 当 缓 冲 区 大 小 从 小 变 大 时 ， 用 时 趋势 相同 
吗 ? 


13-2. 测定 filebuff/write_bytes.c《〈 随 本 书 发 行 版 提供 源码 ) 程序 在 
不 同 的 缓冲 区 大 小 以 及 文件 系统 下 的 用 时 。 


13-3. 如 下 语句 的 执行 效果 是 什么 ? 


fflush(fp); 
fsync(fileno(fp)); 


13-4. WEP T EE h EE mE At 
么 如 下 代码 的 输出 结果 不 同 。 


printf("If I had more time, \n"); 
write(STDOUT FILENO, "I would have written you a shorter letter.\n", 43); 


13-5. tail [ -nnum ] file 命 令 打 印 名 为 fle 文 件 的 最 后 num 行 〈 默 认 
为 10 行 ) 。 使 用 MO 系统 调用 〈lseekO0、read0、write0) 等 ) 来 实现 该 命 
令 。 牢 记 本 章 所 描述 的 缓冲 问题 ， 力 求实 现 的 高 效 性 。 








QD 译 者 注 : synchronized I/O completion. 
DZE: 忍无可忍 ， 保 留 原文 。 





第 14 章 ”系统 编程 概念 


本 书 第 4 章 、 第 5 章 及 第 13 章 介绍 了 文件 O， 尤 其 侧重 于 常规 〈 磁 
FE) 文件 。 本 章 和 后 续 几 章 则 会 深入 探讨 与 文件 相关 的 一 系列 主题 。 


。 本 章 会 介绍 文件 系统 。 

° ee 其 中 包括 时 间 戳 、 所 有 权 
以 及 权限 。 

。 第 16 章 和 第 17 章 则 会 关注 Linux 2.6 的 两 个 新 特性 ， 扩展 属性 和 访问 
控制 列表 (ACL) 。 扩 展 属性 可 将 任意 元 数据 与 一 文件 进行 关联 ， 
而 ACL 则 是 对 传统 UNIX 文 件 权 限 模型 的 扩展 。 

。 第 18 章 将 讨论 目录 和 链接 。 


文件 系统 是 对 文件 和 目录 的 组 织 集合 ， 本 章 的 绝 大 多 数 内 容 都 与 文 
件 系 统 相 关 。 本 章 会 解释 一 系列 与 文件 系统 有 关 的 概念 ， 举 例 时 将 采用 
传统 的 Linux ext2 文 件 系 统 。 此 外 ， 本 章 还 会 简要 介绍 一 些 Linux 支 持 的 
日 志文 件 系统 。 


在 本 章 结尾 ， 将 会 讨论 用 于 挂 载 (mount) Aza Cunmount) 文件 
系统 的 系统 调用 ， 以 及 用 来 获取 已 挂 载 文 件 系统 信息 的 库 函 数 。 


























14.1 设备 专用 文件 (设备 文件 ) 
本 章 会 经 常 提 到 磁盘 设备 ， 因 此 这 里 先 简要 介绍 一 下 设备 文件 的 概 


全 
DO o 


设备 专用 文件 与 系统 的 某 个 设备 相对 应 。 在 内 核 中 ， 每 种 设备 类 型 
都 有 与 之 相对 应 的 设备 驱动 程序 ， 用 来 处 理 设备 的 所 有 LO 请 求 。 设 备 
驱动 程序 属 内 核 代 码 单元 ， 可 执行 一 系列 操作 ，《〈 通 常 ) 与 相关 便 件 的 
输入 /输出 动作 相对 应 。 由 设备 驱动 程序 提供 的 API 是 固定 的 ， 包 含 的 操 
作对 应 于 系统 调用 open()、close()、read()、write()、mmap0O 〇 以 及 ioctl()。 
每 个 设备 驱动 程序 所 提供 的 接口 一 致 ， 这 隐藏 了 每 个 设备 在 操作 方面 的 
差异 ， 从 而 满足 了 IO 操作 的 通用 性 《请 参见 4.2 节 ) 。 


某 些 设备 是 实际 存在 的 ， 比 如 鼠标 、 磁 盘 和 磁带 设备 。 而 为 一 些 设 
备 则 是 虚拟 的 ， 亦 即 并 不 存在 相应 硬件， 但 内 核 会 (通过 设备 驱动 程 
F) 提供 一 种 抽象 设备 ， 其 所 携带 的 API 与 真实 设备 一 般 无 异 。 

可 将 设备 划分 为 以 下 两 种 类 型 。 

。 字符 型 设备 基于 每 个 字符 来 处 理 数据 。 终 端 和 键盘 都 属于 字符 型 设 


备 。 
。 块 设备 则 每 次 处 理 一 块 数据 。 块 的 大 小 取决 于 设备 类 型 ， 但 通常 为 
512 字 节 的 倍数 。 人 磁盘 和 磁带 设备 都 属于 块 设备 。 


与 其 他 类 型 的 文件 一 样 ， 设 备 文 件 总 会 出 现在 文件 系统 中 ， 通 常 位 
于 /dev 目 录 下 。 超 级 用 户 可 使 用 mknod 命 令 创建 设备 文件 ， 特 权 级 程序 
(CAP_MKNOD) 执行 mknodO 系 统 调 用 亦 可 完成 相同 任务 。 

















本 书 不 会 对 mknod() (make file-system i-node 创 建 ， 文 
件 系统 节点) 系统 调用 做 详细 介绍 ， 因 为 该 系统 调用 的 用 
法 一 目 了 然 ， 而 且 如 今 仅 用 于 创建 设备 文件 ， 一 般 应 用 程 
序 鲜 有 问津 。 当 然 ， 也 可 以 使 用 mknod0 创 建 FIFO (参见 
44.7 节 ) ， 但 最 好 使 用 mkfifo() 函 数 来 完成 该 任务 。 早 先 ， 


某 些 UNIX 实 现 会 使 用 mknod0 来 创建 目录 ， 但 如 今 已 为 
mkdir() 系 统 调用 所 取代 。 然 而 ， 还 有 一 些 UNIX 实 现 
(Linux 不 在 此 列 ) ， 为 了 保持 向 后 兼容 性 ， 仍 然 在 
mknod0 中 保留 了 这 一 能 力 ， 详 情 请 见 mknod(2) 手 册页 。 


在 Linux 的 早期 版 本 中 ，/dev 包 含 了 系统 中 所 有 可 能 设备 的 条 目 ， 即 
使 某 些 设备 实际 并 未 与 系统 连接 。 这 意味 着 /dev 会 包含 数 以 千 计 的 未 用 
设备 项 ， 从 而 导致 了 两 个 缺点 : 其 一 ， 对 于 需要 扫描 该 目录 内 容 的 应 用 
而 言 ， 降 低 了 程序 的 执行 速度 ， 其 二 ， 根 据 该 目录 下 的 内 容 无 法 发 现 系 
统 中 实际 存在 哪些 设备 。Linux2.6 运 用 udev 程 序 解决 了 了 上述 问题 。 该 程 
序 所 依赖 的 sysfs 文 件 系统 ， 是 装载 于 /sys 下 的 伪 文 件 系统 ， 将 设备 和 其 
他 内 核对 象 的 相关 信息 导出 至 用 户 空 间 。 











[Kroah-Hartman，2003] 一 书简 要 介绍 了 udev， 并 概述 
了 该 程序 较 之 于 devfs 的 优势 ， 后 者 是 Linux2.4 内 核对 此 类 
问题 的 解决 方案 。 与 sysfs 文件 系统 有 关 的 内 容 可 见 诸 于 
Linux 2.6 内 核 源码 文件 Documentation/filesystems/sysfs.txt 和 和 
[Mochel，2005] 一 书 。 


设备 ID 


每 个 设备 文件 都 有 主 、 辅 ID 号 各 一 。 主 ID 号 标识 一 般 的 设备 等 级 ， 
内 核 会 使 用 主 ID 号 查找 与 该 类 设备 相应 的 驱动 程序 。 辅 ID 号 能 够 在 一 
般 等 级 中 唯一 标识 特定 设备 。 命 令 ls -1 可 显示 出 设备 文件 的 主 、 辅 ID。 


设备 文件 的 言 扣 中 记录 了 设备 文件 的 主 、 辅 ID (本 半 第 4 证 将 介绍 i 
TR) 。 每 个 设备 驱动 程序 都 会 将 自己 与 特定 主 设备 写 的 关联 关系 疝 内 
核 注册 ， 籍 此 建立 设备 专用 文件 和 设备 驱动 程序 之 间 的 关系 。 内 核 是 不 




















会 使 用 设备 文件 名 来 查找 驱动 程序 的 。 


在 Linux 2.4 以 及 更 早 的 版 本 中 ， 系 统 的 设备 总 数 受 限于 这 一 事实 : 
设备 的 主 、 辅 ID 只 能 用 8 位 数 来 表示 。 加 之 主 设备 ID 固定 不 变 ， 且 为 统 
一 分 配 〈( 由 Linux 命 名 和 编号 机 构 分 配 ， 请 见 http:/www.lanana.org) ， 
使 得 上 述 问题 更 为 严重 。Linux 2.6 采 用 了 更 多 位 数 来 存放 主 、 辅 ID (分 
别 为 12 位 和 20 位 〉，， 从 而 缓解 了 这 一 问题 。 








14.2 ”磁盘 和 分 区 


常规 文件 和 目录 通常 都 存放 在 人 硬盘 设备 里 。 (其 他 设备 也 能 存放 文 
件 和 目录 ， 比 如 ，CD-ROM、tflash 内 存 卡 以 及 虚拟 磁盘 等 ， 但 这 里 主要 
关注 的 是 硬盘 设备 。) 下 面 几 节 会 介绍 磁盘 的 组 织 方式 ， 以 及 如 何 对 其 


分 区 。 
磁盘 驱动 器 


硬盘 驱动 器 是 一 种 机 械 装 置 ， 由 一 个 或 多 个 高 速 旋转 (每 分 钟 旋转 
数 以 千 计 ) 的 盘 乒 组成。 通过 在 倒 盘 上 快速 移动 的 读 / 写 磁头 ， 便 可 获 
取 / 修 改 人 磁盘 表面 的 人 磁性 编码 信息 。 人 磁盘 表面 信息 物理 上 存储 于 称 为 磁 
道 (track) 的 一 组 同心 圆 上 。 破 道上 自身 又 被 划分 为 各 和 干 硬 区 ， 每 个 而 区 
则 包含 一 系列 物理 块 。 物 理 块 的 容量 一 般 为 512 字 节 〈 或 512 的 倍数 ) ， 
代表 了 驱动 器 可 读 / 写 的 最 小 信息 单元 。 


尽管 现代 磁盘 速度 很 快 ， 但 读 写 磁盘 信息 耗 时 依然 不 菲 。 首 先 ， 磁 
头 要 移动 到 相应 磁道 〈 寻 道 时 间 ) ; 然后 ， 在 相应 扇 区 旋转 到 磁头 下 之 
前 ， 驱 动 器 必须 一 直 等 待 〈 旋 转 延 迟 ) ; 最 后 ， 还 要 从 所 请 求 的 块 上 传 
输 数 据 传输 时 间 〉 。 执 行 上 述 操作 所 耗 费 的 时 间 总 量 通 利 以 坚 秒 为 单 
位 。 相 形 之 下 ， 同 样 的 时 间 可 供 现代 CPU 执行 数 百 万 条 指令 。 


磁盘 分 区 


可 将 每 块 磁盘 划分 为 一 个 或 多 个 《不 重 登 的 ) 分 区 。 内 核 则 将 每 个 
分 区 视 为 位 于 /dev 路 径 下 的 单独 设备 。 



































系统 管理 员 可 使 用 fdisk 命 令 来 决定 磁盘 分 区 的 编号 、 
大 小 和 类 型 。 命 令 fdisk -会 列 出 磁盘 上 的 所 有 分 区 。Linux 
专 有 文件 /proc/partitions 记 录 了 系统 中 每 个 磁盘 分 区 的 主 畏 
设备 编写 、 大 小 和 名 称 。 


磁盘 分 区 可 容纳 任何 类 型 的 信息 ， 但 通 疝 只 会 包含 以 下 之 一 。 


。 文件 系统 : 用 来 存放 季 规 文件 ， 请 参阅 本 章 第 3 节 。 

。 数据 区 域 : 可 做 为 裸 设备 对 其 进行 访问 ， 请 参阅 13.6 节 《一 些 数据 
库 管 理 系统 会 使 用 该 技术 ) 。 

。 交换 区 域 : 供 内 核 的 内 存 管理 之 用 。 


可 通过 mkswap(8) 命 令 来 创建 交换 区 域 。 特 权 级 进程 
(CAP_SYS_ADMIN) 可 利用 swapon() 系 统 调用 向 内 核 报 告 将 磁盘 分 区 用 
作 交 换 区 域 。swapoff() 系 统 调用 则 会 执行 反 辣 功能 一 一 告 之 内 核 ， 停 止 
将 磁盘 分 区 用 作 交 换 区 域 。 尽管 SUSv3 并 未 对 上 述 系统 调用 进行 规范 ， 
但 它们 却 获 得 了 许多 UNIX 实 现 的 文 持 。 其 他 信息 请 参考 swapon(2)、 
swapon(8) 手 册页 。 











可 使 用 Linux 专 有 文件 /proc/swaps 来 查看 系统 中 当前 已 
激活 交换 区 域 的 信息 。 其 中 包括 每 个 交换 区 域 的 大 小 ， 以 
及 在 用 交换 区 域 的 个 数 。 


14.3 ”文件 系统 
文件 系统 是 对 常规 文件 和 目录 的 组 织 集合 。 用 于 创建 文件 系统 的 命 


今 是 mkfs。 


Linux 的 强项 之 一 便 是 文 持 种 类 索 多 的 文件 系统 ， 如 下 所 示 。 


传统 的 ext2 文 件 系统 。 

各 种 原生 (native) UNIX 文 件 系统 ， 比 如 ，Minix、System V 以 及 
BSD 文 件 系 统 。 

微软 的 FAT、FAT32 以 及 NTFS 文 件 系 统 。 

ISO 9660 CD-ROM 文 件 系统 。 

Apple Macintosh 的 HFS。 

一 系列 网 络 文件 系统 ， 包 括 广 为 使 用 的 SUN NFS 〈Linux 对 NFS 的 
实现 信息 请 参见 http://nfs.sourceforge.net/) 、IBM 和 微软 的 SMB、 
Novell NCP 以 及 Carnegie Mellon 大 学 开发 的 Coda 文 件 系统 。 

一 系列 日 志文 件 系统 ， 包 括 ext3、ext4、Reiserfs、JFS、XFS 以 及 
Btrfs 。 


从 Linux 的 专 有 文件 /proc/filesystems 中 可 以 查看 当前 为 内 核 所 知 的 
文件 系统 类 型 。 





Linux 2.6.14 中 ， 添 加 了 FUSE (用 户 空间 文件 系统 ) T 
有 共 。 采 用 这 一 机 制 ， 可 为 内 核 添 加 挂钩 Chook) ， 以 便 以 
用 户 空间 程序 来 完整 实现 文件 系统 ， 而 无 需 对 内 核 进 行 修 
补 或 重新 编译 。 详 细 信 息 请 见 http://fuse.sourceforge.net/。 





ext2 文 件 系 统 


多 年 来 ，ext2 (扩展 文件 系统 二 世 ) 是 Linux 上 使 用 最 为 广泛 的 文件 
系统 ， 也 是 原始 Linux 文 件 系统 ext 的 继任 者 。 近 来 ， 随 着 各 种 日 志 





文件 系统 的 兴起 ， 对 ext2 的 使 用 也 日 趋 减少 。 有 时 ， 在 介绍 通用 文件 系 
统 概念 时， 以 一 球 特定 的 文件 系统 实现 为 例会 容易 一 些 ， 出 于 这 一 目 
的 ， 本 章 将 以 ext2 为 例 来 介绍 文件 系统 。 


ext2 文 件 系 统 由 Remy Card 编 写 。ext2 的 源码 篇 幅 不 大 
( 约 5000 行 C 语 言 代码 ， ， 是 其 他 几 种 文件 系统 实现 的 原 
A. ext2 SPARE 
为 http://e2fsprogs.sourceforge.net/ext2.html。 该 站 点 上 有 一 
篇 概括 ext2 实 现 的 优秀 论文 。 此 外 ，David Rusling 所 著 的 在 
线 书籍 “The Linux kernel”( 可 从 http://wwwi.tldp.org/ 下 载 ) 
对 ext2 也 有 描述 。 


文件 系统 结构 


在 文件 系统 中 ， 用 来 分 配 空间 的 基本 单位 是 逻辑 块 ， 亦 即 文件 系统 
所 在 磁盘 设备 上 若干 连续 的 物理 块 。 例 如 ， 在 ext2 文 件 系统 上 ， 逮 辑 块 
的 大 小 为 1024、2048 或 4096 字 节 。 【使 用 mkfs(8) 命 令 创 建文 件 系统 时 ， 
可 指定 逻辑 块 的 大 小 作为 命令 行 参 数 。) 


特权 级 程序 (CAP_SYS_RAWIO) 可 利用 ioctl() 的 
FIBMAP 操 作 ， 来 判定 文件 指定 逻辑 块 的 物理 位 置 。 该 调 
用 的 第 三 个 参数 是 整 型 值 ， 同 时 用 于 返回 结果 。 调 用 之 
前 ， 应 将 该 参数 设置 为 逻辑 块 编号 (第 一 个 逻辑 块 编写 为 
0) ; 调用 之 后 ， 其 中 返回 的 为 存储 该 逻辑 块 的 起 始 物 理 块 
编号 。 


ee en ane he ee 
和 组 成 。 


磁极 分 区 分 区 分 区 


图 14-1: 磁盘 分 区 和 文件 系统 布局 
文件 系统 由 以 下 几 部 分 组 成 。 


。 引导 块 : 总 是 作为 文件 系统 的 首 块 。 引 导 块 不 为 文件 系统 所 用 ， 只 
是 包含 用 来 引导 操作 系统 的 信息 。 操 作 系 统 虽 然 只 需 一 个 引导 块 ， 
但 所 有 文件 系统 都 设 有 引导 块 〈 其 中 的 绝 大 多 数 都 未 使 用 〉。 

。 超级 块 :， 紧 随 引导 块 之 后 的 一 个 独立 块 ， 包 含 与 文件 系统 有 关 的 参 
数 信息 ， 其 中 包括 : 

o TARRE; 
o 文件 系统 中 逻辑 块 的 大 小 ; 
o 以 逻辑 块 计 ， 文 件 系统 的 大 小 ; 


驻 留 于 同一 物理 设备 上 的 不 同文 件 系统 ， 其 类 型 、 大 小 以 及 参数 设 
置 《 比 如 ， 块 大 小 ) 都 可 以 有 所 不 同 。 这 也 是 将 一 块 磁盘 划分 为 多 个 分 
区 的 原因 之 一 。 


e TAR: 文件 系统 中 的 每 个 文件 或 目录 在 i 节 点 表 中 都 对 应 着 唯一 
一 条 记录 。 这 条 记录 登记 了 关乎 文件 的 各 种 信息 。 下 一 节 会 深入 讨 
论 i 节 点 。 有 时 也 将 i 节点 表 称 为 i-list。 

o 数据 块 : 文件 系统 的 大 部 分 空间 都 用 于 存放 数据 ， 以 构成 驻 留 于 文 
件 系统 之 上 的 文件 和 目录 。 


文件 


系统 





























就 ext2 文 件 系统 而 言 ， 情 况 要 比 正 文中 的 描述 稍微 复 
杂 一 反 。 在 起 始 的 引导 块 之 后 ，ext2 文 件 系统 被 划分 为 一 


系列 大 小 相等 的 块 组 (block group) 。 每 个 块 组 都 包含 了 
一 份 超级 块 的 拷贝 、 与 块 组 有 关 的 参数 信息 ， 以 及 该 块 组 
的 i 节点 表 和 数据 块 。ext2 文 件 系统 会 尽量 在 同一 块 组 内 存 
储 一 个 文件 的 所 有 块 ， 以 期 在 对 文件 线性 访问 时 缩短 寻 道 
时 间 。 更 多 详情 ， 请 参考 Linux 源 码 
Documentation/filesystems/ext2.txt、dumpe2fs 程 序 的 源 代码 
(作为 e2fsprogs 软 件 包 的 一 部 分 发 布 ) ， 以 及 [Bovet & 
Cesati, 2005]. 


14.4 i 节点 





针对 驻 留 于 文件 系统 上 的 每 个 文件 ， 文 件 系统 的 i 节 点 表 会 包含 一 
个 i 节 点 〈 索 引 节点 的 简称 ) 。 对 i 节 点 的 标识 ， 采 用 的 是 i 节 点 表 中 的 顺 
续 位 置 ， 以 数字 表示 。 文 件 的 i 节 点 号 〈 或 简称 为 号 ) 是 ls -Ti 命令 所 显 
示 的 第 一 列 。i 节 点 所 维护 的 信息 如 下 所 示 。 


文件 类 型 〈 比 如， 常规 文件 、 目 录 、 符 号 链接 ， 以 及 字符 设备 
等 ) 。 

文件 属 主 〈 亦 称 用 户 ID 或 UID) 。 

文件 属 组 〈 亦 称 为 组 ID 或 GID ) 。 

3 类 用 户 的 访问 权限 : 属 主 〈 有 时 也 称 为 用 户 ) 、 属 组 以 及 其 他 用 
户 〈 属 主 和 属 组 用 户 之 外 的 用 户 ) 。 详 情 请 见 15.4 节 。 

3 个 时 间 惟 :对 文件 的 最 后 访问 时 间 Cs -lu 所 显示 的 时 间 ) 、 对 文 
件 的 最 后 修改 时 间 (也 是 1s -1 所 默认 显示 的 时 间 ) ， 以 及 文件 状态 
的 最 后 改变 时 间 (ls -lc 所 显示 的 最 后 改变 i 节点 信息 的 时 间 〉 。 值 
得 注意 的 是 ， 与 其 他 UNIX 实 现 一 样 ， 大 多 数 Linux 文 件 系 统 不 会 记 
录 文 件 的 创建 时 间 。 

指向 文件 的 硬 链接 数量 。 

文件 的 大 小 ， 以 字 节 为 单位 。 

实际 分 配给 文件 的 块 数量 ， 以 512 字 节 块 为 单位 。 这 一 数字 可 能 不 
会 简单 等 同 于 文件 的 字 节 大 小 ， 因 为 考虑 文件 中 包含 空洞 〈 请 参见 
4.7 节 ) 的 情形 ， 分 配给 文件 的 块 数 可 能 会 低 于 根据 文件 正常 大 小 
(以 字 节 为 单位 ) 所 计算 出 的 块 数 。 

o 指 回 文 件数 据 块 的 指针 。 


ext2 中 的 这 上 和 数据 块 指针 


类 似 于 大 多 数 UNIX 文 件 系 统 ，ext2 文 件 系 统 在 存储 文件 时 ， 数 据 
块 不 一 定 连续 ， 甚 至 不 一 定 按 顺序 存放 (尽管 ext2 会 洋 试 将 数据 块 彼此 
徘 近 存储 ) 。 为 了 定位 文件 数据 块 ， 内 核 在 i 证 点 内 维护 有 一 组 指针 。 
图 14-2 所 示 为 在 ext2 文 件 系统 上 完成 上 述 任务 的 情况 。 
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图 14-2: ext2 文 件 系统 中 文件 的 文件 块 结构 


无 需 连 续 存 储 文件 块 ， 使 得 文件 系统 对 磁盘 空间 的 利 
用 更 为 高 效 。 特 别 是 ， 还 能 降低 空闲 磁盘 空间 的 碎片 化 程 
度 ， 即 因 众 多 不 连续 空闲 磁盘 人 碎片 〈 因 其 空间 太 小 而 无 法 
使 用 ) 而 导致 的 磁盘 空间 滔 费 。 换 言 之 ， 对 空闲 磁盘 空间 








的 高 效 利 用 ， 是 以 已 分 配 磁盘 空间 中 文件 的 雁 户 化 为 代价 
的 。 


在 ext2 中 ， 每 个 i 节 点 包含 15 个 指针 。 其 中 的 前 12 个 指针 〈 图 14-2 中 
编号 为 0 一 11 的 指针 ) 指向 文件 前 12 个 块 在 文件 系统 中 的 位 置 。 接 下 
来 ， 是 一 个 指向 指针 块 的 指针 ， 提 供 了 文件 的 第 13 个 以 及 后 续 数 据 块 
的 位 置 。 指 针 块 中 指针 的 数量 取决 于 文件 系统 中 块 的 大 小 。 每 个 指针 需 
占用 4 字 节 ， 因 此 指针 的 数量 可 能 在 256〈 块 容量 为 1024 字 节 ) 一 
1024( 块 容量 为 4096 字 节 ) 之 间 。 这 样 就 考虑 了 大 型 文件 的 情况 。 即 便 
是 对 于 巨型 文件 ， 第 14 个 指针 《图 中 编号 为 13) 是 一 个 双重 间接 指针 
指 癌 指针 块 ， 其 块 中 指针 进而 指 癌 指针 块 ， 此 块 中 指针 最 终 才 指 问 
文件 的 数据 块 。 只 要 有 体 量 巨大 的 文件 ， 就 会 随 之 产生 更 深 一 层 的 递 
进 : 图 中 i 节点 的 最 后 一 个 指针 属于 三 重 间接 指针 。 


这 一 貌似 复杂 的 系统 ， 其 设计 意图 是 为 了 满足 多 重 需 求 。 首 先 ， 该 
系统 在 维持 i 节点 结构 大 小 固定 的 同时 ， 支 持 任意 大 小 的 文件 。 其 次 ， 
文件 系统 既 可 以 以 不 连续 方式 来 存储 文件 块 ， 叉 可 通过 ]seek(0) 随 机 访问 
文件 ， 而 内 核 只 需 计 算 所 要 遵循 的 指针 。 最 后 ， 对 于 在 大 多 数 系 统 中 占 
绝对 多 数 的 小 文件 而 言 ， 这 种 设计 满足 了 对 文件 数据 块 的 快速 访问 通 
过 i 节 点 的 直接 指针 访问 ， 一 击 必 中 。 




















试 举 一 例 ， 笔 者 对 一 个 包含 约 150 000 个 文件 的 系统 进 
行 了 上 度量。 其 中 30% 多 的 文件 大 小 在 1000 字 节 以 下 ，80% 
的 文件 占用 了 10 000 字 节 或 者 更 少 的 空间 。 假 定 块 的 大 小 
为 1024 字 节 ， 只 要 使 用 12 个 直接 指针 便 能 引用 大 小 为 10000 
字 节 及 以 下 的 文件 ， 可 访问 总 计 12288 字 节 的 块 。 若 块 大 小 
为 4096 字 节 ， 则 该 上 限 可 达 49152 字 节 (系统 中 95% 的 文件 
大 小 都 处 于 该 容量 限制 之 下 ) 。 


上 述 设 计 同 样 考虑 了 巨型 文件 的 处 理 ， 对 于 大 小 为 4096 字 节 的 块 而 
言 ， 理 论 上 ， 文 件 大 小 可 上 略 高 于 1024x1024x1024x4096 字 节 ， 或 
4TB (4096GB). (之 所 以 说 “ 略 高 于 ， 是 因为 指针 指 癌 块 的 方式 可 以 
为 直接 、 间 接 或 双重 间接 。 与 三 重 间接 指针 所 指向 的 范围 相 比 ， 多 出 来 


的 那些 空间 实在 是 微不足道 。) 

该 设计 的 男 一 优点 在 于 文件 可 以 有 黑洞 “如 4.7 节 所 述 ) 。 文 件 系 
统 只 需 将 证 点 和 间接 指针 块 中 的 相应 指针 打上 标记 《〈 值 0) ， 表 明 这 些 
人 而 无 需 为 文件 黑洞 分 配 空 字 节 数据 














14.5 ”虚拟 文件 系统 (VFS) 


Linux 所 支持 的 各 种 文件 系统 ， 其 实现 细节 均 不 相同 。 举 例 来 说 ， 
这 些 差 异 包 括 文件 块 的 分 配方 式 ， 以 及 目录 的 组 织 方式 。 如 果 每 个 与 文 
件 打 交道 的 程序 都 需要 理解 各 种 文件 系统 的 具体 细节 ， 那 么 编写 与 各 类 
文件 系统 交互 的 程序 将 近乎 于 不 可 能 完成 的 任务 。 虚 拟 文件 系统 
(VFS， 有 时 也 称 为 虚拟 文件 交换 ) 是 一 种 内 核 特性 ， 通 过 为 文件 系统 
站 
很 





应 用 程序 








虚拟 文件 系统 (VES) 





图 14-3: 虚拟 文件 系统 


。 VFS 针 对 文件 系统 定义 了 一 套 通 用 接口 。 所 有 与 文件 交互 的 程序 都 
会 按照 这 一 接口 来 进行 操作 。 
。 每 种 文件 系统 部 会 提供 VFS 接 口 的 实现 。 


这 样 一 来 ， 程 序 只 需 理 解 VFS 接 口 ， 而 无 需 过 问 具 体 文件 系统 的 实 
MAT 


VESE H HIERIE- W AK FRR H KNA E R Soe ed HAX 
IM, #6 Aerial Fs A open(). read(). write(). Iseek(). close(). 
truncate(). stat(), mount(). umount()., mmap(Q). mkdir(). link(Q),. 
unlink). symlinkQ LA Xrename(). 


VEFS 的 抽象 层 建 模 精确 仿照 传统 的 UNIX 文 件 系统 模型 。 当 然 ， 还 
有 一 些 文件 系统 ， 尤 其 是 非 UNIX 文 件 系统 ， 并 不 支持 所 有 的 VFS 操 
作 。《 比 如 ， 微 软 的 VFAT 束 不 支持 使 用 symlink0 创 建 的 符号 链接 概 
念 。) 对 于 这 种 情况 ， 底 层 文 件 系统 会 将 错误 代码 传 回 VFS 层 ， 表 明 不 


Do o 








文 持 相应 操作 ， 而 VEFS 随 之 会 将 错误 代码 传递 给 应 用 程序 。 


14.6 日 志文 件 系 统 


ext2 文 件 系 统 是 传统 UNIX 文 件 系 统 的 优秀 典范 ， 自 然 也 受制 于 其 
短 板 : 系统 朋 尝 之 后 ， 为 确保 文件 系统 的 完整 性 ， 重 启 时 必须 对 文件 系 
统 的 一 致 性 进行 检查 〈fcsk) 。 由 于 系统 每 次 朋 尝 时 ， 对 文件 的 更 新 可 
能 只 完成 了 一 部 分 ， 而 文件 系统 元 数据 (目录 项 、i 市 点 信息 以 及 文件 
数据 块 指针 〉 也 将 处 于 不 一 致 状态 ， 一 旦 这 一 问题 得 不 到 修复 ， 那 么 文 
件 系 统 会 遭 到 进一步 破坏 ， 因 此 上 述 举 措 实 属 必 要 。 如 有 可 能 ， 束 必须 
ee rt Ue eee ee ime ece 
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小 ， 只 需 几 秒 或 几 分 钟 便 可 完成 。 而 在 大 型 文件 系统 上 ， 上 述 操作 可 能 
会 历时 数 小 时 ， 这 对 于 需要 保持 高 可 用 性 的 系统 来 说 (比如 ， 网 络 服务 
at) ， 情 况 束 非常 严重 。 


采用 日 志文 件 系 统 ， 则 无 需 在 系统 崩 尝 后 对 文件 进行 漫长 的 一 致 性 
检查 。 在 实际 更 新 元 数据 之 前 ， 日 志文 件 系 统 会 将 这 些 更 新 操作 记录 于 
专用 的 磁盘 日 志文 件 中 。 对 元 数据 更 新 的 记录 是 按 其 相关 性 分 组 〈 以 事 
务 的 方式 记录 ) 进行 的 。 在 事务 处 理 过 程 中 ， 一 旦 系统 骨 尝 ， 系 统 重启 
时 便 可 利用 日 志 重 做 (redo) 任何 不 完整 的 更 新 ， 同 时 为 文件 系统 恢复 
一 致 性 状态 。《 借 用 数据 库 的 说 法 ， 日 志文 件 系统 能 够 确保 总 是 将 文件 
元 数据 事务 作为 一 个 完整 单元 来 提交 。) 系统 崩 尝 之 后 ， 即 便 是 超大 型 
的 日 志文 件 系 统 ， 通 常 也 会 在 儿 秒 之 内 复原 ， 因 而 对 于 有 高 可 用 性 需求 
的 系统 极 具 吸引 力 。 


日 志文 件 系 统 最 为 昭著 的 具名 在 于 增加 了 文件 更 新 的 时 间 ， 当 然 ， 
民 好 的 设计 可 以 降低 这 方面 的 开销 。 




















某 些 日 志文 件 系统 只 会 确保 文件 元 数据 的 一 致 性 。 由 
于 不 记录 文件 数据 ， 因 此 一 旦 系统 崩溃 ， 可 能 会 造成 数据 
丢失 。ext3、ext4 和 Reiserfs 文 件 系统 提供 了 记录 数据 更 新 
的 选项 ， 但 辱 记录 的 东西 过 多 ， 则 会 降低 文件 W/O 的 性 能 。 





以 下 列 出 了 Linux 押 文 持 的 日 志文 件 系统 。 


Reiserfs 是 首 个 被 集成 进 内 核 〈 版 本 号 为 2.4.1) 的 日 志文 件 系统 。 
Reiserfs 提 供 了 一 种 名 为 tail packing (或 tail merging) 的 特性 : 可 将 小 
文件 《以 及 较 大 文件 的 最 后 一 片 ) 与 文件 元 数据 装 入 相同 的 磁盘 
块 。 而 许多 系统 都 拥有 《或 由 应 用 程序 创建 了 ) 众多 小 文件 ， 因 此 
这 会 节省 大 量 的 磁盘 空间 。 

ext3 文 件 系统 ， 源 于 一 个 旨 在 以 最 小 改动 为 ext2 奶 加 日 志 功 能 的 项 
目 。 从 ext2 升 级 到 ext3 非 常 简单 〈 无 需 备 份 和 恢复 操作 ) ， 还 支持 
反问 降级 。 内 核 版 本 2.4.15 集 成 了 ext3。 

JFS 由 IBM 开 发 ， 内 核 版 本 2.4.20 对 其 进行 了 集成 。 

XFS (http://oss.sgi.com/projects/xfs/) 最 初 是 由 SGI (Silicon 

Graphics) 于 20 世 纪 90 年 代 初 期 开发 ， 所 针对 的 是 自己 的 私有 UNIX 
实现 :Irix。2001 年 ，XFS 被 移植 到 了 Linux 平 台 ， 并 成 为 自由 软件 
项 目 。2.4.24 内 核对 其 进行 了 集成 。 


配置 内 核 时 ， 可 在 “File systems” 菜 单 下 激活 对 不 同文 件 系 统 支 持 的 
内 核 设置 选项 。 


写作 本 书 之 际 ， 还 有 两 种 提供 了 日 志 功 能 ， 且 文 持 多 种 其 他 高 级 特 
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。 ext4 文 件 系 统 Chttp://ext4.wiki.kernel.org/) 是 ext3 文 件 系统 的 “接班 
人 ”。Linux2.6.19 将 其 首 个 实现 并 入 ， 内 核 的 后 续 版 本 中 又 陆续 添 
加 了 各 种 特性 。ext4 的 规划 (或 已 实现 的 ) 特性 包括 extents( 预 留 
连续 存储 块 ) 、 旨 在 降低 文件 碎片 化 的 其 他 分 配 特 性 、 在 线 文 件 系 
更 为 快捷 的 文件 系统 检查 以 及 对 纳 秒 级 时 间 戳 
SSC EF 

Btrfs (B- 树 FS， 一 般 读 作 “butter FS”, http://btrfs.wiki.kernel.org/) 
是 一 种 自 下 而 上 进行 设计 的 新 型 文件 系统 ， 意 在 提供 一 系列 现代 化 
特性 ， 其 中 包括 extents、 可 写 快 照 (等 价 于 对 元 数据 和 数据 的 日 志 
功能 ) 、 对 数据 和 元 数据 的 校 验 和 、 在 线 文件 系统 检查 、 在 线 文件 
系统 的 磁盘 碎片 整理 、 高 效 利用 空间 的 小 文件 打包 存放 和 可 检索 目 
录 。 内 核 版 本 2.6.29 中 集成 了 该 文件 系统 。 














14.7 单 根 目录 层级 和 挂 载 点 


与 其 他 UNIX 系 统一 样 ，Linux 上 所 有 文件 系统 中 的 文件 都 位 于 单 根 
目录 树 下 ， 树 根 就 是 根 目 录 “/”。 其 他 的 文件 系统 都 挂 载 在 根 目 录 之 下 ， 
目录 层级 的 子 树 (subtree〉。 超 级 用 户 可 使 用 如 下 命令 来 挂 
车 Mx AN Tbe 


$ mount device directory 


这 条 命令 会 将 名 为 device 的 文件 系统 挂 接 到 目录 层级 中 由 directory 
所 指定 的 目录 ， 即 文件 系统 的 挂 载 点 。 可 使 用 unmount 命 令 色 载 文件 系 
然后 在 另 一 个 挂 载 点 再 次 挂 载 文件 系统 ， 从 而 改变 文件 系统 的 挂 载 








H Linux 版 本 2.4.19 以 后 ， 情 况 变 得 更 为 复杂 。 如 今 ， 
内 核 文 持 针 对 每 个 进程 的 挂 载 命 名 空间 (mount 
namespace) 。 这 意味 着 每 个 进程 都 可 能 拥有 属于 自己 的 一 
组 文件 系统 挂 载 点 ， 因 此 进程 视角 下 的 单 根 目录 层级 彼此 
会 有 所 不 同 。 本 书 将 在 28.2.1 节 介绍 CLONE_NEWNS 标 记 
时 ， 对 上 述 内 容 做 深入 讨论 。 





不 市 任何 参数 来 执行 nount 命 令 ， 可 以 列 出 当前 已 挂 载 的 文件 系 
统 ， 如 下 例 所 示 “《 与 实际 输出 相 比 ， 略 有 删 减 ) : 


$ mount 

/dev/sda6 on / type ext4 (rw) 

proc on /proc type proc (rw) 

sysfs on /sys type sysfs (rw) 

devpts on /dev/pts type devpts (rw,mode=0620, gid=5) 
/dev/sda8 on /home type ext3 (rw,acl,user_xattr) 

/dev/sda1 on /windows/C type vfat (xrw,noexec, nosuid, nodev) 
/dev/sda9 on /home/mtk/test type reiserfs (rw) 


图 14-4 所 示 的 部 分 目录 及 文件 结构 就 出 自 于 执行 上 述 mount 命 令 的 
系统 。 该 图 演示 了 将 安装 点 映射 到 目录 层级 的 方法 。 


sda6 文件 系统 ~ 


Chome jt RE 一 > (Windows) 






























sdal 文件 系统 







目录 


常规 文件 


sda9 文件 系统 


Sda8 文 件 系 统 





图 14-4: 演示 文件 系统 挂 载 点 的 目录 层级 示例 
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系统 调用 mount0 和 umount(0 运 行 特权 级 进程 (CAP_SYS_ADMIN) 
以 挂 载 或 卸载 文件 系统 。 大 多 数 UNIX 实 现 都 提供 了 这 两 个 系统 调用 。 
不 过 ，SUSv3 并 未 对 其 进行 规范 ， 因 此 其 操作 也 随 UNIX 实 现 和 文件 系 
统 的 不 同 而 不 同 。 


在 讨论 这 两 个 系统 调用 之 前 ， 需 要 先 了 解 以 下 3 个 文件 ， 其 中 包含 
了 当前 已 挂 载 或 可 挂 载 的 文件 系统 信息 。 


。 通过 Linux 专 有 的 虚拟 文件 /proc/mounts， 可 查看 当前 已 挂 载 文件 系 
统 的 列表 。/prov/mounts 是 内 核 数 据 结 构 的 接口 ， 因 此 总 是 包含 已 
挂 载 文 件 系 统 的 精确 信息 。 





随 着 引入 了 前 述 的 每 进程 挂 载 命名 空间 特性 ， 如 今 ， 
每 个 进程 都 拥有 一 个 /proc/PID/ mounts 文 件 ， 其 中 会 列 出 组 
成 进程 挂 载 空间 的 挂 载 点 ， 而 /procmounts 只 是 指 
向 /proc/self/mounts 的 符号 链接 。 


e mount(8) 和 umount(8) 命 令 会 自动 维护 /etc/mtab 文 件 ， 该 文件 所 包含 
的 信息 与 /procv/mounts 的 内 容 相 类 似 ， 只 是 略微 详细 一 些 。 特 别 
是 ，etc/mtab 包 含 了 传递 给 mount(8) 的 文件 系统 专 有 选项 ， 这 并 未 
在 procmounts 中 出 现 。 但 是 ， 因 为 系统 调用 mountO0 和 umountO 并 
不 更 新 /etcmtab， 如 果 某 些 挂 载 或 外 载 了 设备 的 应 用 程序 没有 更 新 
该 文件 ， 那 么 /etc/mtab 可 能 会 变 得 不 准确 。 

e /etc/fstab 〈 由 系统 管理 员 手 工 维护 ) 包含 了 对 系统 文 持 的 所 有 文件 
系统 的 描述 ， 该 文件 可 供 mount(8)、umount(8) 以 及 fsck(8) 所 用 。 





/proc/mounts、/etc/mtab 和 /etc/fstab 的 格式 相同 ， 请 参考 fstab(5) 手 册 
页 。 以 下 示例 摘自 /proc/mounts 中 的 一 条 记录 (一行): 


/dev/sda9 /boot ext3 rw 0 0 

这 条 记录 包含 了 6 个 字段 。 

1. 已 挂 载 设 备 名 。 

2. 设备 的 挂 载 点 。 

3. 文件 系统 类 型 。 

4. 挂 载 标志 。 上 例 的 rw 表示 以 可 读 写 方式 挂 载 文件 系统 。 
percio AA AMARA ERRENTE pocions Reriniab 
中 ， 该 字段 总 是 为 0。 


< 一 个 数字 ， 在 系统 引导 时 ， 用 于 控制 fsck(8) 对 文件 系统 的 检查 
顺序 。 


getfsent(3) 和 getmntent(3) 手 册页 记录 了 用 于 从 上 述 文件 中 读 取 记录 
的 函数 。 


14.8.1 Ea Cee AA: mount() 


mount(O 系 统 调用 将 由 source 指 定 设备 所 包含 的 文件 系统 ， 挂 载 到 由 
target 指 定 的 目录 下 。 














#tinclude <sys/mount.h> 


int mount(const char *source, const char *target, const char *fstype, 
unsigned long mountflags, const void *data); 





Returns 0 on success, or -1 on error 








头 两 个 参数 分 别 命 名 为 source 和 target， 其 原因 在 于 ， 除 了 将 磁盘 文 
件 系 统 挂 载 到 一 目录 下 之 外 ，mountO 还 可 以 执行 其 他 任务 。 


参数 fstype 是 一 字符 串 ， 用 来 标识 设备 所 含 文 件 系统 的 类 型 ， 比 
如 ，ext4 或 btrfs 。 


参数 mountflags 为 一 位 掩 码 ， 通 过 对 表 14-1 中 所 示 的 0 个 或 多 个 标志 
进行 或 (OR) 操作 而 得 出 ， 稍 后 将 做 详细 介绍 。 


表 14-1: 供 mount() 使 用 的 mountflags 值 


EE 
同步 更 新 中 人 (的 于 Un 26) 

snaa 
六 原子 操作 将 挂 载 点 移 到 新 位 置 
不 更 新 文件 的 最 后 访问 时 间 
panama 

新 目录 的 最 后 访问 时 间 
用 set-user-ID 和 set-group-ID 程 序 
以 只 读 方式 挂 载 ， 不 能 修改 或 创建 文件 
递归 挂 载 〈 始 于 Linux 2.6.20) 


只 有 当 最 后 访问 时 间 早 于 最 后 修改 时 间或 最 后 状态 变更 时 间 
时 ， 才 对 前 者 进行 更 新 〈 始 于 Linux 2.4.11) 
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MS_REMOUNT 使 用 新 的 mountflags 和 data 重 新 挂 载 


MS_STRICTATIME | 总 是 更 新 最 后 访问 时 间 〈 始 于 Linux 2.6.30) 








MS_SYNCHRONOUS | 使 得 所 有 文件 和 目录 同步 更 新 





mountO 的 最 后 一 个 参数 data 是 一 个 指 同 信息 绥 冲 区 的 指针 ， 对 其 信 
恩 的 解释 则 取决 于 文件 系统 。 束 大 多 数 文件 系统 而 言 ， 该 参数 是 一 字符 
串 ， 包 含 了 以 逗号 分 隔 的 选项 设置 。 在 mount(8) 手 册页 中 ， 有 这 些 选 项 
~ 奇 未 见 之 于 mount(8) 手 册页 ， 请 查找 相关 文件 系统 的 文 


mountflags 人 参数 是 标志 的 位 掩 码 ， 用 来 修改 mountO 操 作 。 在 
mountflags 中 ， 可 以 指定 0 到 多 个 如 下 标志 : 


MS_BIND ( 始 于 Linux 2.4) 


用 来 建立 绑 定 挂 载 。14.9.4 节 将 描述 这 一 特性 。 如 果 指 定 了 该 标 
志 ， 那 么 mount() 会 忽略 fstype、data 参 数 ， 以 及 mountflags 中 除 MS_REC 
之 外 的 标志 “【〈 见 后 续 摘 述 ) 。 


MS_DIRSYNC ( 始 于 Linux 2.6) 


用 来 同步 更 新 路 径 。 该 标志 的 效果 类 似 于 open0 的 O_SYNC 标 志 

(参见 13.3 节 ) ， 但 只 针对 路 径 。 后 面 介绍 的 MS_SYNCHRONOUS 提 供 
了 MS_DIRSYNC 功 能 的 超 集 ， 可 同时 同步 更 新 文件 和 目录 。 采 用 
MS_DIRSYNC 标志 的 应 用 程序 在 确保 同步 更 新 目录 (比如 ， 
open(pathname, O_CREAT)、 rename()、link()、unlink()、symlink() 以 及 
mkdir0) 的 同时 ， 还 无 需 消 耗 同 步 更 新 文件 所 带 来 的 成 本 。 
FS_DIRSYNC_FL 标 志 的 用 途 与 之 相近 ， 其 区 别 在 于 可 将 MS_DIRSYNC 
应 用 于 单个 目录 。 此 外 ， 在 Linux 上 ， 针 对 指 代目 录 的 文件 描述 符 调用 
fsync()， 可 对 目标 目录 进行 更 新 。 (SUSvV3 并 未 对 fsync() 的 这 一 Linux 专 
有 行为 加 以 规范 。) 


MS_MANDLOCK 


允许 对 该 文件 系统 中 的 文件 强行 锁定 记录 。 第 55 音 将 描述 记录 锁 


























FE 0 
MS_MOVE 


将 由 source 指 定 的 现 有 挂 载 点 移 到 由 target 指 定 的 新 位 置 ， 整 个 动作 
为 一 原子 操作 ， 不 可 分 割 。 这 与 mount(8) 命 令 的 --move 选 项 相对 应 。 实 
Ink, SIS RPM, JP PRA iB, RÆNT 
的 时 点 并 无 意义 DD。source 参 数 为 一 字符 串 ， 其 内 容 应 与 前 一 个 mount() 
调用 中 的 target 相 同 。 一 旦 使 用 了 这 一 标志 ， 那 么 mount() 将 忽略 fstype、 
data 参 数 ， 以 及 mountflags 中 的 其 他 标志 。 


MS_NOATIME 


针对 该 文件 系统 中 的 文件 ， 不 更 新 其 最 后 访问 时 间 。 与 下 面 将 要 介 
绍 的 MS_NODIRATIME 标 志 一 样 ， 使 用 该 标志 意 在 消除 额外 的 磁极 访 
问 ， 避 免 在 每 次 访问 文件 时 都 去 更 新 文件 i 节 点 。 对 某 些 应 用 程序 来 
说 ， 维 护 这 一 时 间 惟 意义 不 大 ， 而 放弃 这 一 做 法 还 能 显 背 提升 性 能 。 
MS_NOATIME 标 志 与 FS_NOATIME_FL 标 志 ( 见 15.5 节 )〉 目的 相似 ， 区 
别 在 于 可 将 FS_NOATIME_FL 标 志 应 用 于 单个 文件 。 此 外 ，Linux 还 可 
以 运用 open0) 的 O_NOATIME 标 志 ， 来 提供 类 似 功 能 ， 可 以 针对 打开 的 
单个 文件 来 选择 这 一 行为 〈 参 见 4.3.1 节 ) o 
MS_NODEV 

不 多 许 访问 此 文件 系统 上 的 块 设备 和 字符 设备 。 设 计 这 一 特性 的 目 
的 是 为 了 保障 系统 安全 ， 规 避 如 下 情况 : 假设 用 户 插入 了 可 移动 磁盘 ， 
而 磁盘 中 又 包含 了 可 随意 访问 系统 的 设备 专 有 文件 。 
MS_NODIRATIME 

不 更 新 此 文件 系统 中 目录 的 最 后 访问 时 间 (该 标志 提供 了 
MS_NOATIME 标 志 的 部 分 功能 ，MS_NOATIME 标 志 不 会 对 所 有 文件 类 
型 的 最 后 访问 时 间 进 行 更 新 ) 。 


MS_NOEXEC 


不 允许 在 此 文件 系统 上 执行 程序 〈 或 脚本 ) 。 该 标志 用 于 文件 系统 
包含 非 Linux 可 执行 文件 的 场景 。 


MS_NOSUID 


























禁用 此 文件 系统 上 的 setruser-ID 和 set-group-ID 程 序 。 这 属于 安全 特 
性 ， 意 在 防止 用 户 从 可 移动 磁盘 上 运行 setruser-ID 和 set-group-ID 程 序 。 


MS_RDONLY 


以 只 读 方 式 挂 载 文件 系统 ， 在 此 文件 系统 上 既 不 能 创建 文件 ， 也 不 
能 修改 现 有 文件 。 


MS_REC ( 始 于 Linux 2.4.11) 


该 标志 与 其 他 标志 比如，MS_BIND) 结合 使 用 ， 以 递归 方式 将 
挂 载 动作 施 之 于 子 树 下 的 所 有 挂 载 。 


MS_RELATIME ( 始 于 Linux 2.6.20) 


在 此 文件 系统 中 ， 只 有 当 文 件 最 后 访问 时 间 惟 的 当前 值 马 小 于 或 等 
于 最 后 一 次 修改 或 状态 变更 的 时 间 惟 时 ， 才 对 其 进行 更 新 。 这 不 但 吸取 
了 MS_NOATIME 性 能 上 的 一 些 优点 ， 而 且 还 可 应 用 于 如 下 场景 : 程序 
能 了 解 到 ， 自 上 次 更 新 以 来 ， 有 无 读 取 过 文件 。 自 Linux 2.6.30 以 来 ， 系 
统 会 默认 提供 MS_RELATIME 的 行为 (除非 明确 指定 了 MS_NOATIME 
标志 ) ， 要 获取 传统 行为 ， 必 须 使 用 MS_STRICTATIME 标 志 。 此 外 ， 
只 要 文件 最 后 访问 时 间 稚 距 今 超过 24 小 时 ， 即 便 其 大 于 最 近 修 改 和 状态 
改变 时 间 惟 ， 系 统 仍 会 更 新 该 文件 的 最 后 访问 时 间 惟 。 (该 标志 对 于 监 
控 目 录 的 系统 程序 来 说 极为 有 用 ， 可 以 了 解 最 近 有 无 对 文件 进行 过 访 
问 。) 


MS_REMOUNT 


针对 已 挂 载 的 文件 系统 ， 改 变 其 mountflag 〈 装 备 标记 ) 和 data 〈 数 
据 ) 。《 例 如 ， 令 只 读 文 件 系统 可 写 。) 使 用 该 标志 时 ，source 和 target 
参数 应 该 与 最 初 用 于 mount() 系 统 调用 的 参数 相同 ， 而 对 fstype 参 数 则 了 巴 
以 忽略 。 使 用 该 标志 可 以 避免 对 人 磁盘 进行 即 载 和 重新 挂 载 ， 在 某 些 场 合 
中 ， 这 是 不 可 能 做 到 的 。 比 方 说 ， 如 果 有 进程 打开 了 文件 系统 上 的 文 
件 ， 或 进程 的 当前 工作 目录 位 于 文件 系统 之 内 (对 root 文件 系统 来 说 ， 
情况 总 是 如 此 ) ， 就 无 法 卸载 相应 的 文件 系统 。 使 用 MS_REMOUNT 的 
男 一 场景 是 tmpfs〈( 基 于 内 存 的 ) 文件 系统 ， 一 旦 凶 载 了 7 这 一 文件 系 
统 ， 其 内 容 便 会 丢失 。 并 非 所 有 的 mountflag 都 是 可 修改 的 ， 有 具体 信息 请 
参考 mount(2) 手 册页 。 























MS_STRICTATIME ( 始 于 Linux 2.6.30) 


只 要 访问 此 文件 系统 上 的 文件 ， 就 总 是 更 新 文件 的 最 后 访问 时 间 
Eko Linux 2.6.30 之 前 ， 这 是 系统 的 默认 行为 。 只 要 定义 了 
MS_STRICTATIME， 即 使 在 mountflag 中 定义 了 MS_NOATIME 和 
MS_RELATIME， 也 会 将 其 忽略 。 


MS_SYNCHRONOUS 


对 文件 系统 上 的 所 有 文件 和 目录 保持 同步 更 新 。( 对 文件 来 说 ,区 
如 同 总 是 以 0_SYNC 标 志 调 用 open() 来 打开 文件 一 样 。) 





从 内 核 2.6.15 起 ， 为 支持 共享 子 树 (shared subtree) 的 
概念 ，Linux 提 供 了 4 个 新 的 挂 载 标志 ， 分 别 是 
MS_ PRIVATE MS SHARED, MS SLAVE, 
MS_UNBINDABLE。 这 些 标志 可 与 MS_REC 结 合 使 用 ， 从 
而 将 其 效果 传播 至 一 挂 载 子 树 (mount subtree) 下 的 所 有 子 
挂 载 (submount) 。 设 计 共 享 子 树 的 目的 ， 是 为 了 文 持 某 
些 高 级 文件 系统 特性 ， 比 如 ， 每 进程 挂 载 命 名 空间 《请 参 
见 28.2.1 一 节 对 CLONE_NEWNS 的 描述 ) ， 以 及 用 户 空间 
的 文件 系统 (FUSE) 工具 。 共 享 子 树 机 制 允 许 以 一 种 受 控 
方式 在 挂 载 命名 空间 之 间 传 播 文 件 系 统 的 挂 载 。 关 于 共享 
子 树 的 详细 信息 ， 可 查阅 内 核 源码 文件 
Documentation/filesystems/ sharedsubtree.tzt 和 [Viro & Pai, 
2006] 一 书 。 


程序 示例 


程序 清单 14-1 提 供 了 对 mount(2) 系 统 调用 的 命令 行 级 接 口 。 其 实 ， 
也 是 mount(8) 命 令 的 简化 版 。 以 下 shell 会 话 日 志 演示 了 对 该 程序 的 运 





用 。 首 移 创 建 一 个 目录 作为 挂 载 点 ， 并 挂 载 文件 系统 。 


$ su Need privilege to mount a file system 
Password: 

# mkdir /testfs 

# ./t_mount -t ext2 -o bsdgroups /dev/sda12 /testfs 

# cat /proc/mounts | grep sda12 Verify the setup 

/dev/sda12 /testfs ext3 rw 0 0 Doesn't show bsdgroups 

# grep sda12 /etc/mtab 


这 里 可 以 发 现 ， 上 面 的 grep 命 令 并 未 产生 任何 输出 ， 因 为 该 程序 并 
未 更 新 /etcmtab 。 现 继续 以 只 读 方式 重新 挂 载 文件 系统 : 


# ./t_mount -f Rr /dev/sdai2 /testfs 
# cat /proc/mounts | grep sda12 Verify change 
/dev/sdai2 /testfs ext3 ro 0 0 


从 /procmounts 输 出 的 字 串 “ro” 表 明 这 是 一 次 只 读 方 式 的 挂 载 。 
最 后 ， 再 将 挂 载 点 移动 至 目录 层级 内 的 新 位 置 : 


# mkdir /demo 

# ./t_mount -f m /testfs /demo 

# cat /proc/mounts | grep sda12 Verify change 
/dev/sdai2 /demo ext3 ro 0 








程序 清单 14-1: 使 用 mount() 





filesys/t_mount.c 


#include <sys/mount.h> 
#include "tlpi_hdr.h" 


static void 
usageError(const char *progName, const char *msg) 


if (msg != NULL) 
fprintf(stderr, "%s", msg); 


fprintf(stderr, "Usage: %s [options] source target\n\n", progName) ; 
fprintf(stderr, “Available options:\n"); 


#tdefine fpe(str) fprintf(stderr, " " str) /* Shorter! */ 
fpe("-t fstype [e.g., ‘ext2' or 'reiserfs']\n"); 
fpe("-o data [file system-dependent options, \n"); 
fpe(" e.g., ‘bsdgroups' for ext2]\n"); 
fpe("-f mountflags can include any of:\n"); 

#define fpe2(str) fprintf(stderr, " " str) 
fpe2("b - MS BIND create a bind mount\n"); 
fpe2("d - MS_DIRSYNC synchronous directory updates\n"); 
fpe2("1 - MS MANDLOCK permit mandatory locking\n"); 
fpe2("m - MS MOVE atomically move subtree\n"); 
fpe2("A - MS_NOATIME don't update atime (last access time)\n"); 
fpe2("V - MS_NODEV don't permit device access\n"); 
fpe2("D - MS_NODIRATIME don't update atime on directories\n"); 
fpe2("E - MS NOEXEC don't allow executables\n"); 
fpe2("S - MS_NOSUID disable set-user/group-ID programs\n"); 
fpe2("r - MS_RDONLY read-only mount\n"); 
fpe2("c - MS REC recursive mount\n"); 
fpe2("R - MS_REMOUNT remount\n"); 


fpe2("s - MS SYNCHRONOUS make writes synchronous\n"); 
exit (EXIT_FAILURE); 
} 


int 
main(int argc, char *argv[]) 


unsigned long flags; 
char *data, *fstype; 
int j, opt; 


flags = 0; 
data = NULL; 
fstype = NULL; 


while ((opt = getopt(argc, argv, "o:t:f:")) != -1) { 
switch (opt) { 


case '0 : 
data = optarg; 
break; 


case 't': 
fstype = optarg; 
break; 


case 'f': 
for (j = 0; j < strlen{optarg); j++) { 


switch (optarg[j]) { 
case 'b': flags |= MS BIND; break; 
case ‘d': flags |= MS DIRSYNC; break; 
case ‘l': flags |= MS MANDLOCK; break; 
case 'm': flags |= MS MOVE; break; 
case ‘A’: flags |= MS NOATIME; break; 
case 'V': flags |= MS NODEV; break; 
case 'D': flags |= MS NODIRATIME; break; 
case 'E': flags |= MS _NOEXEC; break; 
case 'S': flags |= MS _NOSUID; break; 
case 'r': flags |= MS_RDONLY; break; 
case 'c': flags |= MS REC; break; 
case 'R': flags |= MS_REMOUNT; break; 
case 's': flags |= MS_SYNCHRONOUS; break; 
default usageError(argv[0], NULL) ; 
} 

} 

break 

default: 


usageError(argv[0], NULL); 


} 


if (argc != optind + 2) 
usageError(argv[0], “Wrong number of arguments\n"); 


if (mount(argv[optind], argv[optind + 1], fstype, flags, data) == -1) 
errExit("mount”); 


exit(EXIT_ SUCCESS); 


filesys/t_mount.c 


14.8.2 eax AZ: umount()#llumount2() 
umount) R Ze Val AN Fe a EA OE KAS 





#include <sys/mount.h> 


int umount(const char *target) ; 


Returns 0 on success, or -1 on error 





target BOUT xe FF EA CTE AR IN EER 0 


A Ai ES ALinux A AKU: 存在 两 种 
方法 来 标识 文件 系统 : 其 一 ， 通 过 挂 载 点 ， 甚 二， 通过 包 
含 文件 系统 的 设备 名 。 自 内 核 版 本 2.4 之 后 ，Linux 不 再 允许 
使 用 第 二 种 方法 ， 其 原因 是 如 今 可 以 在 多 个 位 置 挂 载 单个 
文件 系统 ， 以 第 二 种 方式 为 target 指 定 文件 系统 就 会 混淆 不 
清 。 本 书 的 14.9.1 节 将 详细 介绍 这 一 点 


无 法 秋 载 正在 使 用 中 的 usy) 文件 系统 ， 意 即 这 一 文件 系统 上 有 
文件 被 打开 ， 或 者 进程 的 当前 工作 目录 驻 留 在 此 文件 系统 下 。 针 对 使 用 
中 的 文件 系统 调用 umountO0， 系 统 会 返回 EBUSY 错 误 。 


系统 调用 umount20 是 umount0 的 扩展 版 。 通 过 flags 参 数 ，umount20) 
可 对 番 载 操作 施 以 更 精密 的 控制 。 








#include <sys/mount.h> 


int umount2(const char *target, int flags); 


Returns 0 on success, or -1 on crror 











hs DENSE BUF OS Bk MEA BK COR) 而 成 。 


MNT_DETACH ( 始 于 Linux 2.4.11) 


MÁT lazy Epik 。 对 挂 载 点 加 以 标记 ， 一 方面 允许 已 使 用 了 挂 载 点 的 
进程 得 以 继续 使 用 ， 同 时 蔡 止 任何 其 他 进程 对 该 挂 载 点 发 起 新 的 访问 。 


当 所 有 进程 不 再 使 用 访问 点 时 ， 系 统 会 释 载 相应 的 文件 系统 。 
MNT_EXPIRE ( 始 于 Linux 2.6.8) 


将 挂 载 点 标记 为 到 期 (expired) 。 若 首次 调用 umount20 时 指定 了 
该 标志 ， 且 挂 载 点 处 于 空 闻 状态 ， 则 该 调用 将 以 失败 告终 ， 并 返回 
EAGAIN 错 误 ， 同 时 将 挂 载 点 标记 为 到 期 。( 如 果 挂 载 点 处 于 在 用 状 
态 ， 那 么 调用 也 将 失败 ， 并 返回 EBUSY 错 误 ， 但 不 会 将 挂 载 点 标记 为 
到 期 。) 只 要 无 任何 后 续 进 程 发 起 对 挂 载 点 的 访问 ， 该 挂 载 点 便 会 一 直 
保持 到 期 状态 。 再 度 调 用 umount20 时 ， 如 指定 MNT_EXPIRE 标 志 ， 将 
秋 载 到 期 的 挂 载 点 。 这 就 提供 了 一 种 机 制 ， 以 公 载 在 某 段 时 间 内 未 用 的 
文件 系统 。 该 标志 不 能 与 MNT_DETACH 或 MNT_FORCE 标 志 一 并 使 
用 。 


MNT_FORCE 


即便 文件 系统 “只 对 NEFS 挂 载 有 效 ) 处 于 在 用 状态 ， 依 然 将 其 强行 
色 载 。 采 用 这 一 选项 可 能 会 造成 数据 丢失 。 


UMOUNT_NOFOLLOW( 始 于 Linux 2.6.34) 


右 target 为 符号 链接 ， 则 不 对 其 进行 解 引 用 。 该 标志 专 为 菜 些 set- 
user-ID-root 程 序 而 设计 一 一 此 类 程序 允许 非特 权 级 用 户 执行 季 载 操作 ， 
意 在 避免 安全 性 问题 的 发 生 《〈 例 如 ， 寿 target 为 符号 链接 ， 且 被 改变 以 
指向 男 外 的 位 置 )。 





14.9 ”高 级 挂 载 特 性 


本 节 会 介绍 挂 载 文 件 系 统 时 可 采用 的 知 干 高 级 特性 。 这 里 会 使 用 
令 来 演示 其 中 的 大 多 数 特性 ， 在 程序 中 调用 mount(2) 也 能 起 
到 相同 效果 。 


14.9.1 在 多 个 挂 载 点 挂 载 文 件 系 统 


内 核 版 本 2.4 之 前 ， 一 个 文件 系统 只 能 挂 载 于 单个 挂 载 点 。 从 内 核 
版 本 2.4 开 始 ， 可 以 将 一 个 文件 系统 挂 载 于 文件 系统 内 的 多 个 位 置 。 由 
于 每 个 挂 载 点 下 的 目录 子 树 内 容 者 相同 ， 在 一 个 挂 载 上 下 对 目录 子 树 所 
做 的 改变 ， 同 样 可 见 诸 于 其 他 挂 载 点 ， 如 下 列 shell 会 话 所 示 : 











$ su Privilege is required to use mount(S) 
Password: 

# mkdir /testfs Create two directories for mount points 
# mkdir /demo 

# mount /dev/sda12 /testfs Mount file system al one mount point 

# mount /dev/sdai2 /demo Mount file system at second mount point 
# mount | grep sda12 Verify the setup 


/dev/sdai12 on /testfs type ext3 (rw) 

/dev/sda12 on /demo type ext3 (rw) 

# touch /testfs/myfile Make a change via first mount point 
# ls /demo View files at second mount point 
lost+found myfile 


如 ls 命令 的 输出 所 示 ， 在 挂 载 点 一 (/testfs) 下 对 目录 子 树 所 做 的 改 
变 ， 在 挂 载 点 二 (/demo) 下 完全 可 见 。 


Fa 14.9.4 75 ZEST 2A SB rE ERN, KAHE AER R A H Ak 
ie 





正 因为 可 在 多 点 挂 载 一 个 设备 ， 在 Linux 2.4 及 其 后 续 
版 本 中 ，umountO 系 统 调用 不 再 将 设备 作为 其 入 参 。 


14.9.2 ”多 次 挂 载 同一 挂 载 点 


在 内 核 版 本 2.4 之 前 ， 一 个 挂 载 点 只 能 使 用 一 次 。 从 内 核 2.4 开 始 ， 
Linux 人 允许 针对 同一 挂 载 点 执行 多 次 挂 载 。 每 次 新 挂 载 都 会 隐藏 之 前 可 
见于 挂 载 点 下 的 目录 子 树 。 彼 载 最 后 一 次 挂 载 时 ， 挂 载 点 下 上 次 挂 载 的 
内 容 会 再 次 显示 ， 请 参考 以 下 shell 会 话 : 








$ su Privilege is required to use mount(8) 
Password: 

# mount /dev/sda12 /testfs Create first mount on /testfs 

# touch /testfs/myfile Make a file in this subtree 

# mount /dev/sda13 /testfs Stack a second mount on /testfs 
# mount | grep testfs Verify the setup 

/dev/sda12 on /testfs type ext3 (rw) 

/dev/sdai13 on /testfs type reiserfs (rw) 

# touch /testfs/newfile Create a file in this subtree 

# ls /testfs View files in this subtree 

newfile 

# umount /testfs Pop a mount from the stack 


# mount | grep testfs 

/dev/sdai12 on /testfs type ext3 (rw) Now only one mount on /testfs 
# ls /testfs Previous mount is now visible 
lost+found myfile 


EMA ELE FS AE ERITI A EE BRE FE US HE EE YAY YE 
之 一 。 持 有 打开 文件 描述 符 的 进程 、 建 立 chroot 监 禁区 Gail) 的 进程 ， 
以 及 工作 目录 位 于 老 挂 载 点 之 下 的 进程 将 继续 在 旧 有 挂 载 下 运行 ， 而 针 
对 挂 载 点 发 起 新 访问 的 进程 将 使 用 新 挂 载 。 结 合 MNT_DETACH 标 志 下 
的 unmount 操 作 ， 则 无 需 将 文件 系统 置 为 单 用 户 模 式 ， 即 可 为 其 提供 平 
滑 迁 移 。14.10 市 在 讨论 tmpfs 时 会 举例 说 明 堆 墅 挂 载 的 男 一 用 法 。 


14.9.3 ”基于 每 次 挂 载 的 挂 载 标 志 


在 内 核 2.4 版 本 以 前 ， 文 件 系 统 和 挂 载 点 之 间 是 一 一 对 应 的 关系 。 
由 于 从 Linux 2.4 开 始 ， 这 一 特征 不 再 适用 ， 故 而 14.8.1 节 所 述 的 某 些 
mountflag 标 志 值 可 以 基于 每 次 挂 载 来 设置 。 这 包括 MS_NOATIME ( 始 
于 Linux 2.6.16), MS_NODEV. MS_NODIRATIME ( 始 于 Linux 
2.6.16)、MS_NOEXEC、MS_NOSUID、MS_RDONLY ( 始 于 Linux 
2.6.26)， 以 及 MS_RELATIME。 以 下 shell 会 话 演 示 了 使 用 MS_NOEXEC 
标志 的 效果 : 





$ su 

Password: 

# mount /dev/sdai2 /testfs 

# mount -o noexec /dev/sda12 /demo 

# cat /proc/mounts | grep sda12 

/dev/sdai2 /testfs ext3 rw 0 0 

/dev/sda12 /demo ext3 rw,noexec 0 0 

# cp /bin/echo /testfs 

# /testfs/echo “Art is something which is well done" 
Art is something which is well done 

# /demo/echo "Art is something which is well done" 
bash: /demo/echo: Permission denied 


14.9.4 绑 定 挂 载 


始 于 内 核 版 本 2.4，Linux 支 持 了 创建 绑 定 挂 载 。 绑 定 挂 载 〈 由 使 用 
MS_BIND 标 志 的 mountO 调 用 来 创建 ) 是 指 在 文件 系统 目录 层级 的 另 一 
处 挂 载 目 录 或 文件 。 这 将 导致 文件 或 目录 在 两 处 同时 可 见 。 绑 定 挂 载 有 
些 类 似 于 硬 链 接 ， 但 存在 两 个 方面 的 差异 。 


。 绑 定 挂 载 可 以 跨越 多 个 文件 系统 挂 载 点 ， 甚 至 不 拘 于 chroot 监 蓉 区 
Gail) 。 
。 可 针对 目录 执行 绑 定 挂 载 。 


可 使 用 mount(8) 的 bind 选 项 ， 在 shell 中 创建 绑 定 挂 载 ， 如 下 面 几 个 
例子 所 示 。 


第 一 个 例子 在 为 一 处 绑 定 挂 载 了 一 个 目录 ， 并 展示 了 在 一 处 目录 中 
所 创建 的 文件 ， 对 男 一 处 目录 同样 可 见 。 














$su Privilege is required to use mount(8) 
Password: 

# pwd 

/testfs 

# mkdir d1 Create directory to be bound at another location 
# touch d1/x Create file in the directory 

# mkdir d2 Create mount point to which d1 will be bound 
# mount --bind d1 d2 Create bind mount: d1 visible via d2 

# ls d2 Verify that we can see contents of d1 via d2 

x 

# touch d2/y Create second file in directory d2 

# ls d1 Verify that this change is visible via d1 


x y 


第 二 个 例子 会 在 为 一 处 绑 定 挂 载 文 件 ， 并 展示 了 在 一 处 挂 载 下 ， 可 
以 看 见 男 一 处 挂 载 下 对 文件 所 做 的 改变 。 


# cat > f1 Create file to be bound to another location 
Chance is always powerful. Let your hook be always cast. 

Type Control-D 

# touch f2 This is the new mount point 

# mount --bind f1 f2 Bind f1 as f2 

# mount | egrep '(d1|f1)' See how mount points look 


/testfs/d1 on /testfs/d2 type none (rw, bind) 
/testfs/f1 on /testfs/f2 type none (rw, bind) 


# cat >> f2 Change f2 
In the pool where you least expect it, will be a fish. 
# cat f1 The change is visible via original file f1 


Chance is always powerful. Let your hook be always cast. 
In the pool where you least expect it, will be a fish. 


# rm £2 Can't do this because it is a mount point 
rm: cannot unlink ~f2': Device or resource busy 

# umount £2 So unmount 

# rm f2 Now we can remove f2 


绑 定 挂 载 的 应 用 场景 之 一 是 创建 chroot 监 禁区 Cail) (参见 18.12 
T) 。 在 监禁 区 下 ， 无 需 将 各 种 标准 目录 《诸如 /lib) 复制 过 来 ， 为 这 
些 路 径 创建 绑 定 挂 载 〈 可 能 是 以 只 读 方式 ) 即 可 轻而易举 地 解决 问题 。 


14.9.5 PAA eH 


默认 情况 下 ， 如 果 使 用 MS_BIND 为 某 个 目录 创建 了 绑 定 挂 载 ， 那 
么 只 会 将 该 目录 挂 载 到 新 位 置 。 假 设 源 目录 下 还 存在 子 挂 载 
Csubmount) ， 则 不 会 将 这 些 子 挂 载 复制 到 挂 载 target 之 下 。Linux 
2.4.11 添 加 了 MS_REC 标 志 ， 若 与 MS_BIND 相 或 (COR) 并 作为 标志 参 
数 的 一 部 分 传 入 mount0， 则 会 将 子 挂 载 复制 到 挂 载 目 标 下 ， 此 之 谓 递 
归 绑 定 挂 载 。 采 用 mount(8) 命 令 所 提供 的 --rbind 选 项 ， 可 在 shell 中 完成 
相同 任务 ， 参 见 如 下 shell 会 话 。 


首先 创建 了 一 个 目录 树 (srcl)， 并 将 其 挂 载 在 top 之 下 。top 目 录 树 下 
(top/sub) ， 包 括 了 一 个 子 挂 载 (src2)。 





$ su 


Password: 

# mkdir top This is our toptevel mount point 

# mkdir srci We'll mount this under top 

# touch srci/aaa 

# mount --bind src1 top Create a normal bind mount 

# mkdir top/sub Create directory for a submount under top 
# mkdir src2 We'll mount this under top/sub 

# touch src2/bbb 

# mount --bind src2 top/sub Create a normal bind mount 

# find top Verify contents under top mount tree 
top 

top/aaa 

top/sub This is the submount 

top/sub/bbb 





现在 以 top 作 为 源 目 录 ， 另 行 创 建 绑 定 挂 载 (dir1t)。 由 于 属于 非 递 归 
操作 ， 新 挂 载 不 会 复制 子 挂 载 。 


# mkdir dir1 

# mount --bind top dir1 Here we use a normal bind mount 
# find dir1 

dir1 

dir1/aaa 

dir1/sub 


输出 中 并 未 发 现 dirl/sub/bbb， 这 表明 并 未 复制 子 挂 载 top/sub。 
再 以 top 作 为 源 目 录 来 创建 递归 绑 定 挂 载 。 


# mkdir dir2 

# mount --rbind top dir2 
# find dir2 

dir2 

dir2/aaa 

dir2/sub 

dir2/sub/bbb 


从 输出 中 可 以 发 现 dir2/sub/bbb， 这 表明 已 然 复 制 了 子 挂 载 top/sub。 








14.10 ”虚拟 内 存 文件 系统 : tmpfs 


到 目前 为 止 ， 本 章 已 论 及 的 所 有 文件 系统 均 驻 留 在 磁盘 之 上 。 然 
而 ，Linux 同 样 支持 驻 留 于 内 存 中 的 虚拟 文件 系统 。 对 应 用 程序 来 说 ， 
此 类 文件 系统 看 起 来 与 任何 其 他 文件 系统 另 j 
Copen0、read0、write0、1linkO0、mkdir0 等 ) 。 不 过 ， 二 者 之 间 还 是 存 
由 于 不 涉及 磁盘 访问 ， 虚拟 文件 系统 的 文件 操作 速度 
KERo 


在 Linux 上 ， 已 经 开发 出 了 林林总总 基于 内 存 的 文件 系统 。 迄 今 为 
止 ， 其 中 最 为 复杂 的 则 非 tmnpfs 文 件 系统 莫 属 ， 该 系统 在 Linux 2.4 中 首 度 
出 现 。 较 之 于 其 他 基于 内 存 的 文件 系统 ， 其 独特 之 处 在 于 它 属于 虚拟 内 
存 文件 系统 。 这 意味 着 ， 访 文件 系统 不 但 使 用 RAM， 而 且 在 RAM 耗 尽 
的 情况 下 ， 还 会 利用 交换 空间 。 “虽然 此 处 描述 的 tmnpfs 文 件 系统 为 
但 大 多 数 UNIX 实 现 都 提供 某 种 形式 的 基于 内 存 的 文件 系 
统 。) 


























tmpfs 文 件 系 统 是 一 个 Linux 内 核 的 可 选 组 件 ， 通 过 
CONFIG_TMPFS 选 项 加 以 配置 。 


要 创建 tnpfs 文 件 系统 ， 请 使 用 如 下 形式 的 命令 : 
# mount -t tmpfs source target 


其 中 *source” 可 以 是 任意 名 称 ， 其 唯一 的 意义 是 在 /procmounts 
中 “ 抛 头 露 面 ”， 并 通过 mount 和 df 全 命令 显示 出 来 。 与 往常 一 样 ，target 是 
该 文件 系统 的 挂 载 点 。 请 注意 ， 无 需 使 用 mkfs 预 先 创建 一 个 文件 系统 ， 
内 核 会 将 此 视 为 mount0 系 统 调用 的 一 部 分 自动 加 以 执行 。 


作为 使 用 tmpfs 的 例子 之 一 ， 可 采用 堆 合 挂 载 (无需 顾 忌 /tmp 目 录 目 
J 生 用 状态 ) ， 创 建 一 tmpfs 文 件 系统 并 将 其 挂 载 全 /mp， 如 下 


# mount -t tmpfs newtmp /tmp 
# cat /proc/mounts | grep tmp 
newtmp /tmp tmpfs rw 0 0 


有 了 时， 会 使 用 如 上 上 命令 《或 /etc/fstab 中 的 等 价 条 目 ) 来 改善 应 用 程 
Æ Cbin, gimik) 的 性 能 ， 此 类 应 用 程序 因 创建 临 时 性 文件 而 频繁 使 
用 /tmp 目 录 。 


默认 情况 下 ， 人 允许 将 tmpfs 文 件 系统 的 大 小 提高 至 RAM 容 量 的 一 
半 ， 但 在 创建 文件 系统 或 之 后 重新 挂 载 时 ， 可 使 用 mount 的 size=nbytes 
选项 为 该 文件 系统 的 大 小 设置 不 同 的 上 限 值 。 erento 
据 其 当前 所 持 有 的 文件 来 消耗 内 存 和 交换 空间 。 


一 旦 人 番 载 tmpfs 文 件 系统 ， 或 者 遭遇 系统 朋 涡 ， 那 么 该 文件 系统 中 
的 所 有 数据 都 将 丢失 , “tmpfs” 正 是 得 名 于 此 。 


除了 用 于 用 户 应 用 程序 以 外 ，tmpfs 文 件 系统 还 有 以 下 两 个 特殊 用 


。 由 内 核 内 部 挂 载 的 隐形 tmpfs 文 件 系统 ， 用 于 实现 System V 共 享 内 存 
(第 48 章 ) 和 共享 匿名 内 存 映 射 (第 49 章 ) 。 

e 挂 载 于 /dev/shm 的 tmpfs 文 件 系 统 ， 为 glibc 用 以 实现 POSIX 共 享 内 存 
和 POSIX 信 和 号 量 。 








14.11 获得 与 文件 系统 有 关 的 信息 : statvfs() 
statvfs0 和 fstatvfs0 库 函数 能 够 获得 与 已 挂 载 文 件 系统 有 关 的 信息 。 





ftinclude <sys/statvfs.h> 


int statvfs(const char *pathname, struct statvfs *slalufsbuf) ; 
int fstatvfs(int fd, struct statvts *statufsbuf) ; 


Both return 0 on success, or -1 on error 











两 者 之 间 唯 一 的 区 别 在 于 其 标识 文件 系统 的 方式 。statvfs0 需 使 用 
pathname 来 指定 文件 系统 中 任 一 文件 的 名 称 。 而 fstatvfs() 则 需 使 用 打开 
文件 描述 符 fd， 来 指 代 文 件 系 统 中 的 任 一 文件 。 二 者 均 返 回 一 个 statvfs 
结构 ， 属 于 由 statvfsbuf 所 指向 的 缓冲 区 ， 其 中 包含 了 关乎 文件 系统 的 信 
恩 。statvfs 结 构 的 形式 如 下 : 


struct statvfs { 

unsigned long f_bsize; /* File-system block size (in bytes) */ 

unsigned long f frsize; /* Fundamental file-system block size 
(in bytes) */ 

fsblkcnt_t f blocks; /* Total number of blocks in file 
system (in units of 'f_frsize') */ 

fsblkcnt_t f_bfree; /* Total number of free blocks */ 

fsblkcnt_t f bavail; /* Number of free blocks available to 
unprivileged process */ 


fsfilcnt t f files; /* Total number of i-nodes */ 

fsfilcnt_t f ffree; /* Total number of free i-nodes */ 

fsfilcnt t f favail; /* Number of i-nodes available to unprivileged 
process (set to 'f ffree' on Linux) */ 

unsigned long f fsid; /* File-system ID */ 

unsigned long f flag; /* Mount flags */ 


unsigned long f namemax; /* Maximum length of filenames on 
this file system */ 
}; 


上 述 注释 已然 清晰 地 描述 出 statvfs 结 构 中 大 多 数字 段 的 用 途 。 对 其 
中 一 些 字 段 ， 这 里 还 要 深入 交代 几 句 。 


e fsblkcnt_t 和 和 fsfilcnt_t 数 据 类 型 是 由 SUSV3 所 定义 的 整 型 。 
。 对 绝 大 多 数 Linux 文 件 系 统 而 言 ，f_bsize 和 f_frsize 的 取 值 是 相同 
的 。 然 而 ， 某 些 文件 系统 支持 块 片 段 的 概念 ， 在 无 需 使 用 完整 数据 








块 的 情况 下 ， 可 在 文件 尾部 分 配 较 小 的 存储 单元 ， 从 而 避免 因 分 配 
完整 块 而 导致 的 空间 浪费 。 在 此 类 文件 系统 上 ，f_frsize 和 f_bsize 分 
别 为 块 片段 和 整个 块 的 大 小 。 据 [McKusick et al.，1984] 所 述 ， 
UNIX 文 件 系统 的 块 户 段 概念 首 现 于 20 世 纪 80 年 代 初 期 的 4.2BSD 快 
速 文件 系统 。 ) 

许多 原生 UNIX 和 Linux 文 件 系 统 ， 都 支持 为 超级 用 户 预 留 一 部 分 文 
件 系 统 块 ， 如 此 一 来 ， 即 便 在 文件 系统 空间 耗 尽 的 情况 下 ， 超 级 用 
户 仍 可 以 登录 系统 解决 故障 。 如 果 文 件 系 统 中 确 有 预 留 块 ， 那 么 
statvfs 结 构 中 f_bfree 和 f bavail 字 段 间 的 差 值 则 为 预 留 块 数 。 

f _ flag 字段 是 一 个 位 掩 码 标志 ， 用 于 挂 载 文件 系统 。 也 束 是 说 ， 该 
字段 所 包含 的 信息 类 似 于 传 入 mount(2) 的 mountflags 参 数 。 然 而 ， 

该 字段 所 使 用 的 标志 位 在 命名 时 均 冠 以 ST_， 这 不 同 于 mountflags 
中 冠 以 MS _ 的 命名 手法 。SUSv3 仅 规范 了 ST_RDONLY 和 
ST_NOSUID 常 量 ， 而 glibc 实 现 则 支持 与 MS_ 系 列 (参见 mount() 中 对 
mountflags 参 数 的 描述 ) 相 对 应 的 全 系列 常量 。 

某 些 UNIX 实 现 会 使 用 f_fsid 字 段 来 返回 文件 系统 的 唯一 标识 符 ， 比 
方 说 ， 根 据 文 件 系统 所 驻 留 设备 的 标识 符 来 取 值 。 对 大 多 数 UNIX 
实现 来 说 ， 该 字段 为 0。 











SUSvV3 规 范 了 statvfs() 和 fstatvfs()。 对 于 Linux (其 他 几 种 UNIX 实 现 
也 一 样 ，， 二 者 均 位 于 与 其 颇 为 相似 的 statfs() 和 fstatfs() 系 统 调用 之 上 。 
(有 些 UNIX 实 现 只 提供 statfs0 系 统 调 用 ， 而 不 提供 statvfsO0。) 以 下 列 
出 函数 与 系统 调用 间 的 主要 区 别 〈 除 去 字段 命名 差异 以 外 ) 。 


e statvfs() 和 fstatvfs() es ŽGK E f_flag 字段 ， 内 含 关 于 文件 系统 的 挂 
载 标志 信息 。 (glibc 实 现 通 过 扫 摘 /procmounts 或 /etcmtab 来 获取 上 
述 信息 。) 

e statfs() 和 fstatfs() 系 统 调用 返回 f_type 字 上 段 ， 内 含 文件 系统 类 型 ( 比 
如 ， 返 回 值 为 0xef53 则 表示 文件 系统 类 型 为 ext2) 。 





随 本 书 发 布 源码 的 filesys 子 目录 中 包含 了 t_statvfs.c 和 
t_statfs.c 文 件 ， 用 来 演示 对 statvfs() 和 statfs() 的 运用 。 


14.12 ”总结 


设备 都 由 /dev 下 的 文件 来 表示 。 每 个 设备 都 有 相应 的 设备 驱动 程 
序 ， 用 以 执行 一 套 标 准 的 操作 ， 与 之 对 应 的 系统 调用 包括 open()、 
read()、write() 和 close0。 设 备 既 可 以 是 实际 存在 的 ， 也 可 以 是 虚拟 的 ， 
这 分 别 表明 了 硬件 设备 的 存在 与 否 。 无 论 如 何 ， 内 核 都 会 提供 一 种 设备 
驱动 程序 ， 并 实现 与 真实 设备 相同 的 API。 


可 将 硬盘 划分 为 一 个 或 多 个 分 区 ， 每 个 分 区 都 可 包含 一 个 文件 系 
统 。 文 件 系 统 是 对 常规 文件 和 目录 的 组 织 集合 。Linux 实 现 的 文件 系统 
多 种 多 样 ， 其 中 包括 传统 的 ext2 文 件 系统 。ext2 文 件 系 统 在 概念 上 类 似 
于 早期 的 UNIX 文 件 系 统 ， 由 引导 块 、 超 级 块 、i 节 点 表 和 包含 文件 数据 
块 的 数据 区 域 组 成 。 每 个 文件 在 文件 系统 i 证 点 表 中 都 有 一 条 对 应 记 
录 ， 记 录 了 与 文件 相关 的 各 种 信息 ， 其 中 包括 文件 类 型 、 大 小 、 链 接 
数 、 所 有 权 、 权 限 、 时 间 戳 ， 以 及 指 回 文 件数 据 块 的 指针 。 


Linux 还 提供 了 知 干 日 志文 件 系统 ， 其 中 包括 Reiserfs、ext3、ext4、 
XFS、JFS 以 及 Btrfs。 在 实际 更 新 文件 之 前 ， 日 志文 件 系统 会 记录 元 数 
据 更 新 (还 可 有 选择 地 记录 数据 更 新 和 文件 系统 更 新 ) 。 这 也 意味 着 ， 
一 旦 系统 骨 尝 ， 系 统 可 以 重 放 (replay) 日 志文 件 ， 并 迅速 将 文件 系统 
恢复 到 一 致 状态 。 日 志文 件 系 统 的 最 大 优点 在 于 系统 骨 尝 后 ， 无 需 像 常 
规 UNIX 文 件 系统 那样 对 文件 系统 进行 漫长 的 一 致 性 检查 。 


Linux 系 统 上 的 所 有 文件 系统 部 被 挂 载 于 单 根 目录 树 之 下 ， 其 树 根 
为 目录 “/”。 目 录 树 中 挂 载 文件 系统 的 位 置 被 称 为 文件 系统 挂 载 把 。 


特权 级 进程 可 使 用 mountO 和 umountO 系 统 调用 来 挂 载 、 缀 载 文 件 系 
统 。 可 使 用 statvfs() 来 获取 与 已 挂 载 文 件 系 统 有 关 的 信息 。 


进 阶 阅读 

与 设备 和 设备 驱动 程序 有 关 的 详细 信息 请 参阅 [Bovet & Cesati, 
2005] 和 [Corbet et al.，2005]， 尤 其 是 后 者 。 内 核 源 码 文件 
Documentation/devices.txt 中 ， 也 能 找到 一 些 与 设备 相关 的 有 用 信息 。 


以 下 几 本 著作 都 提供 了 关于 文件 系统 的 深度 信息 。[Tanenbaum， 

















2007] 对 文件 系统 的 结构 和 实现 做 了 一 般 性 介绍 。[Bach，1986] 介 绍 了 
UNIX 文 件 系 统 的 实现 ， 主 要 针对 System V。[Vahalia，1996] 和 
[Goodheart & Cox，1994] 也 摘 述 了 System V 文 件 系统 。[Love，2010] 和 
[Bovet & Cesati，2005] 则 讨论 了 Linux VFS 的 实现 。 


在 内 核 源 码 子 日 录 Documentation/filesystems 下 ， 可 以 找到 关于 各 种 
文件 系统 的 文档 。 针 对 Linux 所 文 持 的 大 多 数 文 件 系统 实现 ， 不 少 WEB 
站 点 也 有 论述 。 


14.13 练习 


14-1. 编写 一 程序 ， 试 对 在 单 目 录 下 创建 和 删除 大 量 1 字 节 文 件 所 
需 的 时 间 进 行 度量 。 该 程序 应 以 xNNNNNN 命 名 格式 来 创建 文件 ， 其 中 
NNNNNN 为 随机 的 6 位 数字 。 文 件 的 创建 顺序 与 生成 文件 名 相同 ， 为 随 
机 方式 ， 删 除 文 件 则 按 数 字 升 序 操作 (删除 与 创建 的 顺序 不 同 ) 。 文 件 
的 数量 (FN〉 和 文件 所 在 目录 应 由 命令 行 指定 。 针 对 不 同 的 NF 值 〈 比 
如 ， 在 1000 和 20000 之 间 取 值 〉 和 不 同 的 文件 系统 (比如 ext2、ext3 和 
XFS) 来 测量 时 间 。 随 着 NF 的 递增 ， 每 个 文件 系统 下 耗 时 的 变化 模式 如 
何 ? 不 同文 件 系 统 之 间 ， 人 情况 又 是 如 何 呢 ?” 如 果 按 数字 升序 来 创建 文件 
(x000001、x000001、x0000002 等 ) ， 然 后 以 相同 顺序 加 以 删除 ， 结 果 
ee 
同 而 改变 吗 ? 








OFRE: 因为 是 原子 操作 。 
@ 译 者 注 : 即 上 次 更 新 的 时 间 。 


第 15 章 ”文件 属性 


本 章 将 探讨 文件 的 各 种 属性 《文件 元 数据 ) 。 首 先 介绍 的 是 系统 调 
用 stat0， 可 利用 其 返回 一 个 包含 多 种 文件 属性 〈 包 括 文件 时 间 戳 、 文 
件 所 有 权 以 及 文件 权限 〉 的 结构 。 然 后 ， 将 描述 用 来 改变 文件 属性 的 各 
种 系统 调用 。 (对 文件 权限 的 探讨 会 在 第 17 章 继续 进行 ， 讲 述 访问 控制 
列表 。) 本 章 将 在 结尾 处 讨论 i 节点 标志 (也 称 为 ext2 扩 展 文件 属性 )〉， 
可 利用 其 控制 内 核对 文件 处 理 的 方方面面 。 





15.1 获取 文件 信息 : stat() 


利用 系统 调用 stat()、1statO 〇 以 及 fstat()， 可 获取 与 文件 有 关 的 信息 ， 
其 中 大 部 分 提取 自 文 件 ij 节点。 














#include <sys/stat.h> 


int stat(const char *pathname, struct stat *statbuf) ; 
int Istat(const char *pathname, struct stat *statbuf); 
int fstat(int fd, struct stat *stathuf); 


All return 0 on success, or -1 on error 








P 


以 上 3 个 系统 调用 之 间 仅 有 的 区 别 在 于 对 文件 的 描述 方式 不 同 。 





stat() 会 返回 所 命名 文件 的 相关 信息 。 
lstat() 与 stat() 类 似 ， 区 别 在 于 如 果 文 件 属 于 符 写 链接 ， 那 么 所 返回 


的 信息 针对 的 是 符号 链接 目 身 《而 非 符 号 链接 所 指 同 的 文件 ) 。 


fstatO 则 会 返回 由 某 个 打开 文件 描述 符 所 指 代 文 件 的 相关 信息 。 











系统 调用 stat0 和 lstat0 无 需 对 其 所 操作 的 文件 本 身 拥有 任何 权限 ， 
但 针对 指定 pathname 的 父 目 录 要 有 执行 (搜索 ) 权限 。 而 只 要 供 之 以 有 
效 的 文件 描述 符 ，fstat0 系 统 调用 总 是 成 功 。 


上 述 所 有 系统 调用 都 会 在 缓冲 区 中 返回 一 个 由 statbuf 指 同 的 stat 结 
构 ， 其 格式 如 下 : 


struct stat { 


dev t 
ino t 
mode t 
nlink t 
uid t 
gid t 
dev t 
off_t 
blksize_t 
blkcnt t 
time t 
time t 
time t 


st dev; 

st ino; 

st mode; 
st nlink; 
st uid; 

st gid; 

st rdev; 
st_size; 
st_blksize; 
st_blocks; 
st_atime; 
st_mtime; 
st_ctime; 


/* IDs of device on which file resides */ 
/* I-node number of file */ 

/* File type and permissions */ 

/* Number of (hard) links to file */ 

/* User ID of file owner */ 

/* Group ID of file owner */ 

/* IDs for device special files */ 

/* Total file size (bytes) */ 

/* Optimal block size for I/0 (bytes) */ 
/* Number of (512B) blocks allocated */ 
/* Time of last file access */ 

/* Time of last file modification */ 

/* Time of last status change */ 


在 SUSv3 中 ， 明 确定 义 了 供 stat 结 构 各 字段 使 用 的 不 同 数据 类 型 。 
更 多 与 这 些 数 据 类 型 有 关 的 信息 ， 请 参考 3.6.2 节 。 








根据 SUSv3， 将 lstat0 应 用 于 符号 链接 时 ， 只 需 在 
st_size 字段 和 描述 文件 类 型 的 smode 字 段 〈 稍 后 介绍 ) 返 
回 有 效 信 息 ， 并 不 要 求 所 返回 的 其 他 字段 〈 比 如 ，time 字 
B) 信息 有 效 。 如 此 一 来 ， 出 于 效率 的 原因 ， 系 统 实现 可 
选择 不 维护 此 类 字段 。 说 透彻 一 点 ， 早 期 UNIX 标 准 的 意图 
在 于 把 符号 链接 要 么 实现 为 i 节 点 ， 要 么 实现 为 目录 中 的 一 
条 记录 。 如 果 是 后 一 种 实现 方式 ， 在 实现 中 顾及 stat 结 构 的 
所 有 字段 是 不 现实 的 。《〈 在 所 有 当代 主流 的 UNIX 实 现 中 ， 
符号 链接 都 是 以 i 节点 的 方式 来 实现 的 。) 在 Linux 上 ， 将 
lstat(0) 应 用 于 符号 链接 时 ， 会 返回 所 有 stat 字 上 段 的 信息 。 








接 下 来 ， 会 对 stat 结 构 的 东 些 字段 做 重点 介绍 。 最 后 ， 还 会 给 出 展 
示 完 整 stat 络 构 的 程序 示例 。 


设备 ID 和 ii 节点 号 

st_dev 字 上 段 标识 文件 所 驻 留 的 设备 。st_ino 字 段 则 包含 了 文件 的 i 市 
点 写 。 利 用 以 上 两 者 ， 可 在 所 有 文件 系统 中 唯一 标识 某 个 文件 。dev_t 
类 型 记录 了 设备 的 主 、 辅 ID 〈 见 14.1 节 ) 。 


如 果 是 针对 设备 的 i 节 点 ， 那 么 st_rdev 字 段 则 包含 设备 的 主 、 辅 
ID. 


利用 宏 major() 和 minor()， 可 提取 dev_t 值 的 主 、 辅 DD。 获 取 对 两 个 
宏 声 明 的 头 文 件 则 随 UNIX 实 现 而 各 异 。 在 Linux 系 统 上 ， 哲 定义 了 
_BSD_SOURCE 宏 ， 则 两 个 宏 定义 于 <sys/types.h> 中 。 


由 majorO0 和 minorO 所 返回 的 整形 值 大 小 也 随 UNIX 实 现 的 不 同 而 各 


不 相同 。 为 保证 可 移植 性 ， 打 印 时 应 总 是 将 返回 值 强制 转换 为 long (IL 
3.627) v 


文件 所 有 权 


sLuid 和 st_gid 字 段 分 别 标识 文件 的 属 主 《“ 用 户 ID) 和 属 组 〈 组 
ID): 


链接 数 


st_nlink 字 段 包 含 了 指向 文件 的 〈 硬 ) 链接 数 。 本 书 第 18 章 将 详细 
介绍 链接 。 


文件 类 型 及 权限 


st_mode 字 上段 内 含有 位 掩 码 ， 起 标识 文件 类 型 和 指定 文件 权限 的 双 
重 作用 。 图 15-1 押 示 为 该 字段 所 合 各 位 的 布局 情况 。 


< 文件 类型 一 








权限 





图 15-1: st_mode 位 撼 码 的 布局 


与 常量 S_IFMT 相 与 (&&) ， 可 从 该 字段 中 析 取 文件 类 型 。 Linux 
使 用 了 st_mode 字 段 中 的 4 位 来 标识 文件 类 型 位 。 但 由 于 SUSv3 并 未 对 文 
件 类 型 位 的 表示 方式 做 出 任何 规定 ， 故 而 其 具体 细节 随 各 实现 而 异 。) 
将 计算 结果 与 一 系列 常量 进行 比较 ， 即 可 确定 文件 类 型 ， 如 下 所 示 : 


if ((statbuf.st_mode & S IFMT) == S_IFREG) 
printf("regular file\n"); 


鉴于 上 述 操作 属于 常见 操作 ， 因 此 可 利用 标准 宏 将 其 简化 为 : 


if (S ISREG(statbuf.st mode)) 
printf("regular file\n"); 





表 15-1 所 列 为 全 套 文件 类 型 宏 〈 定 义 于 <sys/stat.h>) 。 这 些 宏 均 由 
SUSv3 定 义 ， 并 为 Linux 所 支持 。 一 些 其 他 的 UNIX 实 现 还 定义 了 别 的 文 
件 类 型 (比如 ， 用 于 Solaris door files 的 S_ IFDOOR ) 。 因 为 调用 stat() 时 


会 循 符号 链接 而 直抵 实际 文件 ， 所 以 只 有 在 调用 lstat0 时 才 有 可 能 返回 
类 型 S ITFLNK。 


想 从 <sys/stat.h> 中 获得 S_ IFSOCK 和 S_ISSOCKO 的 定 
义 ， 必 须 定 义 _BSD_SOURCE 特 性 测试 宏 ， 或 是 将 
_XOPEN_SOURCE 定 义 为 不 小 于 500 的 值 。〈 具 体 规 则 随 
glibc 版 本 而 异 。 在 某 些 情况 下 ， 需 将 _XOPEN_SOURCE 的 
值 定义 为 不 小 于 600。) 





最 切 的 POSIX.1 标 准 并 未 定义 表 15-1 中 第 一 列 所 列 的 常量 ， 太 
中 的 大 部 分 已 为 多 数 UNIX 实 现 所 支持 。 而 SUSV3 则 把 这 些 常量 纳入 规 
范 。 














#215-1: 针对 stat 结 构 中 的 st_mode 来 检查 文件 类 型 的 宏 


文件 类 型 














S_IFLNK S_ISLNK() 符号 链接 


st_mode 字 段 的 低 12 位 定义 了 文件 权限 ， 会 在 15.4 节 介绍 。 目 前 ， 只 
和 属 组 以 及 其 他 用 户 的 读 、 
写 、 执 行 权 限 。 


文件 大 小 、 已 分 配 块 以 及 最 优 IO 块 大 小 


对 于 第 规 文 件 ，st_size 字 段 表 示 文 件 的 字 节 数 。 对 于 符号 链接 ， 则 
表示 链接 所 指 路 径 名 的 长 度 ， 以 字 节 为 单位 。 对 于 共享 内 存 对 象 〈《 见 第 
54 革 ) ， 该 字段 则 表示 对 象 的 大 小 。 


st_blocks 字 段 表 示 分 配给 文件 的 总 块 数 ， 块 大 小 为 512 字 节 ， 其 中 
包括 了 为 指针 块 所 分 配 的 空间 〈 人 参见 图 14-2) 。 之 所 以 选择 512 字 节 大 
小 的 块 作为 度量 单位 ， 有 其 历史 原因 一 一 对 于 UNIX 所 实现 的 任何 文件 
系统 而 言 ， 最 小 的 块 大 小 即 为 512 字 节 。 更 为 现代 的 UNIX 文 件 系统 则 使 
用 更 大 尺寸 的 逻辑 块 。 例 如 ， 对 于 ext2 文 件 系统 ， 取 决 于 其 逻辑 块 大 小 
为 1024、2048 还 是 4096 字 节 ，st_blocks 的 取 值 将 总 是 2、4、8 的 倍数 。 

















SUSv3 并 未 定义 度量 st_blocks 时 所 使 用 的 单位 ， 故 而 
UNIX 实 现 可 以 不 使 用 512 字 节 作 为 其 单位 。 大 多 数 UNIX 实 
现 使 用 512 字 节 作 为 st_blocks 字 段 的 单位 ， 但 HP-UX 11 所 使 
用 的 单位 则 视 文 件 系统 而 定 〈 有 时 为 1024 字 节 ) 。 





st_blocks 字 段 记 录 了 实际 分 配给 文件 的 磁盘 块 数量 。 如 果 文 件 内 合 
空洞 〈 见 4.7 节 ) ， 该 值 将 小 于 从 相应 文件 字 节 数字 段 〈st_size) 的 值 。 
《执行 显示 磁盘 使 用 情况 的 du -k file 命 令 ， 便 可 获悉 分 配给 文件 的 实际 
空间 ， 单位 为 KB。 亦 即 ， 得 自 对 文件 st_blocks 值 ， 而 非 st_size 值 的 计算 
结果 。) 


st_blksize 字 上 段 的 命名 多 少 有 些 令 人 费解 。 其 所 指 并 非 后 层 文件 系统 








的 块 大 小 ， 而 是 针对 文件 系统 上 文件 进行 WO 操作 时 的 最 优 块 大 小 (以 
字 节 为 单位 ) 。 若 IO 所 采用 的 块 大 小 小 于 该 值 ， 则 被 视 为 低 效 〈 人 参阅 
13.1 节 ) 。 一 般 而 言 ，st_blksize 的 返回 值 为 4096。 


文件 时 间 戳 


st_atime、st_mtime 和 st_ctime 字 段 ， 分 别 记 录 了 对 文件 的 上 次 访问 
时 间 、 上 次 修改 时 间 ， 以 及 文件 状态 发 生 改变 的 上 次 时 间 。 这 3 个 字段 
的 类 型 均 属 time_t， 是 标准 的 UNIX 时 间 格 式 ， 记 录 了 自 Epoch 以 来 的 秒 
数 。15.2 节 对 此 有 深入 描述 。 


程序 示例 


程序 清单 15-1 所 列 程序 使 用 stat(0) 去 获取 文件 (文件 名 由 该 程序 的 
命令 行 提供 ) 的 相关 信息 。 知 以 -1 选项 执行 命令 ， 程 序 会 改 用 lstat()， 
以 获取 与 符号 链接 (而 非 该 链接 所 指 代 的 文件 ) 有 关 的 信息 。 该 程序 会 
将 返回 stat 结 构 的 所 有 字段 一 一 打印 出 来 。〈 人 至 于 程序 中 将 st_size 和 
st_blocks 字 上 段 强制 转换 为 long long 类 型 的 原因 ， 请 参考 5.10 节 。) 该 程 
序 所 调用 的 filePermSstrO 函 数 源码 见 之 于 程序 清单 15-4。 


以 下 为 对 该 程序 的 执行 情况 。 


$ echo ‘All operating systems provide services for programs they run’ > apue 
$ chmod g+s apue Turn on set-group-ID bit; affects last status change time 

$ cat apue Affects last file access time 

All operating systems provide services for programs they run 

$ ./t_stat apue 











File type: regular file 

Device containing i-node: major=3 minor=11 

I-node number: 234363 

Mode: 102644 (rw-r--r--) 
special bits set: set-GID 

Number of (hard) links: 1 

Ownership: UID=1000 GID=100 

File size: 61 bytes 


Optimal 1/0 block size: 4096 bytes 
512B blocks allocated: 8 


Last file access: Mon Jun 8 09:40:07 2011 
Last file modification: Mon Jun 8 09:39:25 2011 
Last status change: Mon Jun 8 09:39:51 2011 





程序 清单 15-1: 获取 并 解释 文件 的 stat 信 息 








#define _ 


#include 
#include 
#include 
#include 
#include 


files/t_stat.c 


BSD SOURCE /* Get major() and minor() from <sys/types.h> */ 


<sys/types.h> 
<sys/stat.h> 
<time.h> 

"file perms.h" 
"tlpi hdr.h" 


static void 
displayStatInfo(const struct stat *sb) 


printf("File type: ")3 


switch (sb->st_mode & S_IFMT) { 


case 
case 


S IFREG: printf("regular file\n"); 
S IFDIR: printf("directory\n"); 


case S IFCHR: printf("character device\n"); 
case S IFBLK: printf("block device\n"); 

case S IFLNK: printf("symbolic (soft) link\n"); 
case 9 IFIFO: printf("FIFO or pipe\n"); 

case S_IFSOCK: printf("socket\n"); 

default: printf("unknown file type?\n"); 

} 


printf("Device containing i-node: major=%ld 


printf("I-node number: 


break; 
break; 
break; 
break; 
break; 
break; 
break; 
break; 


minor=%ld\n", 


(long) major(sb->st_dev), (long) minor(sb->st_dev)); 


printf ("Mode: %lo (%s)\n", 
(unsigned long) sb->st_mode, filePermStr(sb->st_mode, 0)); 


if (sb->st mode & (S ISUID | 5 ISGID | S ISVTX)) 
printf(" special bits set: %s%s%s\n", 


printf("Number of (hard) links: 


{sb->st mode & S$ ISUID) ? "set-UID " : 
(sb->st_mode & S ISGID) ? "set-GID " : 
: ys 


%ld\n", (long) sb->st_nlink); 


(sb->st mode & S ISVTX) ? “sticky " 


%ld\n", (long) sb->st_ino); 


ua 
3 


printf("Ownership: UID=%1d GID=%1d\n", 


if (S _ISCHR(sb->st_mode) || S ISBLK(sb->st_mode)) 
printf("Device number (st_rdev): 


printf("File size: 
printf("Optimal I/0 block size: 
printf("512B blocks allocated: 


(long) sb->st_uid, (long) sb->st gid); 


major=41d; minor=4%1d\n", 


(long) major(sb->st_rdev), (long) minor(sb->st_rdev)); 


%lld bytes\n", (long long) sb->st_size); 
%ld bytes\n", (long) sb->st_blksize); 
%lld\n", (long long) sb->st_blocks); 


printf("Last file access: %s", ctime(&sb->st_atime)); 
printf("Last file modification: %s", ctime(&sb->st_mtime)); 
printf("Last status change: %s", ctime(&sb->st_ctime)); 


} 


Int 
main(int argc, char *argv[]) 


struct stat sb; 
Boolean statLink; /* True if "-1" specified (i.e., use Istat) */ 
int fname; /* Location of filename argument in argv[] */ 


statLink = (argc > 1) 8& strcmp{argv[1], "-1") == 0; 
/* Simple parsing for "-1" */ 
fname = statLink ? 2 : 1; 


if (fname >= argc || (argc > 1 && strcmp(argv[1], "--help") == 0)) 
usageErr(’ "%s [-1] file\n" 
-l = use Istat() instead of stat(}\n", argv[o]); 


if (statLink) { 
if (1stat(argv[ fname], &sb) == -1) 
errExit("1stat") ; 
} else { 
if (stat(argv[ fname], &sb) == -1) 
errExit("stat"); 
} 


displayStatInfo(&sb) ; 


exit(EXIT_SUCCESS) ; 


files/t_stat.c 


15.2 CHET EJER 


stat 结 构 的 st_atime、st_mtime 和 st_ctime 字 段 所 含 为 文件 时 间 惟 ， 分 
别 记录 了 对 文件 的 上 次 访问 时 间 、 上 次 修改 时 间 ， 以 及 文件 状态 ( 即 文 
件 i 节 点 内 信息 ) 上 次 发 生变 更 的 时 间 。 对 时 间 戳 的 记录 形式 为 和 目 1970 
年 1 月 1 日 〈 参 见 10.1 节 ) 以 来 所 历经 的 秒 数 。 


大 多 数 原生 Linux 和 UNIX 文 件 系统 都 支持 上 述 所 有 的 时 间 蕉 字段 ， 
但 某 些 非 UNIX 文 件 系 统 则 未 必 如 此 。 


表 15-2 总 结 了 本 书 所 述 各 种 系统 调用 及 库 函 数 所 改变 的 相应 时 间 戳 
字段 (有 时 则 是 指 父 目录 的 类 似 字 段 ，。 本 表 标 题 中 的 a、m 和 c 分 别 表 
示 st_atime、st_mtime 和 st_ctime 字 上 段 。 在 大 多 数 情况 下 ， 系统 调用 会 将 
相关 时 间 戳 置 为 当前 时 间 。 但 utimeO 及 类 似 调用 《将 在 15.2.1 和 15.2.2 节 
讨论 ) 则 不 在 此 列 ， 可 利用 这 些 系统 调用 显 式 将 对 文件 的 上 次 访问 时 间 
和 上 次 修改 时 间 设 定 为 任意 值 。 





表 15-2: 各 种 函数 对 文件 时 间 戳 的 影响 


件 或 Ap 
eo pipa 加 
a) ee bee 


cmod0 | | f| | Samoao 占 
howo || |e] | | [ihowa = 
eh 





仅 当 对 具有 MAP_SHARED 属 性 的 映射 进行 更 新 时 ， 
HE 会 st_mtime 和 st_ctime 


creat() 
creat) FER aii 
creat() 

















pipe() 


e0 [0 to eon) 


aa || | | | | | at TRE RE 条 目 ， 仅 当 读 取 目录 时 ， 才 会 更 


provean] | [| | [tenovaae0fenoveawOH 


同时 影响 文件 〈 更 名 前 后 ) 的 父 目 录 。SUSv3 并 未 
rename() 强制 要 求 改 变 文件 的 st_ctime， 只 是 顺带 指出 有 一 些 
Bee 是 照 此 办 理 的 


rman | 
ena FC ete 









































sean | | FL [| Se | 


e 设置 链接 〈 而 非 目标 文件 ) 的 时 间 改 


与 ftruncate() 相 同 ， 仪 当 文件 大 小 改变 时 ， 才 会 改变 
Ey Vi) ek 


与 remove(file) 相 同 。 若 之 前 的 链接 计数 大 于 1， 会 改 
变 文 件 的 st_ctime 


E utimes(). aaa futimens()、lutimes() 和 
ll sini 


wo FL [ero os | 


本 书 14.8.1 节 和 15.5 节 分 别 介绍 了 可 阻止 对 文件 上 次 访问 时 间 进 行 
更 新 的 mount(2) 选 项 串 ， 以 及 作用 于 单个 文件 的 标志 。4.3.1 节 中 介绍 的 
open() O_NOATIME 标 志 也 能 起 到 类 似 作 用 。 由 于 采用 此 标志 可 降低 对 
磁盘 的 操作 次 数 ， 提 升 某 些 应 用 的 文件 访问 性 能 ， 故 而 频 且 实用 价值 。 
































虽然 大 多 数 UNIX 系 统 都 不 会 记录 文件 的 创建 时 间 ， 但 
最 新 的 BSD 系 统 会 使 用 名 为 st_birthtime 的 stat 字 段 来 记录 这 
le 
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对 于 stat 结 构 所 含 的 3 个 时 间 惟 字段 ，Linux 从 2.6 版 本 将 其 精度 提升 


至 纳 秒 级 。 纳 秒 级 分 辨 率 将 提高 某 些 程序 的 精度 ， 因 为 此 类 程序 需要 根 
所 文件 时 间 惟 的 先后 顺序 来 作 决 定 〈 比 如 ，make(1)〉。 


SUSv3 并 未 强制 有 要求 stat 结 构 对 纳 秒 级 时 间 戳 的 文 持 ， 但 SUSv4 对 此 
则 有 明文 规定 。 


并 非 所 有 文件 系统 都 文 持 纳 秒 级 精度 的 时 间 惟 。JFS、XFS、ext4， 
以 及 Btrfs 文 件 系统 都 支持 ， 但 ext2、ext3 以 及 Reiserfs 文 件 系 统 则 不 然 。 


glibcAPI《〈 目 版 本 2.3 起 ) 将 每 个 时 间 惟 字段 都 定义 为 timespec 结 构 
(本 节 稍 后 在 介绍 utimensat() 时 将 会 讲解 该 结构 )， 此 结构 是 以 秒 和 纳 
秒 为 单位 来 表示 时 间 的 一 种 组 件 。 使 用 恰当 的 宏 定义 ， 该 组件 的 秒 级 部 
分 可 见 诸 于 传统 字段 (st_atime、st_mtime， 以 及 st_ctime)〉 中 。 而 对 其 
纳 秒 级 部 分 的 访问 则 会 采用 如 下 手法 : 通过 诸如 st_atim.tv_nsec 之 类 的 
字段 名 来 获取 文件 上 次 访问 时 间 的 纳 秒 级 部 分 。 


15.2.1 “使 用 utimeO 和 utimes0 来 改变 文件 时 间 堆 
使 用 utime0 或 与 之 相关 的 系统 调用 集 之 一 ， 可 显 式 改变 存储 于 文件 


i 节 点 中 的 文件 上 次 访问 时 间 蕉 和 上 次 修改 时 间 截 。 解 压 文件 时 ，tar() 
和 unzip(1) 之 类 的 程序 会 使 用 这 些 系统 调用 去 重 置 文件 的 时 间 戳 。 








#include <utime.h> 


int utime(const char *pathname, const struct utimbuf *buf); 


Returns 0 on success, or -1 on error 











参数 pathname 用 来 标识 欲 修改 时 间 的 文件 。 若 该 参数 为 符号 链接 ， 
则 会 进一步 解除 引用 。 参 数 buf 既 可 为 NULL， 也 可 为 指向 utimbuf 结 构 的 
指针 。 
struct utimbuf { 
time_t actime; /* Access time */ 
time_t modtime; /* Modification time */ 
}; 
该 结构 中 的 字段 记录 了 自 Epoch ( 见 10.1 节 ) 以 来 的 秒 数 。 


utime0O 的 运作 方式 则 视 以 下 两 种 不 同情 况 而 定 。 








e 如 果 buf 为 NULL， 那 么 会 将 文件 的 上 次 访问 和 修改 时 间 同 时 置 为 当 
前 时 间 。 这 时 ， 进 程 要 么 具有 特权 级 别 (CAP_FOWNER 或 
CAP_DAC_OVERRIDE) ， 要 么 其 有 效用 户 ID 与 该 文件 的 用 户 
ID CEE) 相 匹 配 ， 且 对 文件 有 写 权 限 〈 逻 辑 上 ， 对 文件 拥有 写 权 
限 的 进程 在 调用 其 他 系统 调用 时 ， 可 能 会 于 无 意 间 改 变 这 些 时 间 
ek) 。 (准确 地 说 ， 如 9.5 市 所 述 ， 在 Linux 系 统 中 ， 用 来 与 文件 用 
户 ID 做 比 对 的 是 进程 的 文件 系统 用 户 ID， 而 非 其 有 效用 户 ID。) 

e 若 将 buf 指 定 为 指向 utimbuf 结 构 的 指针 ， 则 会 使 用 该 结构 的 相应 字 
段 去 更 新 文件 的 上 次 访问 和 修改 时 间 。 此 时 ， 要 么 调用 程序 具有 特 
MAH CCAP_FOWNER) ， 要 么 进程 的 有 效用 户 ID 必需 匹配 文件 
的 用 户 ID〈 仅 对 文件 拥有 写 权 限 是 不 够 的 ) 。 


为 更 改 文 件 时 间 戳 中 的 一 项 ， 可 以 先 利 用 stat0 来 获取 两 个 时 间 ， 并 
使 用 其 中 之 一 来 初始 化 utimbuf 结 构 ， 然 后 再 将 另 一 时 间 置 为 期 望 值 。 下 
列 代码 演示 了 这 一 操作 ， 将 文件 的 上 次 修改 时 间 改 为 与 上 次 访问 时 间 相 
同 。 


struct stat sb; 
struct utimbuf utb; 








if (stat(pathname, &sb) == -1) 
errExit("stat"); 
utb.actime = sb.st_atime; /* Leave access time unchanged */ 
utb.modtime = sb.st_atime; 
if (utime(pathname, &utb) == -1) 
errExit("utime"); 


只 要 调用 utime0 成 功 ， 总 会 将 文件 的 上 次 状态 更 改 时 间 置 为 当前 时 
间 。 


Linux 还 提供 了 源 于 BSD 的 utimes() 系 统 调用 ， 其 功用 类 似 于 


utime()。 








#include <sys/time.h> 


int utimes(const char *pathname, const struct timeval Ww/2)); 


Returns 0 on success, Or -1 on error 











utime() 与 utimes() 之 间 最 显著 的 差别 在 于 后 者 可 以 以 微 秒 级 精度 来 
中 定时 间 值 〈timeval 结 构 请 见 10.1 节 ) 。Linux 2.6 为 文件 时 间 惟 提供 了 


纳 秒 级 的 精度 文 持 ， 在 这 里 也 部 分 得 以 体现 。 新 的 文件 访问 时 间 在 tv[0] 
中 指定 ， 新 的 文件 修改 时 间 在 tv[1] 中 指定 。 


utimesO 的 使 用 例子 请 参考 随 本 书 一 同 发 行 的 源码 中 的 
filesMt_utimes.c 文 件 。 





futimes() 和 ]utimes() 库 函数 的 功能 与 utimes() 大 同 小 异 。 前 两 者 与 后 
者 之 间 的 差异 在 于 ， 用 来 指定 要 更 改 时 间 惟 文件 的 参数 不 同 。 





#include <sys/time.h> 


int futimes(int fd, const struct timeval tu/2/); 
int lutimes(const char *pathname, const struct timeval fv/2/); 








Both return 0 on success, or -1 on error 





调用 futimesO 时 ， 使 用 打开 文件 搬 述 符 fd 来 指定 文件 。 


调用 lutimes() 时 ， 使 用 路 径 名 来 指定 文件 ， 有 别 于 调用 utimes0) 的 
是 : 对 于 lutimes()， 车 路径 名 指 问 一 符号 链接 ， 则 调用 不 会 对 该 链接 进 
行 解 引用 ， 而 是 更 改 链接 自身 的 时 间 惟 。 


目 2.3 版 本 开始 支持 futimes( 〇 函数， 日 2.6 版 本 开始 文 持 lutimes() 








15.2.2 ”使 用 utimensat(0 和 futimens(0 改 变 文 件 时 间 玲 


utimensat() 系 统 调用 (内 核 自 2.6.22 版 本 开始 支持 ) 和 futimens() 库 
函数 〈8glibc 自 版 本 2.6 开 始 文 持 ) 为 设置 对 文件 的 上 次 访问 和 修改 时 间 
稚 提 供 了 扩展 功能 。 以 下 对 这 两 个 编程 接口 的 优点 列举 一 二 。 


。 可 按 纳 秒 级 精度 设置 时 间 稚 。 相 对 于 提供 微 秒 级 精度 的 utimes()， 
这 是 重大 改进 。 
。 可 独立 设置 条 一 时 间 稚 (一 次 只 设置 其 一 ) 。 如 前 所 述 ， 要 使 用 旧 











编程 接口 去 改变 时 间 惟 之 一 ， 需 要 首先 调用 stat(0 获 取 另 一 时 间 惟 
的 值 。 然 后 再 将 获取 值 与 打算 变更 的 时 间 惟 一同 指定 。〈 知 另 一 进 
程 在 这 两 步 之 间 执 行 了 更 新 时 间 惟 的 操作 ， 将 会 导致 竞争 状态 。) 

e 可 独立 将 任 一 时 间 惟 置 为 当前 时 间 。 要 使 用 旧 编 程 接口 将 一 个 时 间 
惟 改 为 当前 时 间 ， 需 要 调用 stat() 去 获取 那些 保持 不 变 的 时 间 惟 的 设 
置 情况 ， 并 调用 gettimeofday0O 以 获得 当前 时 间 。 


在 SUSv3 中 并 未 定义 以 上 两 个 接口 ， 但 SUSv4 将 其 纳入 规范 。 


utimensatO 系 统 调 用 会 把 由 pathname 指 定 文件 的 时 间 惟 更 新 为 由 数 
组 times 指 定 的 值 。 








#define XOPEN SOURCE 700 /* Or define POSIX C SOURCE >= 200809 */ 
#include <sys/stat.h> 


int utimensat(int dirfd, const char *pathname, 
const struct timespec times{2], int flags); 


Returns 0 on success, or -1 on error 











若 将 times 指 定 为 NULL， 则 会 将 以 上 两 个 文件 时 间 惟 都 更 新 为 当前 
时 间 。 若 times 值 为 非 NULL， 则 会 针对 指定 文件 在 times[0] 中 放置 新 的 上 
次 访问 时 间 ， 在 times[1] 中 放置 新 的 上 次 修改 时 间 。 数 组 times 所 含 的 每 
一 元 素 都 是 如 下 格式 的 一 个 结构 : 


struct timespec { 
time 七 tv sec; /* Seconds ('time_t' is an integer type) */ 
long tv_nsec; /* Nanoseconds */ 








}; 
结构 所 含 的 字段 分 别 指定 自 Epoch (10.1 节 ) 以 来 的 秒 数 和 纳 秒 数 。 


若 有 意 将 时 间 惟 之 一 置 为 当前 时 间 ， 则 可 将 相应 的 tv_nsec 字 段 指定 
为 特殊 值 UTIME_NOW。 知 希望 某 一 时 间 戳 保持 不 变 ， 则 需 把 相应 的 
tv_nsec 字 段 指 定 为 特殊 值 UTIME_OMIT。 无 论 是 上 述 哪 一 种 情况 ， 都 
将 忽略 相应 tv_sec 字 段 中 的 值 。 


可 以 将 dirfd 参 数 指定 为 AT_FDCWD， 此 时 对 pathname 参 数 的 解读 
与 utimes() 相 类 似 。 或 者 ， 也 可 以 将 其 指定 为 指 代 目录 的 文件 描述 符 ， 
18.11 市 将 描述 这 一 用 法 的 目的 所 在 。 


flags 参 数 可 以 为 0， 或 者 AT_SYMLINK_NOFOLLOW， 意 即 当 
pathname 为 符号 链接 时 ， 不 会 对 其 解 引 用 《也 就 是 说 ， 改 变 的 是 符号 链 
接 自 身 的 时 间 戳 ) 。 相 形 之 下 ，utimes0) 总 是 对 符号 链接 进行 解 引 用 。 

以 下 代码 卢 段 在 将 对 文件 的 上 次 访问 时 间 置 为 当前 时 间 的 同时 ， 上 
次 修改 时 间 则 保持 不 变 。 


struct timespec times[2]; 





times[0].tv_sec = 0; 

times[0].tv_nsec = UTIME NOW; 

times[1].tv_sec = 0; 

times[1].tv_nsec = UTIME OMIT; 

if (utimensat(AT FDCWD, "myfile", times, 0) == -1) 
errExit ("utimensat"); 


利用 utimensat0( 和 futimensO) 改 变 时 间 惟 时 所 遵循 的 权限 规则 与 旧 
有 API 函数 相 类 似 ，utimensat(2) 手 册页 对 此 有 详细 讨论 。 


使 用 futimens() 库 函数 可 更 新 打开 文件 摘 述 符 fd 所 指 代 文件 的 各 个 文 
AET TEJER o 











#include GNU SOURCE 
#include <sys/stat.h> 


int futimens(int fd, const struct timespec temes/2/); 


Returns 0 on success, or -1 on error 











其 中 ，times 参 数 的 使 用 方法 与 utimensat() 相 同 。 


15.3 ”文件 属 主 


每 个 文件 都 有 一 个 与 之 关联 的 用 户 ID (UID) 和 组 ID (GID) ， 籍 
此 可 以 判定 文件 的 属 主 和 属 组 。 


15.3.1 新 建文 件 的 属 主 


文件 创建 时 ， 其 用 户 ID“ 取 自 * 进 程 的 有 效用 户 ID。 而 新 建文 件 的 组 
ID 则 “ 取 自 ”进程 的 有 效 组 ID EF System V 系 统 的 默认 行为 ) ， 或 父 
目录 的 组 ID 〈BSD 系 统 的 行为 ) 。 当 为 项 目 创 建 目 录 时 ， 需 要 该 目录 下 
的 所 有 文件 隶属 于 某 一 特定 组 ， 并 且 可 为 该 组 所 有 成 员 所 访问 。 这 时 ， 
采用 后 一 种 行为 驶 非常 实用 。 新 建文 件 的 组 ID 在 这 两 者 间 如 何 取舍 是 由 
多 种 因素 决定 的 ， 新 文件 所 在 文件 系统 的 类 型 就 是 其 中 之 一 。 这 里 先 介 
绍 一 下 ext2 和 某 些 其 他 类 型 文件 系统 所 遵循 的 规则 。 











为 求 精确 ， 本 节 所 使 用 的 术语 有 效用 户 ID 或 组 ID， 实 
际 是 指 文件 系统 用 户 ID 或 组 ID 〈 见 9.5 节 ) 。 


装配 ext2 文 件 系统 时 ，mount 命 令 要 么 带 有 -o grmpid 的 选项 〈 或 等 效 
的 -o bsdgroups 选 项 ) ， 要 么 带 有 -o nogrpid 选项 (或 等 效 的 -o sysvgroups 
选项 )。 ( 若 两 者 均 未 指定 ，mount 命 令 的 默认 选项 为 -o nogrpid。) #48 
定 了 -o grpid 选 项 ， 那 么 新 建文 件 总 是 继承 其 父 目录 的 组 ID。 若 指定 了 -o 
nogrpid 选 项 ， 那 么 在 默认 情况 下 ， 新 建文 件 的 组 ID 则 “ 取 自 ”进程 的 有 效 
组 ID。 不 过 ， 如 果 已 将 目录 的 set-group-ID 位 置 位 (通过 chmod g+s 命 
念 )， 那 么 文件 的 组 ID 又 将 从 其 父 目 孙 处 继承 。 表 15-3 对 上 述 规则 做 了 


sO ZH o 





正如 18.6 节 所 述 ， 一 旦 将 茶 一 目录 的 set-group-ID 位 置 





位 后 ， 该 目录 下 所 有 子 目 录 的 set-group-ID 位 也 将 被 置 位 。 
如 此 一 来 ， 正 文中 所 描述 的 set-group-ID 行 为 会 遍布 整个 目 
录 树 。 





表 15-3: 确定 新 建文 件 组 所 有 权 的 规则 





























ae 有 无 设置 父 目录 的 Set | 新 建文 件 的 组 所 有 权 取 
文件 系统 装配 选项 group-ID 位 自 何 处 


—o grpid, —o bsdgroups 





(默认 ) 父 目 录 组 ID 


写作 本 书 之 际 ， 文 持 grpid 和 nogrpid 装 配 选 项 的 文件 系统 仅 限 于 
ext2、ext3、ext4 以 及 自 Linux 2.6.14 出 现 的 XFS。 其 他 类 型 的 文件 系统 则 
遵循 nogrpid 规 则 。 


15.3.2 ”改变 文件 属 主 : chown(). fchown()#llchown() 


系统 调用 chown()、lchown() 和 fchown0O 可 用 来 改变 文件 的 属 主 (用 
PID) 和 属 组 〈 组 ID) 。 





#include <unistd.h> 
int chown(const char *pathname, uid t owner, gid t group); 


Hdefine XOPEN SOURCE 500 /* Or: #define BSD SOURCE */ 
#include <unistd.h> 


int Ichown(const char *pathname, uid t owner, gid t group); 
int fchown(int fd, uid t owner, gid t group); 


All return 0 on success, or -1 on error 








以 上 3 个 系统 调用 之 间 的 区 别 类 似 于 statO 系 统 调用 一 族 。 


e chown() 改 变 由 pathname 参 数 命 名 文件 的 所 有 权 。 
e lchown0) 用 途 与 thown() 相 同 ， 不 同 之 处 在 于 奉 参 数 pathname 为 一 符 


号 链接 ， 则 将 会 改变 链接 文件 本 身 的 所 有 权 ， 而 与 该 链接 所 指 代 的 
文件 无 十 
Sere racer tees we SCPE TT FP SCART FF fed AT 


BE Bownerfllgroups HAC HAs EA PIDMAID. AA HK 
变 其 中 之 一 ， 只 需 将 另 一 参数 置 为 -1， 即 可 念 与 之 相关 的 ID 保持 不 变 。 








Linux2.2 之 前 ，chown() 不 对 符号 链接 进行 解 引用 。 从 
Linux 2.2 开 始 ，chown() 的 语义 发 生 了 变化 ， 并 且 添 加 了 新 
系统 调用 lchown()， 以 提供 老 系统 调用 chown0) 的 行为 。 


公有 特权 级 进程 (CAP_CHOWN) 才 能 使 用 chown0 改 变 文件 的 用 户 
ID。 非 特权 级 进程 可 使 用 chown0 将 自己 所 拥有 文件 的 组 ID 改 为 其 所 从 
属 的 任 一 属 组 的 ID， 前 提 是 进程 的 有 效用 户 ID 与 文件 的 用 户 ID 相 匹 配 。 
特权 级 进程 则 可 将 文件 的 组 ID 修改 为 任意 值 。 





当 超 级 用 户 改 变 可 执行 文件 的 属 主 和 属 组 时 ， 是 否 应 
当 屏 蔽 set-user-ID 和 set-group-ID 位 ? SUSv3 对 此 未 置 可 
Fo Linux 2.0 确 实 会 屏蔽 以 上 各 位 ， 但 某 些 2.2 版 本 〈 不 超 
过 2.2.12) 的 早期 内 核 则 不 然 。 其 后 的 2.2 内 核 又 回归 了 2.0 
内 核 的 行为 一 一 造成 变化 的 无 论 是 超级 用 户 还 是 其 他 用 
户 ， 系 统 在 处 理 时 都 将 一 视 同仁 。 但 奇 以 root 登 录 后 执行 
chown(1) 命 令 来 改变 文件 的 所 有 权 ， 则 chown 命 令 会 在 调用 
chown(2) 之 后 利用 系统 调用 chmod() 来 重新 激活 set-user-ID 
和 set-group-ID 位 。) 








如 果 文 件 组 的 属 主 或 属 组 发 生 了 改变 ， 那 么 set-user-ID 和 set-group- 
ID 权 限 位 也 会 随 之 关闭 。 这 一 安全 举措 是 为 了 防止 如 下 行为 : 普通 用 户 
若 能 打开 某 一 可 执行 文件 的 set-user-ID (EX set-group-ID) 位 ， 然 后 再 设 
法 令 其 为 某 些 特权 级 用 户 ( 或 组 ) 所 拥有 ， 就 能 在 执行 该 文件 时 获得 特 
NHF A- 


改变 文件 的 属 主 和 属 组 时 ， 如 果 已 然 屏 蔽 了 属 组 的 可 执行 权限 位 ， 
或 者 要 改变 的 是 目录 的 所 有 权时 ， 那 么 将 不 会 屏蔽 set-group-ID 权 限 位 。 
在 上 述 两 种 情况 下 ，set-group-ID 位 的 用 途 并 非 是 去 创建 一 个 启用 了 set- 
group-ID 的 程序 ， 因 此 将 该 位 屏蔽 并 不 可 取 。set-group-ID 的 其 他 用 途 如 
RATAN 


。 耕 屏蔽 了 属 组 的 可 执行 权限 位 ， 则 可 利用 set-group-ID 权 限 位 来 启用 
强制 文件 锁定 〈 请 参阅 55.4 节 ) 。 

。 当 作 用 于 目录 时 ， 可 利用 set-group-ID 位 来 控制 在 该 目录 下 创建 文件 
的 所 有 权 〈 见 15.3.1 节 ) 。 























程序 清单 15-2 演 示 了 chown() 的 用 法 ， 该 程序 允许 用 户 改 变 任意 数量 
文件 (由 命令 行 参数 指定 ) 的 属 主 和 属 组 。〈 该 程序 使 用 程序 清单 8-1 
中 的 userIdFromName() 和 groupIdFromName() 函 数 ， 将 用 户 名 和 组 名 转换 
为 相应 的 数字 ID。) 




















程序 清单 15-2: 改变 文件 的 属 主 和 属 


ANS 


H 





files/t_chown.c 


#include <pwd.h> 

#include <grp.h> 

#include “ugid functions.h" /* Declarations of userIdFromName()} 
and groupIdFromName() */ 

#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 
{ 

uid t uid; 

gid t gid; 

int j; 

Boolean errFnd; 


if (argc < 3 || strcmp(argv[1], "--help") == 0) 
usageErr({"%s owner group [file...]\n" 
i owner or group can be '-', " 
"meaning leave unchanged\n", argv[0]); 


if (strcmp(argv[1], "-") == 0) { /* "-" ==> don't change owner */ 
uid = -1; 
} else { /* Turn user name into UID */ 
uid = userIdFromName(argv[1]); 
if (uid == -1) 
fatal("No such user (%s)", argv[1]); 
} 


if (strcmp(argv[2], "-") == 0) { /* "_" ==> don't change group */ 
gid = -1; 
} else { /* Turn group name into GID */ 
gid = groupIdFromName(argv[2]); 
if (gid == -1) 
fatal("No group user (%s)", argv[1]); 
} 


/* Change ownership of all files named in remaining arguments */ 


errFnd = FALSE; 
for (j = 3; j < argc; j++) { 
if (chown(argv[j], uid, gid) == -1) { 
errMsg("chown: %s", argv[j]); 
errFnd = TRUE; 


} 


exit(errFnd ? EXIT_FAILURE : EXIT_SUCCESS); 


files/t_chown.c 


15.4 文件 权限 


本 而 将 介绍 应 用 于 文件 和 目录 的 权限 方案 。 尽 管 此 处 所 讨论 的 权限 
主要 是 针对 普通 文件 和 目录 ， 但 其 规则 可 适用 于 所 有 文件 类 型 ， 包 括 设 
备 文件 、FIFO 以 及 UNIX 域 套 接 字 等 。 此 外 ，System V 和 POSIX 进 程 间 
通信 对 象 〈 共 享 内 存 、 信 和 号 量 和 消息 队列 ) 也 具有 权限 掩 码 ， 而 适用 于 
此 类 对 象 的 权限 规则 也 与 文件 的 权限 规则 相 类 似 。 


15.4.1 普通 文件 的 权限 


如 15.1 节 所 述 ，stat 结 构 中 st mod 字 段 的 低 12 位 定义 了 文件 权限 。 其 
中 的 前 3 位 为 专用 位 ， 分 别 是 set-user-ID 位 、set-group-ID 位 和 sticky 位 
(在 图 15-1 中 分 别 被 标注 为 U、G、T 位 〉，， 将 在 15.4.5 节 中 详细 介绍 。 
其 余 9 位 则 构成 了 定义 权限 的 掩 码 ， 分 别 授予 访问 文件 的 各 类 用 户 。 文 
件 权 限 掩 人 码 分 为 3 类 。 


e Owner 〈 亦 称 为 user) : 授予 文件 属 主 的 权限 。 

















chmod(1) 之 类 的 命令 使 用 术语 user 的 缩写 u 来 指 代 该 类 
权限 。 





Group: 授予 文件 属 组 成 员 用 户 的 权限 。 
Other: 授予 其 他 用 户 的 权限 。 


可 为 每 一 类 用 户 授 予 的 权限 如 下 所 示 。 


Read: 可 阅读 文件 的 内 容 。 
Write: 可 更 改 文件 的 内 容 。 
Execute: 可 以 执行 文件 〈 亦 即 ， 文 件 是 程序 或 脚本 ) 。 要 执行 脚 
本 文件 〈 比 如 ， 一 个 bash 脚 本 ) ， 需 同时 具备 读 权 限 和 执行 权限 。 








执行 ls-]1 命 令 ， 可 查看 文件 的 权限 和 所 有 权 ， 如 下 所 示 : 


$ Is -1 myscript.sh 
-YWXY-X--- 1 mtk users 1667 Jan 15 09:22 myscript.sh 


在 以 上 输出 中 ， 将 文件 权限 显示 为 “rwxr-x---” (该 子 答 囊 起 如 处 的 
连接 写 “-” 表 明 该 文件 属于 普通 文件 ) 。 在 解释 该 字符 串 时 ， 需 将 其 
以 3 个 字符 为 一 组 ， 分 别 表示 读 、 写 、 可 执行 权限 具备 与 否 。 
一 组 字符 用 来 表示 文件 属 主 的 权限 ， 在 本 例 中 ， 则 是 读 、 写 、 执 行 权 
限 俱全 。 第 二 组 字符 用 来 表示 属 组 权限 ， 对 于 本 例 ， 组 内 用 户 具 有 读 和 
可 执行 权限 ， 但 不 具有 写 权 限 。 最 后 一 组 字符 用 来 表示 其 他 用 户 的 权 
限 ， 本 例 中 的 其 他 用 户 没 有 任何 权限 。 


头 文 件 <sys/stat.h> 定 义 了 可 与 stat 结 构 中 st_mode 相 与 (&) 的 常 
量 ， 用 于 检查 特定 权限 位 置 位 与 否 。 〈<fcntl.h> 为 open0 系 统 调用 提供 
TRH, 在 程序 中 包含 该 头 文 件 也 可 定义 这 些 常量 。) 表 15-4 列 出 了 这 





























表 15-4: 用 来 表示 文件 权限 位 的 常量 








User-read 
User-write 
User-execute 





ee eee 


etme 
etree 


除 表 15-4 所 列 常量 以 外 ， 还 分 别 将 各 类 ( 属 主 、 属 组 及 其 他 ) 权限 
措 码 定义 为 常量 : S_IRWXU (0700)、S_IRWXG (070) 和 S_IRWXO 
(07)。 


程序 清单 15-3 声 明 的 函数 科 ePermStr()， 会 针对 给 定 的 文件 权限 掩 码 
返回 一 个 静态 分 配 的 字符 串 ， 以 ls(1) 所 采用 的 风格 来 表示 该 掩 码 。 


程序 清单 15-3: file_perms.c 文 件 的 头 文件 














files/file_perms.h 


#ifndef FILE PERMS H 
#define FILE PERMS H 


#include <sys/types.h> 


#define FP_SPECIAL 1 /* Include set-user-ID, set-group-ID, and sticky 
bit information in returned string */ 


char *filePermStr(mode_t perm, int flags); 


#endif 
files/file_perms.h 


如 果 在 filePermStr() 的 flag 参 数 中 设置 了 FP_SPECIAL 标 志 ， 那 么 返 
回 的 字符 串 将 包括 set-user-ID、set-group-ID， 以 及 sticky 位 的 设置 信息 ， 
其 表现 形式 同样 会 沿袭 1s(1) 的 风格 。 


程序 清单 15-4 展 示 了 flePermStrO 函 数 的 实现 。 程 序 清单 15-1 中 的 程 


序 调用 了 该 函数 。 
程序 清单 15-4: 将 文件 权限 掩 码 转 换 为 字符 下 








files/file_perms.c 


#include <sys/stat.h> 
#include <stdio.h> 
#include "file_perms.h" /* Interface for this implementation */ 


#define STR_SIZE sizeof("rwxrwxrwx" 


char * /* Return 1s(1)-style string for file permissions mask */ 
filePermStr(mode_t perm, int flags) 
{ 


static char str[STR_SIZE]; 


snprintf(str, STR_SIZE, "%c%c%c%c%c%c%c%c%c", 
(perm & S IRUSR) ? 'r' : '-', (perm & S IWUSR) ? ‘w': ‘-", 
(perm & S_IXUSR) ? 
(((perm & S ISUID) && (flags & FP_SPECIAL)) ? 's' : 'x') : 
(((perm & S ISUID) && (flags & FP_SPECIAL)) ? 'S' : '-'), 
(perm & S IRGRP) ? 'r' : '-', (perm & S IWGRP) ? 'w' : '-', 
(perm & S_IXGRP) ? 
(((perm & S ISGID) && (flags & FP_SPECIAL)) ? 's' : 'x') : 
(((perm & S ISGID) && (flags & FP_SPECIAL)) ? 'S' : '-'), 
(perm & S IROTH) ? 'r' : '-', (perm & S IWOTH) ? 'w' : '-', 
(perm & S IXOTH) ? 
({{perm & S ISVTX) && (flags & FP SPECIAL)) ? 't' : 'x'): 
(((perm & S_ISVTX) && (flags & FP_SPECIAL)) ? 'T' : '-')); 


return str; 


files/file_perms.c 


15.4.2 ”目录 权限 


r 目录 与 文件 拥有 相同 的 权限 方案 ， 只 是 对 3 种 权限 的 含义 男 有 所 
日 o 


。 BAIR: 可 列 出 (比如 ， 通 过 ls 命令 ) 目录 之 下 的 内 容 〈 即 目录 下 
的 文件 名 ) 。 


在 实验 验证 对 目录 读 权限 位 的 操作 时 ， 应 当 了 解 有 些 


Linux 发 行 版 对 ls 做 了 别名 处理 ， 命 令 所 携带 的 一 些 选项 
《比如 ，-E) 需要 访问 目录 中 文件 的 i 节 点 信息 ， 而 这 又 需 
要 拥有 对 目录 的 执行 权限 。 为 确保 使 用 的 是 ls 命令 本 喘 ， 执 
行 时 要 给 出 命令 的 完整 路 径 名 C/bin/Is) 。 





e 写 权 限 : 可 在 目录 内 创建 、 删 除 文件 。 注 意 ， 要 删除 文件 ， 对 文件 
AS ATC a AB EAT SUB 

e 可 执行 权限 : 可 访问 目录 中 的 文件 。 因 此 ， 有 时 也 将 对 目录 的 执行 
权限 称 为 search 〈 搜 索 ) 权限 。 


访问 文件 时 ， 需 要 拥有 对 路 径 名 所 列 所 有 目录 的 执行 权限 。 例 如 ， 
想 读 取 文件 home/mtkx， 则 需 拥 有 对 目录 /、Ahome 以 及 /home/mtk 的 执 
行 权 限 〈 还 要 有 对 文件 x 上 自身 的 读 权 限 ) 。 知 当前 的 工作 目录 
为 home/mtk/sub1， 访 问 相 对 路 径 名 ../sub2/x 时 ， 需 握 有 /home/mtk 
i A ne ay nee ren E ee 
XIR) 。 


拥有 对 目录 的 读 权限 ， 用 户 只 是 能 查看 目录 中 的 文件 列表 。 要 想 访 
eit ees eee te 
行 权 限 。 


反之， 耕 拥 有 对 目录 的 可 执行 权限 ， 而 无 读 权限 ， 只 要 知道 目录 内 
文件 的 名 称 ， 仍 可 对 其 进行 访问 ， 但 不 能 列 出 目录 下 的 内 容 ( 即 目录 所 
含 的 其 他 文件 名 〉。 在 控制 对 公共 目录 内 容 的 访问 时 ， 这 是 一 种 常用 技 
术 ， 简单 而 且 实 用 。 


要 想 在 目录 中 添加 或 删除 文件 ， 需 要 同时 拥有 对 该 目录 的 执行 和 写 
又 限 。 
15.4.3 ”权限 检查 算法 


只 要 在 访问 文件 或 目录 的 系统 调用 中 指定 了 路 径 名 称 ， 内 核 就 会 检 
碍 相应 文件 的 权限 。 如 果 赋 予 系 统 调用 的 路 径 名 还 包含 目录 前 缀 时 ， 那 
么 内 核 除去 会 检查 对 文件 本 里 所 需 的 权限 以 外 ， 还 会 检查 前 级 所 含 每 个 


















































目录 的 可 执行 权限 。 内 核 会 使 用 进程 的 有 效用 户 ID、 有 效 组 ID 以 及 辅助 
组 ID， 来 执行 权限 检查 。 (准确 说 来 ，Linux 内 核 会 使 用 文件 系统 用 户 
ID 和 组 ID， 而 非 相 应 的 有 效用 户 ID 和 组 ID， 来 进行 文件 权限 检查 ， 这 
一 点 9.5 节 已 经 提 及 。 ) 


一 旦 调用 open0 打 开 了 文件 ， 针 对 返回 描述 符 的 后 续 系 
统 调用 《比如 ，read0、write0)、fstat0、fcntO0， 以 及 
mmap()) 将 不 再 进行 任何 权限 检查 。 








检查 文件 权限 时 ， 内 核 所 遵循 的 规则 如 下 。 
1. 对 于 特权 级 进程 ， 授 予 其 所 有 访问 权限 。 


2. ARENA SOR PID SIMA PID GRE) 相同 ， 内 核 会 根 
据 文 件 的 属 主 权限 ， 授 予 进程 相应 的 访问 权限 。 比 方 说 ， 奉 文件 权限 掩 
码 中 的 属 主 读 权 限 (owner-read permission) 位 被 置 位 ， 则 授予 进程 读 权 
限 。 人 否则 ， 则 拒绝 进程 对 文件 的 读 取 操作 。 


3. 知 进 程 的 有 效 组 ID 或 任 一 附属 组 ID 与 文件 的 组 ID 〈 属 组 ) 相 匹 
配 ， 内 核 会 根据 文件 的 属 组 权限 ， 授 予 进程 对 文件 的 相应 访问 权限 。 


4. 行 以 上 三 点 音 不 满足 ， 内 核 会 根据 文件 的 other( 其 他 ) 权 限 ， 授 
予 进程 相应 权限 。 








其 实 ， 内 核 代 码 在 实现 上 述 检查 规则 时 ， 在 构造 上 也 
颇具 匠心 。 只 有 当 进 程 通 过 其 他 测试 未 能 获得 所 需要 的 权 
限时 ， 才 去 检查 进程 是 否 属于 特权 级 进程 。 这 就 省 去 了 对 
ASU 进 程 记 账 标志 的 设置 ， 该 标志 用 于 标记 进程 是 人 否 曾 利 
用 过 超级 用 户 特权 《〈 见 28.1 节 ) 。 














内 核 会 依次 执行 针对 属 主 、 属 组 以 及 其 他 用 户 的 权限 检查 ， 只 要 匹 
配 上 述 检查 规则 之 一 ， 便 会 停止 检查 。 这 样 得 出 的 结果 可 能 会 在 意料 之 
外 ， 比 方 说 ， 知 组 权限 超过 了 属 主权 限 ， 那 么 文件 属 主 押 拥有 的 权限 要 
低 于 组 成 员 的 权限 ， 如 下 例 所 示 : 


$ echo “Hello world' > a.txt 





$ 1s -1 a.txt 

-IwW-I--I-- 1 mtk users 12 Jun 18 12:26 a.txt 

$ chmod u-rw a.txt Remove read and write permission from owner 
$ 1s -1 a.txt 

----I--I-- 1 mtk users 12 Jun 18 12:26 a.txt 

$ cat a.txt 

cat: a.txt: Permission denied Owner can no longer read file 

$ su avr Become someone else... 

Password: 

$ groups who is in the group owning the file... 
users staff teach cs 

$ cat a.txt and thus can read the file 


Hello world 


右 为 文件 的 其 他 用 户 分 配 的 权限 大 于 文件 属 主 或 属 组 ， 上 述 论 述 也 
同样 适用 。 


由 于 文件 的 权限 及 所 有 权 信 息 都 维护 于 文件 的 节点 之 内 ， 故 而 也 
为 指 问 同 一 i 节操 的 所 有 文件 名 (链接) 所 共有 至 。 


Linux2.6 支 持 访 问 控制 列表 ， 从 而 可 以 以 每 用 户 或 每 组 为 基础 来 定 
义 文 件 权 限 。 若 文件 与 一 ACL 挂 钩 ， 内 核 则 会 在 上 述 算 法 的 基础 上 略 作 
改动 。 本 书 第 17 章 将 会 介绍 ACL。 


检查 特权 级 别 进程 的 权限 


上 文 曾 提 及 ， 若 进程 为 特权 级 进程 ， 则 内 核 在 检查 权限 时 将 授予 进 
程 所 有 的 访问 权限 。 这 一 论述 成 立 ， 其 实 还 要 加 个 限制 条 件 。 对 于 非 目 
录 文件 ， 仅 当 该 文件 的 3 种 权限 类 型 〈 至 少 ) 之 一 具有 可 执行 权限 时 ， 
Linux 才 会 将 该 权限 赋予 一 特权 级 进程 。 而 在 其 他 一 些 UNIX 的 实行 中 ， 
即使 文件 的 任何 权限 类 型 都 不 具有 可 执行 权限 ， 特 权 级 进程 还 是 能 执行 
该 文件 。 而 当 访问 目录 时 ， 特 权 级 进程 总 是 拥有 可 执行 (搜索 权限。 























就 两 种 Linux 进 程 能 力 : CAP_DAC_READ_SEARCH 和 
CAP_DAC_OVERRIDE (参见 39.2 节 ) 而 言 ， 有 必要 修改 
之 前 对 特权 级 进程 的 描述 。 有 具备 
CAP DAC_READ_SEARCH 能 力 的 进程 对 任何 类 型 的 文件 
都 拥有 读 权 限 ， 对 于 目录 则 总 是 具有 可 执行 和 写 权 限 〈( 即 
总 能 访问 目录 中 的 文件 ， 并 能 读 取 目 录 中 的 文件 列表 ) 。 
具备 CAP_DAC_OVERRIDE 能 力 的 进程 对 任何 类 型 的 文件 
都 拥有 读 、 写 权限 ， 对 于 目录 或 是 文件 在 权限 分 类 中 的 至 
少 一 类 具有 可 执行 权限 的 情况 下 ， 则 该 进程 对 其 还 拥有 可 
执行 权限 。 





























15.4.4 检查 对 文件 的 访问 权限 : access() 


如 上 节 所 述 ， 当 进程 访问 文件 时 ， 系 统 会 以 其 effective( 有 效 ) 用 户 
ID、effective( 有 效 ) 组 ID 以 及 附属 组 ID 来 确定 权限 。 当 然 ， 对 于 程序 
(比如 ，set-user-ID 或 set-group-ID 程 序 ) 来 说 ， 根 据 进程 的 real〈 真 
实 ) 用 户 ID 和 组 ID 来 检查 对 文件 的 访问 权限 ， 也 并 非 没 有 可 能 。 


系统 调用 access() 束 是 根据 进程 的 真实 用 户 ID 和 组 ID 〈 以 及 附属 组 
ID) ， 去 检查 对 pathname 参 数 所 指定 文件 的 访问 权限 。 








ftinclude <unistd.h> 


int access(const char *pathname, int mode); 








Returns 0 if all permissions are granted, otherwise -1 





若 pathname 为 符号 链接 ，access() 将 对 其 解 引 用 。 


参数 mode 是 由 表 15-5 中 常量 相 或 〈|) 而 成 的 位 掩 码 。 辱 由 pathname 
所 指定 的 文件 具备 mode 参 数 包含 的 所 有 权限 ，access() 将 返回 0; 只 要 有 
一 项 权限 未 得 到 满足 〈 或 者 有 错误 发 生 ) ，access0 则 返回 -1。 





表 15-5: access() 的 mode 常 量 


R 














对 该 文件 有 写 权限 吗 


对 该 文件 有 执行 权限 吗 








由 于 对 某 一 文件 调用 access0 与 对 同一 文件 的 后 续 操 作 之 间 存 在 时 
间 差 ， 因 此 《不 论 间隔 多 么 短暂 ) 执行 后 名 起 操作 时 ， 也 无 法 保证 在 对 文 
EEN Ja seg EEE aoe OE 已 依 然 正 确 。 在 某 些 应 用 程序 设 
计 中 ， 上 述 情 形 可 能 会 导致 安全 漏洞 。 


比方 说 ， 假 设 有 一 setruser-ID-root 程 序 ， 使 用 access(0) 来 检查 程序 的 
真实 用 户 id 是 否 可 以 访问 某 文件 ， 如 果 可 以 访问 ， 就 对 其 执行 (open() 
或 exec() 之 类 的 ) 操 作 。 


问题 是 ， 寿 输入 access0 的 路 径 名 为 人 符号 链接 ， 而 恶意 用 户 可 抢 在 
第 二 步 检 查 之 前 设法 更 改 该 链接 ， 使 其 指向 男 一 文件 ， 则 最 终 会 导致 
set-user-ID-root 去 操作 真实 用 户 ID 并 无 权限 的 文件 。( 这 也 是 对 38.6 节 所 
述 检查 时 间 与 调用 时 间 之 间 竞 争 条 件 的 例证 。) 正 因 如 此 ， 建 议 杜 绝 使 
用 access0( 参 见 [Borisov，2005])。 对 于 前 文 所 举 示 例 ， 可 以 暂时 更 改 set- 
user-ID 进 程 的 有 效 〈 或 文件 系统 ) 用 尸 ID 来 实施 o 
的 ) HRE, FREE eE Merno RARA, BERE 
归咎 于 权限 问题 。 








GNU C 库 提供 了 一 个 功能 相似 的 非 标准 函数 
euidaccess() 〈 及 其 同 义 函 数 eaccess0) ， 该 函数 使 用 进程 的 





有 效用 户 ID 来 检查 对 文件 的 访问 权限 。 


15.4.5 ”Set-User-ID 、Set-Group-ID 和 Sticky 位 


除了 9 位 用 来 表明 属 主 、 属 组 和 其 他 用 户 的 权限 之 外 ， 文 件 权 限 掩 
人 码 还 男 设 有 3 个 附加 位 ， 分 别 为 set-user-ID (bit 04000), set-group-ID (bit 
02000) 和 sticky (bit 01000) 位 。9.3 节 讨论 了 创建 特权 级 程序 时 对 setruser- 
ID 和 set-group-ID 权 限 位 的 使 用 。set-group-ID 位 还 有 两 种 其 他 用 途 : 对 
于 在 以 nogrpid 选 项 装配 的 目录 下 所 新 建 的 文件 ， 探 制 其 群 组 从 属 关 系 ; 
可 用 于 强制 锁定 文件 。 以 上 两 种 用 途 分 别 在 15.3.1 节 和 55.4 节 有 所 介 
绍 。 本 节 将 重点 讨论 sticky 位 的 用 途 。 


在 老 的 UNIX 实 现 中 ， 提 供 sticky 位 的 目的 在 于 让 常用 程序 的 运行 速 
度 更 快 。 若 对 某 程序 文件 设置 了 sticky 位 ， 则 首次 执行 程序 时 ， 系 统 会 
将 其 文本 拷贝 保存 于 交换 区 中 ， 即 “ 粘 ”(stick〉 在 交换 区 内 ， 故 而 能 
提高 后 续 执 行 的 加 载 速 度 。 现 代 UNIX 实 现 对 内 存 的 管理 更 为 精准 ， 故 
而 也 将 权限 位 的 这 一 用 法 束之高阁 。 





K 15-4 所 示 Sticky 权 限 位 的 常量 名 称 
对 sticky 位 的 别称 : saved-text 位 。 


S_ISVTX 源 于 





在 现代 UNIX 实 现 〈 包 括 Linux) 中 ，sticky 权 限 位 所 起 的 作用 全 然 
不 同 于 老 的 UNIX 实 现 。 作 用 于 目录 时 ，sticky 权 限 位 起 限制 删除 位 的 作 
用 。 为 目录 设置 该 位 ， 则 表明 仅 当 非特 权 进 程 具有 对 目录 的 写 权 限 ， 且 
为 文件 或 目录 的 属 主 时 ， 才 能 对 目录 下 的 文件 进行 删除 《unlink(、 
rmdir()) 和 重 命名 (rename()) 操作 。 (具有 CAP_FOWNER 能 力 的 进程 
可 省 去 对 属 主 的 检查 。) 可 厌 此 机 制 来 创建 为 多 个 用 户 共享 的 一 个 目 
录 ， 各 个 用 户 可 在 其 下 创建 或 删除 属于 自己 的 文件 ， 但 不 能 删除 隶属 于 
其 他 用 户 的 文件 。 为 /imp 目录 设置 sticky 权 限 位 ， 原 因 正 在 于 此 。 

















可 通过 chmod 命 令 (chmod + file) 或 chmodO 系 统 调用 来 设置 文件 的 
sticky 权 限 位 。 若 对 某 文件 设置 了 sticky 权 限 位 ， 则 当 执 行 ]1s-] 命 令 显 示 
该 文件 时 ， 会 在 其 他 用 户 执行 权限 字段 上 看 到 字母 T， 其 大 小 写 则 要 取 
决 于 是 否 对 文件 开启 了 其 他 用 户 执行 权限 位 ， 如 下 所 示 : 


$ touch tfile 

$ ls -1 tfile 

-YW-¥--r-- 1 mtk users 0 Jun 23 14:44 tfile 
$ chmod +t tfile 

$ 1s -1 tfile 

-Yw-r--r-T 1 mtk users 0 Jun 23 14:44 tfile 
$ chmod o+x tfile 

$ ls -1 tfile 

-ryw-r--r-t 1 mtk users O Jun 23 14:44 tfile 


15.4.6 ”进程 的 文件 模式 创建 措 码 umask() 


本 节 将 针对 新 建文 件 或 目录 的 权限 设置 展开 深入 讨论 。 对 于 新 建文 
件 ， 内 核 会 使 用 open0) 或 creat0 中 mode 参 数 所 指定 的 权限 。 对 于 新 建 目 
录 ， 则 会 根据 mkdir0 的 mode 参 数 来 设置 权限 。 然 而 ， 文 件 模式 创建 掩 
码 ( 简 称 为 umask) 会 对 这 些 设置 进行 修改 。umask 是 一 种 进程 属性 ， 
当 进 程 新 建文 件 或 目录 时 ， 该 属性 用 于 指明 应 屏蔽 哪些 权限 位 。 


进程 的 umask 通 常 继承 自 其 父 shell， 其 结果 往往 正如 人 们 所 期 望 的 
那样 : 用 户 可 以 使 用 shell 的 内 置 命 令 umask 来 改变 shell 进 程 的 umask， 从 
而 控制 在 shell 下 运行 程序 的 umask。 


大 多 数 shell 的 初始 化 文件 会 将 umask 默 认 置 为 八进制 值 022 (----w-- 
w-)。 其 含义 为 对 于 同 组 或 其 他 用 户 ， 应 总 是 屏蔽 写 权 限 。 因 此 ， 假 定 
open() 调 用 中 的 mode 参 数 为 0666〈 即 令 所 有 用 户 享 有 读 、 写 权限 ， 通 常 
如 此 ) ， 那 么 对 新 建文 件 来 说 ， 其 属 主 拥有 读 、 写 权限 ， 所 有 其 他 用 户 
只 具有 读 权 限 (针对 文件 执行 ls-]l 命 令 ， 会 显示 “rw-r--r 一 ”) 。 同 理 ， 假 
定 将 mkdir0 的 mode 参 数 指定 为 0777〈 即 所 有 用 户 享 有 所 有 权限 ) » HB 
么 对 于 新 建 目录 来 说 ， 其 属 主 享有 所 有 权限 ， 同 组 和 其 他 用 户 则 只 拥有 
读 取 和 执行 权限 〈 即 rwxr-xr-x) 。 


系统 调用 umask0 将 进程 的 umask 改 变 为 mask 参 数 所 指定 的 值 。 



































#include <sys/stat.h> 


mode_t umask(mode_t mask}; 


Always successfully returns the previous process umask 





可 以 以 八进制 数 或 是 表 15-4 中 所 列 常 量 相 或 (|) 来 指定 mask 参 数 。 
对 umask() 的 调用 总 会 成 功 ， 并 返回 进程 的 前 一 umask。 


程序 清单 15-5 演 示 了 umask() 与 open() 和 mkdir() 的 相互 配合 。 运 行 该 
程序 的 结果 如 下 : 


$ ./t_umask 

Requested file perms: rw-rw---- This is what we asked for 
Process umask: ----WX-WX This is what we are denied 
Actual file perms: Yw-Y----- So this is what we end up with 


Requested dir. perms: rwxrwxrwx 
Process umask: - - - -WX-WX 
Actual dir. perms: IWXI--I-- 


程序 清单 15-5 使 用 mkdir0 和 rmdirO 系 统 调用 来 创建 和 
删除 目录 ， 使 用 unlinkO 系 统 调用 来 删除 文件 。 以 上 系统 调 
用 将 在 第 18 章 再 做 讲解 。 















































程序 清单 15-5: 使 用 umask() 


files/t_umask.c 


#include <sys/stat.h> 
#include <fcntl.h> 
#include "file_perms.h" 
#include "tlpi_hdr.h" 


#define MYFILE "myfile" 

#define MYDIR "mydir" 

#define FILE_PERMS (S_IRUSR | S_IWUSR | S_IRGRP | S_IWGRP) 
#define DIR _PERMS (S_IRWXU | S IRWXG | S_IRWXO) 

#define UMASK_SETTING (S_IWGRP | S_IXGRP | S IWOTH | S_IXOTH) 


int 
main(int argc, char *argv[]) 


int fd; 
struct stat sb; 
mode t u; 


umask(UMASK_ SETTING) ; 


fd = open(MYFILE, O_RDWR | O_ CREAT | 0 EXCL, FILE_PERMS); 
if (fd == -1) 

errExit("open-%s", MYFILE); 
if (mkdir(MYDIR, DIR PERMS) == -1) 

errExit("mkdir-%s", MYDIR); 


u = umask(0); /* Retrieves (and clears) umask value */ 


if (stat(MYFILE, &sb) == -1) 

errExit("stat-%s", MYFILE); 
printf("Requested file perms: %s\n", filePermStr(FILE_PERMS, 0)); 
printf("Process umask: %s\n", filePermStr(u, 0)); 
printf("Actual file perms: %s\n\n", filePermStr(sb.st mode, 0)); 
if (stat(MYDIR, &sb) == -1) 

errExit("stat-%s", MYDIR); 
printf("Requested dir. perms: %s\n", filePermStr(DIR_PERMS, 0)); 
printf("Process umask: 4s\n", filePermStr(u, 0)); 
printf("Actual dir. perms: “4s\n", filePermStr(sb.st mode, 0)); 


if (unlink(MYFILE) == -1) 
errMsg(“unlink-%s", MYFILE); 

if (rmdir(MYDIR) == -1) 
errMsg("rmdir-%s", MYDIR); 

exit(EXIT_SUCCESS) ; 


files/t_umask.c 


15.4.7 “更改 文件 权限 : chmod0 和 fchmod0) 


可 利用 系统 调用 chmod0 和 fchmod0O 去 修改 文件 权限 。 





#include <sys/stat.h> 
int chmod(const char *pathname, mode_t mode); 


#define XOPEN SOURCE 500 /* Or: #define BSD SOURCE */ 
#include <sys/stat.h> 


int fchmod(int fd, mode_t mode); 


Both return 0 on success, or -1 on error 











系统 调用 chmod0 更 改 由 pathname 参 数 所 指定 文件 的 权限 。 知 该 参 
数 所 指 为 符号 链接 ， 调 用 chmod0 会 改变 符号 链接 所 指 代 文件 的 访问 权 
限 ， 而 非 对 符号 链接 上 自身 的 访问 权限 。“【 符 扎 链 接 自 创建 起 ， 其 所 有 权 
限 便 为 所 有 用 户 共享 ， 且 这 些 权限 也 不 得 更 改 。 对 符号 链接 解 引 用 时 ， 
将 忽略 所 有 这 些 权限 。) 


系统 调用 fchmod0O) 更 改 由 打开 文件 描述 符 fd 所 指 代 文 件 的 权限 。 


参数 mode 用 于 描述 文件 的 新 权限 ， 可 以 采用 八进制 数字 形式 ， 亦 
或 是 由 表 15-4 所 列 权 限 位 相 或 (|) 而 成 的 掩 码 。 要 想 更 改 文件 权限 ， 进 
程 要 么 具有 特权 级 别 (CAP_FOWNER) ， 要 么 其 有 效用 户 ID 于 文件 的 
HPD ORE) HILE. (准确 说 来 ， 对 于 Linux 系 统 上 的 非特 权 级 进 
程 ， 需 与 文件 用 户 ID 相 匹 配 的 是 进程 的 文件 系统 用 户 ID， 而 非 其 有 效用 
户 ID， 如 9.5 节 所 述 。) 


要 将 文件 权限 设 为 使 所 有 用 户 仪 具有 读 权限 ， 需 执行 如 下 系统 调 














if (chmod("myfile", S IRUSR | S IRGRP | S IROTH) == -1) 
errExit("chmod"); 
/* Or equivalently: chmod("myfile", 0444); */ 


要 修改 文件 的 特定 权限 位 ， 需 移 调 用 stat0) 来 获取 文件 的 现 有 权限 ， 
调整 想 修改 的 权限 位 ， 然 后 使 用 chmod0 去 更 新 权限 。 


struct stat sb; 
mode t mode; 


if (stat("myfile", &sb) == -1) 
errExit("stat"); 
mode = (sb.st mode | S IWUSR) & ~S IROTH; 
/* owner-write on, other-read off, remaining bits unchanged */ 
if (chmod("myfile", mode) == -1) 
errExit ("chmod"); 


执行 以 上 代码 ， 等 价 于 执行 如 下 shell 命 令 


$ chmod u+w,o-r myfile 


15.3.1 节 曾 提 及 ， 大 一 目录 驻 留 于 以 -o bsdgroups 选 项 装配 的 ext2 文 
件 系统 之 上 ， 或 是 驻 留 于 以 -o sysvgroups 选 项 装配 的 ext2 文 件 系 统 上 ， 
并 且 开 启 了 该 目录 的 set-group-ID 权 限 位 ， 那 么 在 该 目录 下 新 建 的 文件 会 
继承 其 父 目 录 “而 非 文件 创建 进程 的 有 效 组 ID) 的 组 所 有 权 。 可 能 会 出 
现 这 样 一 种 情况 ， 即 文件 的 组 ID 与 创建 文件 进程 的 任 一 组 ID 都 不 匹配 。 
正 因 如 此 ， 当 非特 权 级 (不 具备 CAP_FSETID 能 力 的 ) 进程 调用 
chmod() (或 fchmodO) 时 ， 各 文件 的 组 ID 不 等 于 进程 的 有 效 组 ID 或 是 任 一 
辅助 组 ID， 内 核 则 总 是 清除 文件 的 set-group-ID 权 限 位 。 这 一 安全 举措 
意 在 防止 用 户 为 其 不 隶属 的 组 创建 setrgroup-ID 程 序 。 以 下 shell 命 令 演示 
了 上 述 安 全 措施 所 堵 住 的 安全 漏洞 。 





$ mount | grep test Hmmm, /test is mounted with -0 bsdgroups 
/dev/sda9 on /test type ext3 (rw, bsdgroups) 

$ ls -ld /test Directory has GID root, writable by anyone 
drwxrwxrwx 3 root root 4096 Jun 30 20:11 /test 

$ id I’m an ordinary user, not part of root group 
uid=1000(mtk) gid=100(users) groups=100(users),101(staff) ,104(teach) 

$ cd /test 

$ cp ~/myprog . Copy some mischievous program here 

$ 1s -1 myprog Hey! It’s in the root group! 

-TwxT-xr-x 1 mtk root 19684 Jun 30 20:43 myprog 

$ chmod g+s myprog Can I make i set-group-ID to root? 

$ 1s -1 myprog Hmm, no... 


-Ywxr-xr-x 1 mtk root 19684 Jun 30 20:43 myprog 


15.5 i 节点 标志 (ext2 扩 展 文 件 属性 》 


某 些 Linux 文 件 系统 允许 为 文件 和 目录 设置 各 种 各 样 的 i-node flags(I 
节点 标志 )。 该 特性 是 一 种 非 标准 的 Linux 扩 展 功能 


现代 BSD 文 持 类 似 于 I 节 点 标志 的 特性 ， 使 用 chflags(1) 
和 chflags(2) 加 以 设置 。 








ext2 是 首 个 文 持 i 贡 点 标志 的 Linux 文 件 系 统 ， 有 时 人 们 也 将 这 些 标 

称 为 ext2 扩 展 文件 属性 。 随 后 ， 其 他 文件 系统 ， 诸 如 Btrfs、ext3、 
ext4, Reiserfs ( A Linux 2.4.19 起 ) 、XFS( 自 Linux 2.4.25 和 2.6 起 ) 以 
及 JFS( 自 Linux 2.6.17 起 ) ， 也 纷纷 加 入 对 i 节 点 标志 的 支持 。 





各 种 文件 系统 对 i 节 点 标志 的 文 持 范 围 略 有 不 同 。 要 在 
Reiserfs 文件 系统 上 使 用 I 节 点 标志 ， 需 在 装配 文件 系统 时 
带 上 -o attrs 选 项 。 











在 shell 中 ， 可 通过 执行 chattr 和 1lsattr 命 令 来 设置 和 和 查看 i 节 点 标志 ， 
如 下 例 所 示 : 


$ lsattr myfile 
-------- myfile 
$ chattr +ai myfile Turn on Append Only and Immutable flags 


$ lsattr myfile 
----ia-- myfile 

ERTE, A dioctlO A St val ERASE BUA bas ASA 
后 会 加 以 详 述 














对 普通 文件 或 目录 均 可 设置 i 证 点 标志 。 大 多 数 节 点 标志 是 供 普 
文件 使 用 的 ， 也 有 少 部 分 兼 供 (或 专 供 ) 目录 使 用 。 表 15- 6 对 于 所 文 持 
的 i 贡 点 标志 作 了 总 结 ， 展示 了 程序 调用 iocdO 时 所 使 用 的 相应 标志 名 称 水 
(定义 于 <linux/fs.h> 中 ) ， 以 及 配合 chattr 命 令 使 用 的 选项 字母 。 








表 15-6: i 节点 标记 


Chattr 选 
项 








FS_APPEND_FL 























FS_COMPR FL 启用 文件 压缩 (未 实现 ) 

















FS_DIRSYNC FL 目录 更 新 同步 〈 自 Linux 2.6 起 ) 


| 针对 数据 启用 日 志 功 能 (需要 特权 ) 
owen ~ a i | 











FS_NOATIME_FL 





FS_NODUMP_FL 














FS_NOTAIL_FL 











FS_SECRM_FL 





FS_SYNC_FL 























FS_TOPDIR FL 来 处 理 顶 层 目 录 ( 自 Linux 2.6 








FS_UNRM_FL u AVR OMRE REI) 





Linux 2.6.19 之 前 ，<linux/fs.h> 尚 未 定义 表 15-6 所 列 的 
FS 系列 常量 。 相 反 ， 针 对 各 种 文件 系统 有 一 套 专 门 的 头 文 
件 ， 将 相同 值 定义 为 各 文件 系统 所 专 有 的 常量 名 。 因 此 ， 
同一 值 在 ext2 文 件 系统 中 被 定义 为 <linux/ext2_fs.h> 内 的 
EXT2_APPEND_FL， 在 Reiserfs 文 件 系 统 中 被 定义 为 
<linux/reiser_fs.h> 内 的 REISERFS_APPEND_FL， 其 他 文件 
系统 以 此 类 推 。 由 于 每 种 文件 系统 的 头 文件 将 相同 的 值 定 
义 为 相应 常量 ， 因 此 在 不 提供 <linux/fs.h> 定 义 的 老 系 统 
中 ， 可 以 包含 上 述 任 一 类 型 的 头 文 件 ， 并 使 用 各 文件 系统 
所 专 有 的 名 称 。 





FL 系列 变量 及 其 含义 如 下 所 示 
FS_APPEND_ FL 


仅 当 指定 O_APPEND 标 志 时 ， 方 能 打开 文件 并 写 入 。 因而 迫使 所 
有 对 文件 的 更 新 都 追加 到 文件 尾部 。) 例如 ， 可 以 用 该 标志 来 写 入 日 志 
文件 。 只 有 特权 级 进程 〈 具 备 CAP_ LINUX IMMUTABLE J) 方 可 设 
置 该 标志 。 


FS_COMPR_FL 


文件 内 容 经 压缩 后 存储 于 磁盘 之 上 。 在 主流 的 纯 Linux 文 件 系统 
上 ，FS_COMPR_FL 不 属于 标 配 特性 。〈 有 软件 包 针 为 ext2 和 ext3 文 件 
系统 实现 了 该 特性 。) 考虑 到 磁盘 存储 的 低廉 成 本 ， 以 及 压缩 和 解压 缩 
所 要 耗费 的 CPU 开销 ， 再 加 之 一 旦 将 文件 压缩 起 来 ， 对 其 内 容 的 随机 访 
0 500 085 
避 之 不 及 。 





FS_DIRSYNC_FL ( 4 Linux 2.6 以 后 ) 








使 得 对 目录 的 更 新 (例如 : open(pathname，O_CREAT)、1link0、 
unlink()、mkdir()) 同 步 故 生 。 这 类 似 于 13.3 市 所 述 的 文件 同步 更 新 机 
制 。 同 样 ， 目 录 同 步 更 新 也 存在 性 能 问题 。 这 一 设置 可 以 只 应 用 于 目 
Xo (14.8.1 节 所 述 的 MS_DIRSYNC 装 配 标志 提供 了 类 似 功 能 ， 但 是 是 
针对 每 个 装配 而 言 的 。) 


FS_IMMUTABLE_FL 


将 文件 设置 为 不 可 更 改 ， 既 不 能 更 新 文件 数据 (write() 和 
truncate0 ) ， 也 不 能 改变 文件 元 数据 《〈 即 chmod0、chownO、unlink0O)、 
linkQ). rename(). rmdir(). utime(). setxattr()#lremovexattr()) 只 有 特权 
级 进程 (具备 CAP_LINUX_IMMUTABLE 能 力 的 进程 可 为 文件 设置 这 
— 该 标志 一 旦 设 定 ， 即 便 是 特权 级 进程 也 无 法 改变 文件 的 内 容 或 
元 : 


FS_JOURNAL_DATA_FL 


对 数据 局 用 日 志 功 能 。 只 有 ext3 和 ext4 文 件 系统 才 文 持 该 标志 。 这 
些 文件 系统 提供 3 种 层次 的 日 志 记 录 : journal 〈 日 志 ) ~ ordered CHE 
FR) ， 以 及 writeback( 回 写 ) 。 所 有 模式 都 会 记录 对 文件 元 数据 的 更 
新 ， 而 journal (HE) 模式 额外 还 记录 了 对 文件 数据 的 变更 。 而 在 以 排 
序 或 回 写 模式 运行 日 志 功 能 的 文件 系统 上 ， 特 权 级 (具有 
CAP_SYS_RESOURCE 能 力 的 ) 进程 可 以 为 单个 文件 设置 此 标志 ， 从 而 
启用 对 该 文件 数据 更 新 的 日 志 功 能 。 (mount(9) 手 册页 描述 了 排序 与 回 
写 两 模式 之 则 的 区 别 。) 


FS_NOATIME_FL 
访问 文件 时 不 更 新 文件 的 上 次 访问 时 间 。 这 省 去 了 每 次 访问 文件 时 


对 I 节 点 的 更 新 ， 故 而 改进 了 IO 性 能 。 (参见 14.8.1 节 介绍 
MS_NOATIME 标 志 的 内 容 。) 











FS_NODUMP_FL 


在 使 用 dump(8) 备 份 系统 时 跳 过 具有 此 标志 的 文件 。 正 如 dump(8) 手 
册页 所 载 ， 该 标志 有 效 与 否 取决 于 此 命令 的 -h 选 项 。 


FS_NOTAIL_FL 





禁用 尾部 打包 。 只 有 Reiserfs 文 件 系统 才 文 持 该 标志 。 此 标志 屏蔽 
了 Reiserfs 的 尾部 打包 特性 ， 即 尝试 将 小 文件 (或 是 较 大 文件 的 最 后 一 
段 ) 与 其 元 数据 置 于 同一 人 磁盘 块 中 。 装 配 Reiserfs 文 件 系 统 时 ，mount 如 
带 有 -o notail 选 项 将 对 整个 文件 系统 禁用 尾部 打包 。 


FS_SECRM_FL 


安全 删除 文件 。 该 特性 尚未 实现 ， 其 用 意 在 于 删除 文件 时 能 够 万 无 
一 失 ， 将 被 删除 文件 的 数据 履 盖 掉 ， 以 免 磁盘 扫描 程序 能 够 读 取 并 重建 
该 文件 。【〔 要 做 到 对 数据 真正 的 安全 删除 其 实 顾 为 复杂 。 要 想 稳 受 
地 “* 抹 去 ”先前 记录 的 数据 ， 需 要 在 破 盘 介质 上 执行 多 次 写 入 操作 ， 详 见 
[Gutmann, 1996]. ) 











FS_SYNC_FL 


令 对 文件 的 更 新 保持 同步 。 当 应 用 于 文件 时 ， 该 标志 将 致使 对 文件 
的 写 入 操作 同步 完成 〈 就 好 像 对 该 文件 执行 的 所 有 open0O 调 用 都 引用 了 
O_SYNC 标 志 一 样 ) 。 当 应 用 于 目录 时 ， 该 标志 的 作用 等 同 于 前 述 的 同 
步 目 录 更 新 标志 。 


FS_TOPDIR_FL ( 自 Linux 2.6 起 ) 


这 标志 着 将 在 Orlov 块 分 配 策略 的 指导 下 对 某 一 目录 进行 特殊 处 
理 。Orlov 策 略 的 灵感 来 自 于 BSD 系 统 ， 是 对 ext2 文 件 系统 块 分 配 策略 的 
一 种 改良 ， 试 图 增 大 相关 文件 〈 例 如 : 同一 目录 下 的 各 个 文件 ) 在 磁盘 
中 比邻 而 居 的 几率 ， 进 而 缩短 磁盘 的 寻 道 时 间 。 详 情 请 见 [Corbet， 
2002] 和 [Kumar，et al. 2008]。 只 有 EXT2 及 其 升级 版 本 EXT3、EXT4 文 
件 系统 支持 FS_ TOPDIR_FL。 














FS_UNRM_FL 


TEASE EET a EFS OR So FP EAA ZIP SE 
恢复 机 制 ， 因 此 该 特性 尚未 实现 。 


一 般 而 言 ， 如 果 针 对 东 一 目录 设置 了 i 和 节点 标志 ， 那 么 新 建 于 其 下 
的 文件 和 子 目 录 会 自动 将 其 继承 。 不 过 也 有 例外 。 


e FS_DIRSYNC_FL (chattr +D) 标 志 只 能 应 用 于 目录 ， 故 而 也 只 能 为 
新 建 于 该 目录 下 的 子 目 录 所 继承 。 











e “EFS IMMUTABLE FL (chattr + 标志 应 用 于 目录 时 ， 不 会 有 创 
建 于 该 目录 下 的 文件 或 子 目录 继承 此 标志 ， 因 为 该 标志 会 阻止 在 此 
目录 中 添加 任何 新 的 条 目 。 


在 程序 中 可 以 分 别 调用 ioctl0) 的 FS_IOC_GETFLAGS 和 
FS_IOC_SETFLAGS 操 作 ， 来 获取 和 修改 i 节点 标志 (这 两 个 常量 定义 于 
<linux/fs.h>) 。 以 下 代码 演示 了 如 何 为 打开 文件 描述 符 fd 所 指 代 的 文件 
设置 FS_ NOATIME _FL 标 志 。 








int attr; 


if (ioctl(fd, FS IOC GETFLAGS, &attr) == -1) /* Fetch current flags */ 
errExit ("ioctl"); 

attr |= FS _NOATIME FL; 

if (ioctl(fd, FS IOC SETFLAGS, &attr) == -1) /* Update flags */ 
errExit("ioctl"); 





想 改 变 文件 的 i 节点 标志 ， 至 少 要 满足 下 列 两 种 条 件 之 一 : 其 一 ， 
进程 的 有 效用 户 ID 需 匹 配 文件 的 用 户 ID 〈 属 主 ) ， 其 二 ， 进 程 享有 特权 
级 别 (具备 CAP_FOWNER 能 力 )。 严 格 说 来 ， 对 于 Linux 上 运行 的 非特 权 
进程 ， 与 文件 的 用 户 ID 相 匹 配 的 是 其 文件 系统 用 户 ID， 而 非 有 效用 户 
ID 〈 详 见 9.5 节 ) 。 


15.6 总结 


stat(O) 系 统 调用 可 获取 某 一 文件 的 相关 信息 《元 数据 ) ， 其 中 大 部 分 
这 些 信息 包括 文件 的 所 有 权 、 文 件 权 限 以 及 文件 时 
lH} Xo 


程序 可 调用 utime()、utimes0 或 类 似 编程 接口 ， 去 更 改 文件 的 上 次 
访问 时 间 及 上 次 修改 时 间 。 


每 个 文件 都 有 一 个 与 之 相关 的 用 户 ID GRE) 和 组 ID， 以 及 一 组 权 
限 位 。 为 了 限制 用 户 对 文件 的 访问 权限 ， 把 用 户 划 分 为 3 类 : 文件 属 主 
( 亦 称 用 户 )、 属 组 S 以 及 其 他 用 户 。 可 把 3 种 权限 授予 上 述 3 类 用 户 ， 
分 别 是 读 、 写 、 可 执行 权限 。 目 录 也 与 之 相同 ， 但 权限 位 的 含义 则 略 有 
不 同 。 可 利用 系统 调用 chown0 和 chmod0 来 更 改 文 件 的 所 有 权 及 权限 。 
系统 调用 umask0 则 用 来 设置 权限 的 位 掩 码 ， 当 进程 新 建文 件 时 ， 会 按 
位 掩 码 来 关闭 相应 权限 位 。 


文件 和 目录 还 用 到 了 3 个 额外 的 权限 位 。 可 将 set-user-ID 和 set-group- 
ID 权限 位 应 用 于 程序 文件 ， 在 进程 的 执行 过 程 中 假借 另 一 有 效用 户 或 组 
id《〈 亦 即 属于 该 程序 文件 ) 的 映 份 从 而 获得 特权 。 在 以 nogrpid 
(sysvgroup) 选 项 装配 的 文件 系统 上 ， 对 驻 留 于 其 上 的 目录 ， 可 通过 设置 
set-group-ID 权 限 位 来 控制 如 下 行为 : 该 目录 下 新 建文 件 的 组 ID 是 继承 
进程 的 有 效 组 ID， 还 是 父 目 录 的 组 ID 。 当 将 sticky 权 限 位 应 用 于 目录 
时 ， 其 作用 相当 于 限制 删除 标志 。 


I 贡 点 标记 控制 着 文件 和 目录 的 各 种 行为 。 尽 管 发 源 于 ext2， 但 如 今 
己 得 到 了 几 种 其 他 文件 系统 的 文 持 。 

















15.7 练习 


15-1. 15.4 节 中 描述 了 针对 各 种 文件 系统 操作 所 需 的 权限 。 请 使 用 
shell 命 令 或 编写 程序 来 回答 或 验证 以 下 说 法 。 


a) 将 文件 属 主 的 所 有 权限 “剥夺 ”后 ， 即 使 “本 组 ?和 “其 他 ”用 户 仍 有 
访问 权 ， 属 主 也 无 法 访问 文件 。 


b) 在 一 个 可 读 但 无 可 执行 权限 的 目录 下 ， 可 列 出 其 中 的 文件 名 ， 
但 无 论文 件 本 吴 的 权限 如 何 ， 也 不 能 访问 其 内 容 。 


c) 要 创建 一 个 新 文件 ， 打 开 一 个 文件 进行 读 操 作 ， 打 开 一 个 文件 
进行 写 操作 ， 以 及 删除 一 个 文件 ， 父 目录 和 文件 本 里 分 别 需 要 具备 何 种 
权限 ?对 文件 执行 重 命名 操作 时 ， 源 及 目标 目录 分 别 需 要 具备 何 种 权 
限 ? 若 重 命名 操作 的 目标 文件 已 存在 ， 该 文件 需要 具备 何 种 权限 ? AA 
录 设 置 sticky 位 (chmod +t)， 将 如 何 影响 重 命 名 和 删除 操作 ? 


15-2. 你 认为 系统 调用 stat0 会 改变 文件 3 个 时 间 惟 中 的 任意 之 一 
吗 ? 请 解释 原因 。 


15-3. 在 运行 Linux 2.6 的 系统 上 修改 程序 清单 15-1(t_stat.c)， 令 其 
可 以 纳 秒 级 精度 来 显示 文件 时 间 戳 。 


15-4. 系统 调用 access0) 会 利用 进程 的 实际 用 户 和 组 ID 来 检查 权 
限 。 请 编写 相应 函数 ， 根据 进程 的 有 效用 户 和 组 ID 来 进行 权限 检查 。 


15-5. 如 15.4.6 节 所 述 ，umask() 总 会 在 设置 进程 umask 的 同时 返回 
ao 拷贝 。 请 问 ， 如 何在 不 改变 进程 当前 umask 的 同时 获取 到 其 
Wl? 


15-6. 命令 chmod a+rX file 的 作用 是 对 所 有 各 类 用 户 授 予 读 权限 ， 
并 且 ， 当 file 是 目录 ， 或 者 file 的 任 一 用 户 类 型 具有 可 执行 权限 时 ， 将 问 
所 有 各 类 用 户 授予 可 执行 权限 ， 如 下 例 所 示 : 















































$ 1s -ld dir file prog 


dr-------- 2 mtk users 48 May 4 12:28 dir 
-[-------- 1 mtk users 19794 May 4 12:22 file 
-1-X------ 1 mtk users 19336 May 4 12:21 prog 


$ chmod a+rX dir file prog 
$ ls -ld dir file prog 

dy-xr-xr-x 2 mtk users 48 May 4 12:28 dir 
-I--I--I-- 1 mtk users 19794 May 4 12:22 file 
-I-xI-xr-x 1 mtk users 19336 May 4 12:21 prog 


使 用 stat0 和 chmod0 编 写 一 程序 ， 令 其 等 效 于 执行 chmod a+rX 命 





T o 


15-7. 编写 chattr(1) 命 令 的 简化 版 来 修改 文件 的 i 节点 标志 。 参 阅 
chattr(1) 手册 页 以 掌握 chattr 命 令 行 接口 的 细节 。 “无 需 实 现 -R、-V、-V 
选项 。) 





@ 译 者 注 ， 对 整个 文件 系统 起 作用 。 
回 译 者 注 : Bto 
ORRE: HAHA. 


第 16 章 ”扩展 属性 


本 章 将 介绍 文件 的 扩展 属性 CEA) ， 即 以 名 称 - 值 对 形式 将 任意 元 
数据 与 文件 i 节点 关联 起 来 的 技术 。Linux 自 版 本 2.6 起 ， 开 始 支 持 EA。 








16.1 概述 


EA 可 用 于 实现 访问 列表 (第 17 半 ) 和 文件 能 力 〈 第 39 章 ) . (ARR 
设计 而 论 ， 其 能 力 绝 不 仅 限 于 此 。 例 如 ， 还 可 利用 EA 去 记录 文件 的 版 
本 号 、 与 文件 的 MIME 类 型 /字符 集 有 关 的 信息 ， 或 是 指 回 图 符 的 指针 。 


SUSv3 并 未 对 EA 加 以 规范 。 但 少数 其 他 UNIX 实 现 却 提供 了 类 似 的 
特性 ， 其 中 知名 的 有 现代 BSD 〔〈 详 见 extattr(C2)) 系列 和 Solaris 9 及 其 后 
续 版 本 ( 详 见 fsattr(5))。 


EA 需要 有 底层 文件 系统 来 提供 支撑 ，Btrfs、ext2、ext3、ext4、 
JFS、Reiserfs 以 及 XFS 等 文件 系统 都 支持 EA。 











各 类 文件 系统 对 EA 的 支持 都 属 可 选项 ， 受 内 核 配 置 选 
项 中 的 “File systems” 沫 单 控制 。Reiserfs 文 件 系 统 目 Linux 
2.6.7 开 始 文 持 EA。 


EA 命名 空间 


EA 的 命名 格式 为 namespace.name。 其 中 namespace 用 来 把 EA 从 功能 
oo 同 的 几 大 类 ， 而 name 则 用 来 在 既定 命名 空间 内 唯一 标识 
EA. 


可 供 namespace 使 用 的 值 有 4 个 : user、trusted、system 以 及 
security。 这 4 类 EA 的 用 途 如 下 所 示 。 


。 user EA 将 在 文件 权限 检查 的 制约 下 由 非特 权 级 进程 操控 。 欲 获取 
user EA 值 ， 需 要 有 文件 的 读 权 限 ; 欲 改变 user EA 值 ， 则 需要 写 权 
限 。“〈 若 无 所 需 权 限 ， 将 会 导致 EACCES 错 误 。) 在 ext2、ext3、 
ext4 或 Reiserfs 文 件 系统 上 ， 如 和 欲 将 user EA 与 一 文件 关联 ， 在 装配 
底层 文件 系统 时 需 带 有 user_xattr 选 项 。 











$ mount -0 user_xattr device directory 





e trusted EA 也 可 由 用 户 进 程 “ 驱 使 ?， 这 点 与 user EA 相似 。 而 区 别 则 
在 于 ， 要 操纵 trusted EA， 进 程 必须 具有 特权 
(CAP SYS ADMIN) 。 

e system EA 供 内 核 使 用 ， 将 系统 对 象 与 一 文件 关联 。 目 前 仅 文 持 访 
问 控制 列表 (第 17 章 )。 

e security EA 的 作用 有 二 : 其 一 ， 用 来 存储 服务 于 操作 系统 安全 模块 





的 文件 安全 标签 ， 其 二 ， 将 可 执行 文件 与 能 力 关 联 起 来 〈39.9.2 
W) 。 而 发 明 security EA 的 初衷 是 为 了 文 持 安 全 强化 版 的 


Linux(SELinux, http://www.nsa.gov/research/selinux/). 


一 个 i 节 点 可 以 拥有 多 个 相关 EA， 其 所 从 属 的 命名 空间 可 以 相同 ， 
也 可 不 同 。 在 各 命名 空间 内 的 EA 名 均 自 成 一 体 。 在 user 和 trusted 命 名 空 
间 内 ，EA 名 可 以 为 任意 字符 串 。 而 在 system 命 名 空间 内 ， 只 有 经 内 核 明 
确认 可 的 (例如 ， 用 于 访问 控制 列表 的 ) 命名 方 可 使 用 。 


JEFS 支 持 另 一 种 命名 空间 一 一 os2， 其 他 文件 系统 均 未 
实现 。 提 供 这 一 命名 空间 是 为 了 支持 传统 的 OS/2 文 件 系 统 
EA。 进 程 无 需 特 权 ， 就 能 创建 OS2 EA. 





通过 shell 创 建 并 查看 EA 


在 shell 中 ， 可 执行 sSetfattr(1) 和 getfattr(1) 命 令 来 设置 和 查看 文件 的 
EA。 


$ touch tfile 
$ setfattr -n user.x -v "The past is not dead." tfile 
$ setfattr -n user.y -v "In fact, it's not even past.” tfile 


$ getfattr -n user.x tfile Retrieve value of a single EA 

# file: tfile Informational message from getfatir 

user.x="The past is not dead.” The gelfatir command prints a blank 
line after each file’s attributes 

$ getfattr -d tfile Dump values of all user EAs 


# file: tfile 


user.x="The past is not dead." 
user.y="In fact, it’s not even past.” 


$ setfattr -n user.x tfile Change value of LA to be an empty string 
$ getfattr -d tfile 

# file: tfile 

user.x 

user.y="In fact, it’s not even past.” 


$ setfattr -x user.y tfile Remove an EA 
$ getfattr -d tfile 

# file: tfile 

USEI.X 


以 上 shell 会 话 所 展示 的 要 点 之 一 是 ，EA 值 可 以 为 空 字符 串 ， 这 不 
同 于 未 定义 的 EA 值 。《 由 shell 会 话 结尾 处 的 例子 可 知 ，user.Xx 的 值 为 空 
字符 串 ，user.y 的 值 为 未 定义 。) 


默认 情况 下 ，getfattr 只 会 列 出 user EA 值 。 还 可 利用 -m 选 项 来 指定 
一 正则 表达 式 ， 来 和 中选 想 要 显示 的 EA 和 名 : 


$ getfattr -m 'pattern' file 


T 可 执行 如 下 命令 ， 列 出 一 个 文件 的 所 有 
EA 但 。 


$ getfattr -m - file 


16.2 扩展 属性 的 实现 细节 
本 节 是 对 上 一 节 内 容 的 延伸 ， 描 述 EA 实现 的 部 分 细节 。 
对 user 扩 展 属性 的 限制 


user EA 只 能 施 之 于 文件 或 目录 ， 之 所 以 将 其 他 文件 类 型 排除 在 
外 ， 原 因 如 下 。 


对 于 符号 链接 ， 会 对 所 有 用 户 开 启 所 有 权限 ， 且 不 容 更 改 。 《如 

18.2 节 所 述 ， 符 号 链接 的 权限 在 Linux 上 毫 无 意义 。) 这 意味 着 , 无 
法 利用 权限 来 阻止 任意 用 户 将 user EA 置 于 符号 链接 之 上 。 要 想 解 

决 这 个 问题 ， 就 得 防止 所 有 用 户 针 对 符号 链接 创建 user EA. 

对 于 设备 文件 、 套 接 字 以 及 FIFO 而 言 ， 授 予 用 户 权 限 ， 意 在 对 其 针 
对 底层 对 象 所 执行 的 VO 操作 加 以 控制 。 如 欲 操 控 这 些 权 限 ， 转 而 
求 取 对 创建 user EA 的 控制 ， 则 三 者 间 会 产生 冲突 。 


此 外 ， 若 某 一 目录 启用 了 粘性 位 〈sticky 位 ) 〈15.4.5 节 ) , AWE 
他 用 户 所 拥有 ， 则 非特 权 进 程 不 能 将 一 user EA 置 于 该 目录 之 上 。 惟 其 
如 此 ， 才 能 防止 任 一 用 户 将 EA 附 着 于 诸如 /tmp 之 类 的 目录 ， 由 于 其 可 写 
权限 对 所 有 用 户 开 放 【〈 从 而 导致 任意 用 户 均 可 操纵 此 目录 的 EA) ， 而 
设置 粘性 位 ， 意 在 防止 用 户 删 除 该 目录 下 为 其 他 用 户 所 拥有 的 文件 。 


EA 在 实现 方面 的 限制 
Linux VFS 针 对 所 有 文件 系统 上 的 EA 均 施 以 如 下 限制 。 


e。EA 名 称 的 长 度 不 能 超过 255 个 字 节 。 
e。EA 值 的 容量 为 64KB。 


此 外 ， 茶 些 文件 系统 对 可 与 文件 挂钩 的 EA 数 量 及 其 大 小 还 有 更 为 
严格 的 限制 。 


e 在 ext2、ext3 以 及 ext4 文 件 系统 上 ， 与 一 文件 关联 的 所 有 EA 命 名 和 
EA 值 的 总 字 节 数 不 会 超过 单个 逻辑 磁盘 块 〈14.3 节 ) 的 大 小 : 1024 
字 节 、2048 字 节 或 4096 字 节 。 

e 在 JFS 上 ， 为 某 一 文件 所 使 用 的 所 有 EA 名 和 EA 值 的 总 字 节 数 上 限 为 





























128KB。 





16.3 ”操控 扩展 属性 的 系统 调用 
本 节 将 会 介绍 用 来 更 新 、 获 取 以 及 删除 EA 的 系统 调用 。 
创建 和 修改 EA 
系统 调用 setxattr()、1setxattr() 以 及 fsetxattr() 用 来 设置 文件 的 EA 值 之 








#include <sys/xattr.h> 


int setxattr(const char *pathname, const char *name, const void *value, 
size_t size, int flags); 

int lsetxattr(const char *padhname, const char *name, const void *value, 
size_t size, int flags); 

int fsetxattr(int fd, const char *name, const void *value, 
size_t size, int flags); 


All return 0 on success, or -1 on error 











这 3 个 系统 调用 之 间 的 区 别 类 似 于 stat()、lstatO 〇 以 及 fstat() (15.175) 
三 者 间 的 差异 。 


e setxattrO 通 过 pathname 来 标识 文件 ， 知 文件 名 为 符号 链接 ， 则 对 其 
解 引 用 。 

。 lsetxattr0 通 过 pathname 来 标识 文件 ， 但 不 会 对 符号 链接 解 引 用 。 

。 fsetxattrO 则 通过 打开 文件 摘 述 符 fd 来 标识 文件 。 


以 上 3 者 之 间 的 差异 同样 适用 于 本 市 下 面 将 要 介绍 的 其 他 各 组 系统 








调用 


参数 name 是 一 个 以 空 字符 结尾 的 字符 串 ， 定 义 了 EA 的 名 称 。 参 数 
value 是 一 个 指 问 缓冲 区 的 指针 ， 包 含 了 为 EA 定义 的 新 值 。 参 数 size 则 指 
明了 缓冲 区 大 小 。 


默认 情况 下 ， 若 具有 给 定名 称 (ame) 的 EA 不 存在 ， 上 述 系 统 调 
用 会 创建 一 个 新 EA。 夺 EA 已 经 存在 ， 则 将 蔡 换 EA 值 。 可 利用 参数 flags 
将 这 一 行为 控制 得 更 为 精准 。 将 该 参数 指定 为 0， 以 获得 默认 行为 ， 或 
者 可 将 其 指定 为 如 下 第 量 之 一 。 





XATTR_CREATE 
若 具 有 给 定名 称 (name) 的 EA 已 经 存在 ， 则 失败 。 
XATTR_REPLACE 
若 具 有 给 定名 称 (ame) 的 EA 不 存在 ， 则 失败 。 
下 例 使 用 setxattr0 创 建 了 一 个 user EA: 


char *value; 
value = "The past is not dead."; 


if (setxattr(pathname, “user.x", value, strlen(value), 0) == -1) 
errExit("setxattr"); 


获取 EA 值 


可 利用 系统 调用 getxattr()、lgetxattr() 以 及 fgetxattr() 来 获取 EA 值 。 





#include «sys/xattr.h> 


ssize_t getxattr(const char *pathname, const char *name, void *value, 
size t size); 

ssize_t lgetxattr(const char *pathname, const char *name, void *value, 
size_t size); 

ssize_t fgetxattr(int fd, const char *name, void *value, 
size_t size); 


All return (nonnegative) size of EA value on success, or -1 on error 











参数 name 是 一 个 以 空 字 符 结 尾 的 字符 串 ， 用 来 标识 欲 取 值 的 EA。 
返回 的 EA 值 保存 于 参数 value 所 指 同 的 缓冲 区 中 。 该 缓冲 区 必须 由 调用 
者 分 配 ， 其 大 小 应 在 size 中 指定 。 知 调用 成 功 ， 上 述 系统 调用 会 返回 复 
制 到 value 所 指 缓冲 区 中 的 字 节 数 。 


若 文件 不 含 名 为 “name” 的 属性 ， 上 述 系统 调用 则 会 失败 ， 并 会 返 
回 错误 ENODATA。 若 size 值 过 小 ， 上 述 系统 调用 也 会 失败 ， 并 返回 错 
误 ERANGE。 


可 把 size 指 定 为 0， 对 于 这 种 情况 ， 将 忽略 vlaue 值 ， 但 系统 调用 仍 
将 返回 EA 值 的 大 小 。 可 利用 这 一 机 制 来 确定 后 续 系 统 调用 在 实际 获取 








EA 值 时 所 需 的 value 绥 冲 区 大 小 。 但 是 应 当 注 意 ， 这 并 不 能 保证 后 续 在 
通过 系统 调用 获取 EA 值 时 ， 上 述 返 回 值 就 足够 大 。 系 统 调用 期 间 ， 男 
一 进程 可 能 为 文件 的 这 一 属性 分 配 了 较 大 的 值 ， 或 是 将 其 完全 删除 。 


删除 EA 


系统 调用 removexattr0、1lremovexattr0 以 及 fremovexattrO 用 来 删除 文 
件 的 EA。 





#include <sys/xattr.h> 


int removexattr(const char *pathname, const char *name); 
int lremovexattr(const char *pathname, const char *name); 
int fremovexattr(int fd, const char *name); 


All return 0 on success, or -1 on error 











name 所 含 以 空 字符 结尾 的 字符 串 ， 用 于 标识 打算 删除 的 EA。 若 试 
图 删除 不 存在 的 EA， 调 用 将 失败 ， 并 会 返回 错误 ENODATA。 


获取 与 文件 相关 联 的 所 有 EA 的 名 称 


执行 系统 调用 listxattr0、llistxattr0 以 及 flistxattr0， 所 返回 的 列表 会 
包含 与 某 文件 关联 的 所 有 EA 的 名 称 。 











#include <sys/xattr.h> 


ssize_t listxattr(const char *paithname, char *lest, size_t size); 
ssize_t llistxattr(const char *paihname, char *list, size_t size); 
ssize_t flistxattr(int fd, char *list, size_t size); 








All return number of bytes copied into list on success, or -1 on error 








调用 将 EA 的 名 称 列 表 以 一 系列 以 空 字符 结尾 的 字符 串 形 式 置 于 list 
所 指 癌 的 缓冲 区 中 。 绥 冲 区 的 大 小 由 size 指 定 。 一 旦 成 功 ， 上 述 系 统 调 
用 会 返回 复制 到 list 中 的 字 节 数 。 


与 getxattr0 一 样 ， 也 可 将 Size 指定 为 0， 系 统 调 用 将 忽略 list， 并 返回 
(假定 该 列表 尚未 改变 ) 时 所 需 的 绥 冲 
区 大 小 。 











想 获 取 与 菜 文 件 相 关联 的 EA 名 列表 ， 只 需 对 文件 拥有 “访问 ”权限 
aaa 对 文件 本 身 则 无 需 
王 何 权限 。 


出 于 安全 考虑 ，list 中 返回 的 EA 名 称 可 能 不 包含 调用 进程 无 权 访 问 
的 属性 名 。 比 方 说 ， 大 多 数 文件 系统 
都 会 略 去 trusted 属 性 。 请 注意 上 一 句 中 的 “可 能 ”二 字 ， 这 表明 文件 系统 
实现 并 非 一 定 要 如 此 。 因 而 ， 使 用 list 中 返回 的 EA 名 去 调用 getxattr()， 
是 有 可 能 失败 的 ， 因 为 进程 并 不 具有 获得 该 EA 值 所 需 的 特权 。 A 
样 ， 当 另 一 进程 在 listxattr() 和 getxattr() 调 用 之 间 将 该 属性 删除 ， 也 会 发 
生 类 似 错 误 。) 


程序 示例 


程序 清单 16-1 所 示 程 序 将 获取 并 显示 命令 行 所 列 文件 的 所 有 EA 名 和 
EA 值 。 该 程序 使 用 listxattr()， 去 获取 与 每 个 文件 相关 联 的 所 有 EA 名 
称 ， 随 后 循环 调用 getxattr()， 为 每 个 名 称 获取 相应 的 值 。 默 认 以 纯 文本 

方式 显示 属性 值 。 知 带 有 -X 选 项 ， 那 么 属性 值 将 以 十 六 进 制 字 符 串 形式 
显示 。 以 下 shell 会 话 记 录 展 示 了 该 程序 的 使 用 。 


$ setfattr -n user.x -v "The past is not dead." tfile 

$ setfattr -n user.y -v "In fact, it's not even past." tfile 
$ ./xattr_view tfile 

tfile: 























name=user.x; value=The past is not dead. 
name=user.y; value=In fact, it's not even past. 























程序 清单 16-1: 显示 文件 的 扩展 属性 











#include <sys/xattr.h> 
#include "tlpi hdr.h" 


#define XATTR SIZE 10000 


static void 
usageError(char *progName) 


fprintf(stderr, "Usage: %s [-x] file...\n", progName); 
exit(EXIT_FATLURE) ; 
} 


int 
main(int argc, char *argv[]) 


char list[XATTR SIZE], value[XATTR SIZE]; 
ssize t listLen, valueLen; 

int ns, j, k, opt; 

Boolean hexDisplay; 


hexDisplay = 0; 
while ({opt = getopt(argc, argv, "x")) != -1) { 
switch (opt) { 


case 'x': hexDisplay = 1; break; 
case '?': usageError(argv[0]); 
} 


} 


if (optind >= argc + 2) 
usageError(argv[0]); 


xattr/xattr_view.c 


for (j = optind; j < argc; j++) { 
listLen = listxattr(argv[j], list, XATTR SIZE); 
if (listLen == -1) 
errExit("listxattr"); 


printf("%s:\n", argv[j]); 
/* Loop through all EA names, displaying name + value */ 


for (ns = 0; ns < listLen; ns += strlen(&list[ns]) + 1) { 
printf(" name=%s; ", &list[ns]); 


valueLen = getxattr(argv[j], &list[ns], value, XATTR SIZE); 
if (valueLen == -1) { 

printf("couldn't get value"); 
} else if (!hexDisplay) { 

printf("value=%.*s", (int) valueLen, value); 
} else { 

printf("value="); 

for (k = 0; k < valueLen; k++) 

printf("%02zx ", (unsigned int) value[k]); 

} 


printf("\n"); 
} 


printf("\n"); 


exit(EXIT SUCCESS); 


——_—_ attr /xattr_view.c 


16.4 总结 


目 2.6 版 本 以 来 ，Linux 开 始 文 持 扩展 属性 ， 人 允许 以 名 称 - 值 对 的 形式 
将 任意 元 数据 与 文件 天 联 起 来 。 


16.5 练习 


16-1. 编写 一 程序 ， 可 创建 或 修改 文件 的 userEA《〈 亦 即 ， 
setfattr() 的 简化 版 ) 。 应 将 文件 名 、EA 名 以 及 EA 值 以 命令 行 参 数 形式 
提供 给 该 程序 。 





第 17 章 ”访问 控制 列表 


15.4 节 已 经 介绍 了 传统 UNIX (及 Linux〉 对 文件 权限 的 规划 方案 。 
对 于 诸多 应 用 来 说 ， 这 一 方案 已 经 能 够 满足 要 求 。 但 还 有 些 应 用 ， 需 要 
在 为 特定 用 户 和 组 授权 时 进行 更 为 精密 的 控制 。 为 满足 这 一 需求 ， 许 多 
UNIX 系 统 对 传统 的 UNIX 文 件 权 限 模 型 进行 了 名 为 访问 控制 列表 
(ACL) 的 扩展 。 利 用 ACL， 可 以 在 任意 数量 的 用 户 和 组 之 中 ， 为 单个 
用 户 或 组 指定 文件 权限 。 自 版 本 2.6 起 ，Linux 内 核 开 始 支 持 ACL。 








各 文件 系统 对 ACEL 的 文 持 属于 可 选项 ， 由 “File 
systems” 沫 单 下 的 内 核 配 置 选项 控制 。Reiserfs 文 件 系统 自 
内 核 2.6.7 起 开始 文 持 ACL。 


要 想 在 ext2、ext3、ext4 或 reiserfs 文 件 系统 上 创建 
ACL， 装 配 相 应 的 文件 系统 时 需要 市 mount —o acl 选 项 。 


针对 UNIX 系 统 ， 从 未 正式 出 台 过 ACL 的 相关 标准 。 人 们 曾 以 
POSIX.1e 和 POSIX.2c 标 准 草 肥 的 形式 对 此 进行 过 尝试 ， 二 者 分 别 定 义 了 
服务 于 ACL 的 API 和 shell 命 令 〈( 以 及 诸如 能 力 之 类 的 其 他 特性 ) 。 最 
终 ， 这 一 标准 化 进程 以 失败 告终 ， 标 准 草案 也 随 之 撤销 。 不 过 ， 庄 多 
UNIX 包括 Linux〉 对 ACL 的 实现 还 是 遵循 上 述 标 准 草 案 〈( 通 常 是 根据 
最 终 稿 ， 即 第 17 号 草案 ) 。 但 由 于 在 各 种 ACL 实 现 之 间 还 存在 着 许多 差 
异 《部 分 原因 是 由 于 标准 草案 还 不 尽 完善 ) ， 故 而 如 条 运用 了 ACL 技 
术 ， 束 会 危及 应 用 的 可 移植 性 。 


本 章 将 介绍 ACL， 并 就 其 用 法 提供 简明 教程 。 此 外 ， 还 会 讲解 用 来 
操纵 和 获取 ACL 的 菏 些 库 函 数 。 鉴 于 此 类 库 函 数 数量 众多 ， 本 章 不 会 逐 
一 对 其 做 深入 探讨 。 详细 信息 可 参考 手册 页 。) 

















17.1 概述 


一 个 ACL 由 一 系列 ACL 记 录 (以 下 简称 ACE) 组 成 ， 其 中 每 条 记录 
都 针对 单个 用 户 或 用 户 组 定义 了 对 文件 的 访问 权限 〈 如 图 17-1 所 示 ) 。 


标记 类 型 标记 限定 符 权限 
对 应 于 传统 的 
em | | 
一 一 一 BE (用 户 ) 权限 


IWX 

WX 

类 记录 ACL_GROUP 102 IT-- 
ACL_GROUP 103 -W- 

09 --X 

一 TW- 

Y- 一 


y 
1 


对 应 于 传统 的 
组 权限 








ACL_GROUP 1 

ACL_MASK 7 

ac omer | - | rr | me tes 
- 其 他 用 户 权限 


图 17-1: 访问 控制 列表 示例 





ACEL 记录 
每 条 ACE 都 由 3 部 分 组 成 。 


。 标记 类 型 : 表示 该 记录 作用 于 一 个 用 户 、 组 ， 还 是 其 他 类 别 的 用 


Ja 
。 标记 限定 符 《〈 可 选项 ) 标识 特定 的 用 户 或 组 〈 亦 即 ， 某 个 用 户 ID 或 
组 ID) à 





。 权限 集合 : 本 字段 包含 所 授予 的 权限 信息 《〈 读 、 写 及 执行 ) 。 
标记 类 型 取 值 可 为 下 列 各 值 之 一 。 
ACL_USER_OBJ 


带 有 该 标记 的 ACE 记录 了 授予 文件 属 主 的 权限 。 每 个 ACL 只 能 包含 
ee 该 记录 与 传统 的 文件 属 主 〈 用 户 ) 权限 相对 
AY 


ACL_USER 


携带 该 值 的 ACE 记录 了 授予 某 用 户 〈 由 标记 限定 符 标 识 ) 的 权限 。 
一 个 ACL 可 包含 零 条 或 多 条 此 标记 类 型 的 记录 ， 但 针对 一 个 特定 用 户 最 
多 只 能 定义 一 条 此 类 记录 。 
ACL_GROUP_OBJ 
含 该 值 的 ACE 记录 了 授予 文件 组 的 权限 。 每 个 ACL 只 会 包含 一 条 
此 标记 类 型 的 记录 。 除 非 ACL 还 包含 类 型 为 “ACL_MASK ”的 记录 ， 否 
则 此 类 记录 对 应 于 传统 的 文件 组 权限 。 


ACL_GROUP 


包含 该 值 的 ACE 记录 了 授予 某 个 组 〈 由 标记 限定 符 标 识 ) 的 权限 。 
每 个 ACL 可 包含 零 条 或 多 条 此 标记 类 型 的 记录 ， 但 针对 一 个 特定 组 最 多 
只 能 定义 一 条 此 类 记录 。 


ACL_MASK 























含 该 值 的 ACE 记录 了 可 由 ACL_USER、ACL_GROUP_OBJ 以 及 
ACL_GROUP 型 ACE 所 能 授予 的 最 高 权限 。 一 个 ACL 最 多 只 能 包含 一 条 
标记 类 型 为 ACL_MASK 的 ACE。 假 如 ACL 含有 标记 类 型 为 ACL_USER 
或 ACL_GROUP 的 记录 ， 那 么 就 必须 包含 一 条 ACL_MASK 型 的 ACE。 

稍 后 会 细 述 这 一 标记 类 型 。 


ACL_OTHER 


对 于 不 匹配 任何 其 他 ACE 的 用 户 ， 由 包含 该 值 的 ACE 授予 权限 。 
个 ACL 只 能 包含 一 条 标记 类 型 为 “ACL_OTHER” 的 ACE。 该 记录 对 应 于 
传统 的 文件 其 他 (other〉 用 户 权 限 。 


只 有 标记 类 型 为 “ACL USER” 和 “ACL GROUP” 的 记录 ， 才 会 采用 
标记 限定 符 来 指定 用 户 ID 和 组 ID。 




















最 小 ACL 和 扩展 ACL 


最 小 化 (minimal) ACL 语 义 上 等 同 于 传统 的 文件 权限 集合 ， 恰 好 
由 3 条 记录 组 成 。 每 条 标记 的 类 型 分 别 为 ACL_USER_OBJ、 
ACL GROUP _ OBJ 以 及 ACL _ OTHER。 扩 展 ACL 则 是 指 除 此 之 外 ， 还 


包含 标记 类 型 为 ACL USER, ACL GROUP 和 ACL_ MASK 的 记录 。 


之 所 以 要 对 最 小 化 ACL 和 扩展 ACL 加 以 区 分 ， 原 因 之 一 是 后 者 可 对 
传统 文件 权限 模型 提供 语义 的 扩展 。 而 另 一 个 原因 则 与 ACL 的 Linux 实 
现 有 关 。Linux 系 统 是 以 系统 扩展 属性 来 实现 ACL 的 〈 详 见 第 16 瘟 ) 。 
用 于 维护 文件 访问 型 ACL 的 系统 扩展 属性 名 为 system.posix_ acl_access。 
仅 当 文件 具有 扩展 ACL 时 ， 才 需 使 用 这 一 扩展 属性 。 可 将 针对 最 小 化 
ACL 的 权限 信息 存储 于 传统 的 文件 权限 位 中 。 

















17.2 ACEL 权 限 检查 算法 


与 传统 的 文件 权限 模型 〈15.4.3 节 ) 相 比 ， 对 具有 ACEL 的 文件 进行 
权限 检查 时 ， 环 境 并 没有 什么 不 同 。 检 查 将 按 以 下 顺序 执行 ， 直 至 某 一 
标准 得 到 匹配 。 


1. 大 进程 具有 特权 ， 则 拥有 所 有 访问 权限 。 与 15.4.3 布 所 述 的 传统 
文件 权限 模型 相关 似 ， 这 里 也 有 一 个 例外 。 执 行 茶 文件 时 ， 仅 当 将 可 执 
O eee ee Ae aes 
予 该 权限 。 


2. 若菜 一 进程 的 有 效用 户 ID 匹配 文件 的 属 主 〈 用 户 ID) ， 则 授 
予 该 进程 标记 类 型 为 ACL_USER_OBJ 的 ACE 所 指定 的 权限 。 严 说 的 说 
法 是 在 Linux 系 统 中 ， 本 节 所 介绍 的 ACL 权 限 检测 使 用 的 是 进程 的 文件 
ARID 〈 请 参阅 本 书 9.5 节 ) ， 而 非 其 有 效用 户 ID。 


3. 若 进程 的 有 效用 户 ID 与 某 一 ACL_USER 类 型 记录 的 标记 限定 符 
人 
(&) 的 结果 。 


4. 若 进 程 的 组 ID 〈 亦 即 ， 有 效 组 ID 或 任 一 辅助 组 ID) 之 一 匹配 于 
文件 组 〈 对 应 于 标记 类 型 为 ACL_ GROUP _OBJ 的 ACE) ， 或 者 任 一 
ACL_GROUP 型 记录 的 标记 限定 符 ， 则 会 依次 进行 如 下 检查 ， 直 至 发 现 
匹配 项 。 


a) 知 进 程 的 组 ID 之 一 匹配 于 文件 组 ， 且 标记 类 型 为 
ACL_GROUP_OBJ 的 ACE 授予 了 所 请 求 的 权限 ， 则 会 依据 此 记录 来 判定 
对 文件 的 访问 权限 。 如 果 ACL 中 还 包含 了 标记 类 型 为 ACL_MASK 的 
ACE， 那 么 对 该 文件 的 访问 权限 将 是 两 记录 权限 相 与 (&) 后 的 结果 。 


b) 知 进 程 的 组 ID 之 一 匹配 于 该 文件 所 辖 ACL_GROUP 型 ACE 的 标 
记 限 定 符 ， 且 该 ACE 授予 了 所 请 求 的 权限 ， 那 么 会 依据 此 记录 来 判定 对 
文件 的 访问 权限 。 如 果 ACL 中 包含 了 ACL_MASK 型 ACE， 那 么 对 该 文 
件 的 访问 权限 应 为 两 记录 权限 相 与 (&) 的 结果 。 


c) 人 否则， 拒绝 对 该 文件 的 访问 。 



































5. 否则， 将 以 ACL_OTHER 型 ACE 所 记录 的 权限 授予 进程 。 


下 面 举例 说 明 这 些 与 组 ID 相关 的 文件 授权 规则 。 假 定 某 文件 的 组 ID 
为 100， 并 受 图 17-1 所 列 ACEL 的 保护 。 若 组 ID 为 100 的 某 一 进程 发 起 系统 
调用 access(file，R_OK)， 本 次 调用 将 会 成 功 〈 亦 即 ， 返 回 0) 。 (15.4.4 
节 介 绍 了 access()。) 而 男 一 方面 ， 即 便 标 记 类 型 为 ACL_GROUP_OBJ 
的 ACE 授予 了 所 有 权限 ， 系 统 调 用 access(file，R_OK | W_OK | X_OR) 仍 
将 失败 〈 亦 即 ， 返 回 -1， 且 将 errno 置 为 EACCES) ， 这 是 由 于 访问 权限 
是 该 类 型 权限 与 ACL_MASK 型 记录 权限 相 与 (&) 的 结果 ， 而 这 一 结果 
禁用 了 对 文件 的 执行 权限 。 


再 拿 图 17-1 举 个 例子 ， 假 定 某 进 程 的 组 人 DD 为 102， 其 附属 组 ID 之 一 
为 103。 对 该 进程 来 说 ， 调 用 access(file，R_OK) 和 access(file，W_OK) 痢 
会 成 功 ， 因 为 这 两 次 调用 所 请 求 的 文件 权限 分 别 匹配 标记 类 型 为 
ACL_GROUP， 且 标记 限定 符 为 102 和 103 的 ACE 所 记录 的 权限 。 另 外 ， 
该 进程 调用 access(file，R_OK | W_OK) 将 会 失败 ， 因 为 并 无 标记 类 型 为 
ACL_GROUP 的 匹配 记录 同时 包含 谈 、 写 权限 。 











17.3 ACEL 的 长 、 短 文本 格式 


执行 setfacl 和 getfacl 命 令 ， 或 是 使 用 某 些 ACL 库 函数 操纵 ACL 时 ， 
需 指 明 ACE 的 文本 表现 形式 。ACE 的 文本 格式 有 两 种 。 


e 长 文本 格式 的 ACL: 每 行 都 包含 一 条 ACE， 还 可 以 包含 注释 ， 注 释 
需 以 #*” 开 始 ， 直 至 行 尾 结束 。getfacl 命 令 的 输出 会 以 长 文本 格式 显 
示 ACL。 getfadl 命 令 的 -M acl-file 选 项 从 指定 文件 中 “提取 ”长 文本 格 
式 的 ACL 定 义 。 

。 短文 本 格式 的 ACL: 包含 一 系列 以 “<，” 分 隔 的 ACE。 


无 论 是 上 述 哪 种 格式 ， 每 条 ACE 都 由 以 “: ”分 隅 的 3 部 分 组 成 。 





tag-type: [tag-qualifier]: permissions 





标记 类 型 字段 的 取 值 限 于 表 17-1 第 一 列 所 示范 围 之 内 。 标 记 类 型 之 
后 的 标记 限定 符 为 可 选项 ， 采 用 名 称 或 数字 ID 来 标识 用 户 或 组 。 仅 当 标 
记 类 型 为 ACL_USER 和 ACL _ GROUP 时 ， 才 允许 标记 限定 符 的 存在 。 


#217-1: 对 ACE 文本 格式 的 解释 


标记 文本 格式 | 是 否 存在 标记 限定 符 | 对 应 的 标记 类 型 
































us 
U， 


N 
N 
N 





o, other N ACL_OTHER 其 他 用 户 


以 下 所 示 为 短文 本 格式 的 ACL， 对 应 于 传统 权限 掩 码 0650: 
U: :IW- ,8: :I-X,0::--- 
U: :IW,8::IX,0::- 
user: :rw, group: :rx,other: :- 


下 面 这 一 短文 本 格式 ACL 则 包含 了 两 条 命名 用 户 ACE、 一 条 命名 组 
ACE 以 及 一 条 掩 码 ACE。 


u: :rw, U:paulh:rw,u:annabel:rw,g::r,g:teach:rw,m: :rwX,0::- 


17.4 ACL mask 型 ACE 和 ACL 组 分 类 


如 果 一 个 ACL 包 含 了 标记 类 型 为 ACL_USER 或 ACL_GROUP 的 
ACE， 那 么 也 一 定 会 包含 标记 类 型 为 ACL_MASK 的 ACE。 若 ACL 未 包 
含 任何 标记 类 型 为 ACL_USER 或 ACL_GROUP 的 ACE， 那 么 标记 类 型 为 
ACL_MASK 的 ACE 则 为 可 选项 。 


对 于 ACL_MASK 标 记 类 型 的 ACE， 其 作用 在 于 是 所 谓 “ 组 分 
类 ”(group class) 中 ACE 所 能 授予 权限 的 上 限 。 组 分 类 是 指 在 ACL 中 ， 
由 所 有 标记 类 型 为 ACL_USER、ACL _GROUP 以 及 ACL_GROUP_OBJ 的 
ACE 所 组 成 的 集合 。 


提供 标记 类 型 为 ACL_MASK 的 ACE， 其 目的 在 于 即使 运行 并 无 
ACL 概 念 的 应 用 程序 ， 也 能 保障 其 行为 的 一 致 性 。 作 为 这 一 论点 的 例 
证 ， 假 设 与 文件 关联 的 ACL 包 含 以 下 记录 : 








USET: :IWX # ACL USER OBJ 
user:paulh:r-x # ACL USER 
group: :I-x # ACL GROUP OBJ 
group:teach:--x # ACL GROUP 
other: :--x # ACL OTHER 

若菜 程序 针对 该 文件 按 以 下 方式 调用 chmod0)。 
chmod(pathname, 0700); /* Set permissions to rwx------ */ 





对 于 对 ACL 一 无 所 知 的 应 用 程序 而 言 ， 这 意味 着 “ 除 文件 属 主 以 
外 ， 不 允许 其 他 任何 用 户 访问 >。 即便 存在 针对 该 文件 的 ACL， 这 层 意 
思 也 不 会 变 。 如 果 ACL 中 不 含 ACL_MASK 型 记录 ， 那 么 可 以 有 多 种 方 
法 来 实现 这 一 行为 ， 但 每 种 方法 都 存在 缺陷 。 


。 只 是 将 ACL GROUP_OBJ 和 ACL _OTHER 型 记录 的 掩 码 简单 地 修改 
为 --- 是 不 足以 解决 问题 的 ， 因 为 用 户 paulh 和 组 teach 依 旧 对 该 文件 
拥有 某 些 权限 。 

e 男 一 种 可 能 是 ， 将 针对 组 和 其 他 用 户 的 权限 新 设置 〈 即 ， 全 部 屏 
RO 应 用 于 标记 类 型 为 ACL USER、ACL _ GROUP、 
ACL_GROUP_OBJ 以 及 ACL_OTHER 的 记录 。 











USeT: :IWX # ACL USER OBJ 


user: paulh: --- # ACL_USER 
group: :--- # ACL GROUP OBJ 
group: teach: --- # ACL_GROUP 
other: :--- # ACL OTHER 


这 一 方法 的 问题 在 于 ， 之 前 由 具有 ACL 概 念 的 应 用 所 确立 的 文件 权 
限 语义 会 被 对 ACL 一 无 所 知 的 应 用 所 “ 错 杀 ”， 因 为 如 下 调用 (举例 说 
明 ) 不 会 将 ACL 中 的 ACL_USER 和 ACL _GROUP 型 记录 恢复 到 其 之 前 的 
状态 : 


chmod(pathname, 751); 


。 要 避免 这 些 问 题 ， 可 以 考虑 将 标记 类 型 为 ACL_GROUP_OBJ 的 记录 
置 为 对 所 有 ACL_USER 和 ACL_GROUP 类 记录 的 约束 。 然 而 ， 这 也 
意味 着 总 是 需要 将 ACL_GROUP_OBJ 型 记录 置 为 ACL_USER 和 
ACL_GROUP 型 记录 所 允许 权限 的 并 集 。 而 系统 义 会 使 用 
ACL_GROUP_OBJ 型 记录 来 判定 赋予 文件 组 的 权限 ， 这 会 引发 冲 


AY 


Ro 











设计 标记 类 型 为 ACL_MASK 的 记录 ， 正 是 为 了 解决 上 述 问题 。 这 
一 机 制 在 实现 传统 意义 上 的 chmod0 操 作 的 同时 ， 也 无 损 于 由 具有 ACL 
概念 的 应 用 所 确立 的 文件 权限 语义 。 当 ACL 包 含 标记 类 型 为 
ACL _ MASK 的 ACE 时 : 


。 调用 chmod0 对 传统 组 权限 所 做 的 变更 ， 会 改变 ACL_MASK (而 非 
ACL_GROUP_OBJ) 标记 类 型 ACE 的 设置 。 

。 调用 stat0， 在 st_mode 字 段 〈 图 15-1) 的 组 权限 位 中 会 返回 
ACL_MASK 权 限 〈 而 非 ACL_GROUP_OBJ 权 限 ) 。 


尽管 ACL_MASK 型 记录 的 出 现 保护 了 ACL 信 息 ， 使 其 免 遭 并 无 
ACL 概 念 的 应 用 的 “误伤 ”， 反 之 却 并 非 如 此 。ACL 的 优先 级 要 高 于 对 文 
件 组 权限 的 传统 操作 。 例 如 ， 假 设 为 某 文件 设置 了 如 下 ACL: 





user? :Iw-, group: :---,mask::---,other::r-- 
若 针 对 该 文件 执行 chmod g+rw 命 令 ， 则 ACL 将 会 变 为 : 
user: :rw-, group: :---,mask::rw-,other: :r-- 





这 时 ， 组 用 户 仍 无 法 访问 该 文件 。 一 种 迁 回 策略 是 修改 针对 组 的 





ACE， 赋 了 予 其 所 有 权限 。 结 果 ， 组 用 户 总 是 能 获得 ACL_MASK 型 记录 
的 所 有 权限 。 


17.5 getfacl#llsetfacli > 
在 shell 中 运行 getfacl 命 令 ， 可 但 看 到 应 用 于 文件 的 ACL。 


$ umask 022 Set shell umask to known state 
$ touch tfile Create a new file 

$ getfacl tfile 

# file: tfile 

# owner: mtk 

# group: users 

user: :IW- 

group: :r-- 

other: :r-- 


由 getfacl 命 令 的 输出 可 知 ， 新 建文 件 具 有 最 小 的 ACL 权 限 。getfacl 
命令 会 在 输出 ACL 记 录 的 文本 格式 之 前 ， 显 示 该 文件 的 名 称 和 属 主 、 属 
组 。 执 行 getfacl 命 令 时 ， 如 带 有 --omit-header 选 项 ， 可 省 略 上 述 内 容 。 


接 下 来 的 例子 则 显示 ， 执 行 传 统 的 chmod 命 令 来 改变 文件 访问 权限 
时 ， 其 效果 贯穿 到 文件 的 ACL 上 。 


$ chmod u=rwx,g=rx,o=x tfile 
$ getfacl --omit-header tfile 
user: :IWX 
group: :r-x 
other: :--x 


setfacl 命 令 可 用 来 修改 文件 的 ACL。 下 例 中 执行 setfacl -mm 人 命令， 为 
文件 的 ACL 追 加 标记 类 型 为 ACL_ USER 和 ACL_ GROUP 的 记录 。 











$ setfacl -m u:paulh:rx,g:teach:x tfile 
$ getfacl --omit-header tfile 


USEI: :IWX 

user:paulh:r-x ACL_USER entry 
group: :I-x 

group:teach:--x ACL_GROUP entry 
mask: :r-x ACL_MASK entry 
other: :--x 





带 -m 选 项 的 setfadl 命 令 可 修改 现 有 ACE， 或 者 ， 当 给 定 标 记 类 型 和 
限定 符 的 ACE 不 存在 时 ， 会 人 妃 加 新 的 ACE。setfadl 命 令 还 可 使 用 -R 选 
项 ， 将 指定 的 ACL“ 递 归 ” 应 用 于 目录 树 中 的 所 有 文件 。 





由 getfacl 命 令 的 输出 可 知 ，setfacl 自 动 为 该 ACL 新 建 了 一 条 标记 类 
型 为 ACL_MASK 的 记录 。 


追加 了 ACL_USER 和 ACL_GROUP 标 记 类 型 的 记录 会 将 该 ACL 转 变 
因此 ， 在 执行 ]s 二 命令 时 ， 会 在 文件 的 传统 权限 掩 码 之 后 
一 了 中 号 (“+”) 5 


$ 1s -1 tfile 
-IWXI-x--x+ 1 mtk users 0 Dec 3 15:42 tfile 


接 下 来 继续 执行 setfacl 命 令 ， 以 禁用 ACL_MASK 标 记 类 型 记录 中 除 
执行 权限 以 外 的 所 有 权限 ， 然 后 再 执行 getfacl 命 令 来 查看 文件 的 ACL。 


$ setfacl -m m::x tfile 

$ getfacl --omit-header tfile 

USET: :IWX 

user: paulh:r-x #effective: --x 
group: :IT-X #effective:--x 
group:teach:--x 

mask: :--x 

other: :--x 


在 用 户 paulh 和 文件 组 输出 后 的 “#effective: ”注释 是 指 在 与 
ACL_MASK 型 记录 相 与 CAND) 后 ， 由 上 述 记 录 所 赋予 的 权限 实际 上 
要 小 于 记录 中 所 描述 的 情况 。 


再 次 执行 1s -1 命令 来 观察 文件 的 传统 权限 位 ， 由 输出 可 知 ， 组 分 类 
权限 位 反映 的 是 ACL_MASK 型 记录 的 权限 (-- 区 ， 而 非 ACL_GROUP 型 
记录 中 的 权限 (r-x)。 


$ 1s -1 tfile 
-rwx--x--x+ 1 mtk users 0 Dec 3 15:42 tfile 


setfacl -x 则 用 来 从 ACL 中 删除 记录 。 下 例 删 除了 用 户 paulh 和 组 teach 
的 记录 《删除 ACE 时 无 需 指 定 其 权限 ) : 


$ setfacl -x u:paulh,g:teach tfile 
$ getfacl --omit-header tfile 
user: :IWX 

group: : 工 -X 

mask: :r-x 

other: :--X 


请 注意 ， 在 执行 上 述 操作 时 ，setfacl 命 令 会 自动 将 撼 码 型 ACE 调整 


为 所 有 组 分 类 ACE 权限 的 集合 〈 只 有 一 条 此 类 ACE: 
ACL_GROUP_OBJ) 。 若 不 i as 执行 setfacl 命 令 时 要 带 上 - 
nivel. 


最 后 需要 说 明 的 是 ， 执 行 带 -b 选 项 的 setfacl 命 令 ， 可 从 ACL 中 删除 
所 有 扩展 ACE， 而 只 保留 最 小 化 ACE〈 亦 即 ， 用 户 、 组 及 其 他 ) 。 


17.6 ”默认 ACE 与 文件 创建 


行文 至 此 ， 对 AcL 的 讨论 所 摘 述 的 均 属 访问 型 (access) ACL. Ei 
名 思 义 ， 当 进程 访问 与 该 ACL 相 关 的 文件 时 ， 将 使 用 访问 型 ACL 来 判定 
进程 对 文件 的 访问 权限 。 针 对 目录 ， 还 可 创建 第 二 种 ACL: 默认 型 
(default) ACL. 


访问 目录 时 ， 默 认 型 ACL 并 不 参与 判定 所 授予 的 权限 。 相 反 ， 默 认 
型 ACL 的 存在 与 否决 定 了 在 人 
(默认 型 ACL 存 储 于 名 为 system.posix_acl_default 的 扩展 属性 中 。 


想 下 看 和 设置 - 与 目录 相关 的 默认 型 ACL， 需 要 执行 带 有 -d 选 项 的 


getfacl 和 setfacl 命 令 。 





$ mkdir sub 

$ setfacl -d -m u::rwx,u:paulh:rx,g::rx,g:teach:rwx,o::- sub 

$ getfacl -d --omit-header sub 

user: :IWX 

user :paulh:r-x 

group: :T-X 

group: teach: rwx 

mask: : rwx setfacl generated ACL_MASK entry automatically 
other: :--- 


执行 带 有 -k 选 项 的 setfacl 命 令 ， 可 删除 针对 目录 而 设 的 默认 型 
ACL. 


AEX AWE SERUALACL, Jl: 


e 新 建 于 目录 下 的 子 目录 会 将 该 目录 的 默认 型 ACL 继 承 为 其 默认 型 
~ 。 换 言 之 ， 默 认 型 ACL 会 随 子 目录 的 创建 而 治 目 录 树 传播 开 
。 新 建 于 目录 下 的 文件 或 子 目录 会 将 该 目录 的 默认 型 ACL 继 承 为 其 访 
问 型 ACL。 与 传统 文件 权限 位 相对 应 的 ACL 记 录 将 和 创建 文件 或 子 
目录 时 系统 调用 (open0、mkdir0 等 等 ) 中 的 mode 参 数 相 与 
(&) 。 所 谓 “ 对 应 的 ACL 记 录 ” 是 指 : 
o L_USER_OBJ; 
o ACL MASK, #44ACL_MASK, | YACL_GROUP_OBJ; 
o ACL OTHER. 











一 旦 目录 拥有 默认 型 ACL， 那 么 对 于 新 建 于 该 目录 下 的 文件 来 说 ， 
进程 的 umask (15.4.6 节 〉 并 不 参与 判定 文件 访问 型 ACL 中 所 记录 的 权 
限 。 


试 举 一 例 ， 演 示 一 新 建文 件 如 何 将 其 父 目 录 的 默认 型 ACL 继 承 为 自 
0 
新 文件 : 


open("sub/tfile", O RDWR | O CREAT, 
S IRWXU | S IXGRP | S IXOTH);  /* rwx--x--x */ 


这 一 新 文件 的 访问 型 ACL 如 下 : 


$ getfacl --omit-header sub/tfile 


user: :IWX 
user:paulh:r-x #effective:--x 
group: :r-x #effective:--x 
group: teach: rwx #effective:--x 
mask: 3--x 

other: :--- 


Fi% A RIFACERUACL, M: 


。 新 建 于 该 目录 下 的 子 目 录 也 不 存在 默认 ACL。 

。 会 沿用 传统 规则 来 设置 目录 下 新 建文 件 或 目录 的 权限 。 除 去 按 进程 
的 umask 而 屏蔽 权限 位 之 外 ， 将 文件 权限 置 为 (open()、mkdir() 等 
调用 中 ) mode 参 数 的 值 。 这 时 ， 新 文件 将 拥有 最 小 化 的 ACL。 








17.7 ACL 在 实现 方面 的 限制 
各 类 文件 系统 都 对 一 ACL 中 所 含 记录 的 条 数 有 所 限制 。 


e 对 于 ext2、ext3 以 及 ext4 文 件 系 统 ， 某 文件 所 含 所 有 ACL 记 录 的 总 和 
受制 于 如 下 要 求 : 该 文件 扩展 属性 的 所 有 名 称 与 值 所 占 字 节 必 须 位 
于 同一 逻辑 磁盘 块 之 内 (16.20) 。 每 条 ACL 记 录 需 占 8 字 节 ， 
因而 一 文件 所 含 ACE 的 最 大 条 数 会 略 少 于 块 大 小 的 1/8〈 因 为 ACL 
的 扩展 属性 名 称 也 有 一 定 开 销 ) 。 因 此 ， 大 小 为 4096 字 节 的 块 最 多 
人 允许 500 条 左右 的 ACE。 (2.6.11 版 本 之 前 ， 内 核 要 求 ext2 和 ext3 文 
件 系 统 中 文件 ACL 的 记录 总 数 不 得 超过 32 条 。) 

对 于 XFS 文件 系统 ， 每 一 ACL 的 记录 数 上 限 为 25 条 。 

对 于 Reiserfs 和 JFS 文 件 系统 ，ACL 最 多 可 含 8191 条 记录 。 之 所 以 如 
此 ， 是 由 于 VES 要求 扩展 属性 的 值 大 小 不 得 超过 64KB (116.2 
ad 











写作 本 书 时 ，Btrfs 文 件 系 统 将 ACL 所 含 记录 的 条 数 限 
制 在 500 条 左右 。 但 鉴于 该 文件 系统 的 开发 极其 活跃 ， 故 而 
这 一 限制 随时 可 能 发 生变 化 。 








尽管 上 面 提 及 的 文件 系统 大 多 允许 一 ACL 包 含 大 量 记 录 ， 但 出 于 以 
下 原因 ， 还 是 应 当 避 免 : 


。 元 长 的 ACL 将 增加 维护 工作 的 复杂 程度 ， 且 容易 出 错 : 
。 扫描 ACL 寻 找 匹 配 记 录 《〈 在 执行 组 ID 检查 时 ， 还 将 匹配 多 条 记录 ) 
所 需 的 时 间 ， 将 随 记录 条 数 的 增长 而 增长 。 


通常 的 做 法 是 : 在 系统 组 文件 〔8.3 节 ) 中 定义 适当 的 组 ， 并 在 
ACL 中 运用 起 来 ， 从 而 将 文件 ACL 的 记录 条 数 保持 在 一 个 较 低 的 合理 水 








17.8 ACL API 


POSIX.1e 标 准 草案 围绕 着 操纵 ACL 定 义 了 大 量 函 数 和 数据 结构 。 鉴 
于 其 规模 庞大 ， 要 描述 所 有 函数 的 细节 是 不 现实 的 。 本 节 会 先 对 此 类 函 
数 的 用 法 进行 概括 ， 再 以 相关 编程 示例 作为 总 结 。 


程序 要 使 用 ACL API， 就 应 包含 <sys/aclh>。 如 果 还 用 到 了 
POSIX.1le 标 准 草案 中 的 各 种 Linux 扩 展 〈acl(5) 手 册页 罗列 了 一 系列 Linux 
扩展 ) ， 程 序 可 能 还 需要 包含 <acllibacl.h>。 为 与 libadl 库 链接 ， 编 译 此 
类 程序 时 需 带 有 -lacl 选 项 。 








如 前 所 述 ， 在 Linux 上 ，ACL 是 以 扩展 属性 的 方式 来 实 
现 的 ， 而 将 ACL API 实 现 为 一 套 操纵 用 户 空 间 数 据 结构 的 
库 函 数 ， 并 且 会 在 必要 时 调用 getxattr() 和 setxattr()， 来 获取 
和 修改 持 有 ACL 的 持久 层 system 扩 展 属性 。 此 外 ， 应 用 程 
序 直 接 调 用 getxattr() 和 setxattr() 去 操纵 ACL 也 是 可 行 的 ， 尽 
管 并 不 推荐 这 一 做 法 。 


概述 


组 成 ACL API 的 水 数 刊载 于 acl(5) 手 册页 中 。 乍 看 起 来 ， 此 类 函数 及 
数据 结构 数量 之 巨 ， 着 实 令 人 不 得 其 门 而 入 。 图 17-2 概 括 了 各 种 数据 结 
构 之 间 的 关系 ， 并 标明 了 诸多 ACL 函 数 的 用 法 。 
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图 17-2: ACL 库 函数 及 数据 结构 之 间 的 关系 

由 图 17-2 可 知 ，ACL API 将 ACL 视 为 一 层次 化 对 象 : 

。 一 个 ACL 包 含 一 条 或 多 条 ACL 记 录 ; 

。 每 条 记录 均 包 含 一 标记 类 型 、 一 标记 限定 符 ( 可 选 ) ， 以 及 一 权限 


A 
Ho 





接 下 来 ， 将 简要 介绍 各 种 ACL 消 数 。 多 数 情况 下 ， 不 会 对 每 个 函数 
的 返回 错误 加 以 描述 。 函 数 返回 整数 (状态 ) 时 ， 通 常 以 0 表示 成 功 ， 
以 -1 表示 错误 。 返 回 句 柄 〈 指 针 ) 的 函数 出 错时 将 返回 NULL。 诊断 错 
误 时 ， 则 可 将 检查 errno 作 为 常规 手段 。 





句柄 Chandler) 是 一 抽象 术语 ， 用 以 指 代 一 对 象 或 数 
据 结 构 。 句 柄 的 表现 方式 由 API 实 现 决定 ， 例 如 :可 以 是 指 
针 、 数 组 索引 ， 或 者 hash 键 。 


将 文件 的 ACL 读 入 内 存 
acl_get_file() 函 数 可 用 来 获取 (由 pathname 所 标识 ) 文件 的 ACL 副 
AS 


acl t acl; 


acl = acl_get_file{pathname, type); 


取决 于 参数 type 的 值 (ACL_TYPE_ACCESS 或 
ACL TYPE DEFAULT) ， 可 调用 该 函数 来 获取 访问 型 ACL 或 默认 型 
ACL。acl_get_file0 函 数 将 返回 一 《类 型 为 acl_t 的 ) 句 柄 ， 供 其 他 ACL 函 
数 使 用 。 


从 内 存 ACL 中 获取 记录 

acl_get_entry0 函 数 会 返回 一 句柄 ， 指 癌 内 存 ACL 〈 由 函数 的 acl 参 
数 指 代 〉 中 的 记录 之 一 。 人 句柄 的 返回 位 置 由 函数 的 最 后 一 个 参数 指定 。 
acl_entry_t entry; 
status = acl get entry(acl, entry_id, &entry); 


entry_jid 参 数 决 定 返回 那 条 记录 的 句柄 。 若 将 其 指定 为 
ACL_FIRST_ENTRY， 则 会 返回 的 句柄 指 同 ACL 中 的 首 条 ACE。 知 将 该 


参数 指定 为 ACL_NEXT_ENTRY， 则 所 返回 的 句柄 将 指向 上 次 所 获取 记 
录 之 后 的 ACE。 因 此 ， 在 首次 调用 acl_get_entry0 时 ， 把 type 参 数 指定 为 
ACL _FIRST_ENTRY， 在 随后 的 调用 中 ， 再 将 其 指定 为 

ACL _NEXT_ENTRY， 如 此 这 般 ， 就 可 以 人 裔 历 ACL 的 所 有 记录 。 


若 成 功 获取 到 一 条 ACE，acl_get_entry() 函 数 将 返回 1; 如 无 记录 可 
取 ， 则 返回 0; 失败 ， 则 返回 -1。 


获取 并 修改 ACL 记录 中 的 属性 


函数 acl_get_tag_type0 和 acl_set_tag_typeO 可 分 别 用 来 获取 和 修改 
(由 entry 参 数 所 指定 ) ACL 记 录 中 的 标记 类 型 。 


acl tag t tag type; 


status = acl] get tag type(entry, &tag type); 
status = acl set tag type(entry, tag_type); 


tag_type 参 数 类 型 为 acl_type_t〈( 整 型 )， 取 值 可 为 
ACL USER OBJ ACL USER. ACL GROUP OBJ ACL GROUP, 
ACL_OTHER#KACL MASKZ—. 


函数 acl_get_qualifier0 和 acl_set_quajlifierO 可 分 别 用 来 获取 和 修改 
《由 entry 参 数 所 指定 ) ACL 记 录 中 的 标记 限定 符 。 下 面 是 两 个 函数 的 使 
用 实例 ， 这 里 假设 通过 对 标记 类 型 的 检测 ， 已 然 确定 该 记录 属于 
ACL_USER. 








uid_t *qualp; /* Pointer to UID */ 
qualp = acl get qualifier(entry); 
status = acl set qualifier(entry, qualp); 


仅 当 ACE 的 标记 类 型 为 ACL_USER 或 ACL_GROUP 时 ， 标 记 限 定 符 
才 有 意义 。 在 上 例 中 ，qualp 是 指 癌 用 户 ID (vid_t*) 的 一 枚 指针 ， 在 下 例 
中 ， 则 是 指向 组 ID (gid_t *) 的 指针 。 


函数 acl_get_permset(O 和 acl_set_permsetO 则 可 分 别 用 来 获取 和 修改 
(由 entry 参 数 所 指 代 ) ACE 中 的 权限 集合 。 


acl_permset_t permset; 


status = acl get permset(entry, &permset); 
status = acl set _permset(entry, permset); 


数据 类 型 acl_permset_t 是 一 个 指 代 权限 集合 的 句柄 。 
下 列 函数 则 用 来 操纵 某 一 权限 集合 中 的 内 容 : 


int is set; 
is set = acl_get_perm(permset, perm); 


status = acl_add_perm(permset, perm); 
status = acl delete perm(permset, perm); 
status = acl clear perms(permset); 


在 上 述 各 个 调用 中 ， 可 将 perm 人 参数 指定 为 ACL_READ、 
ACL_WRITE 或 ACL_EXECUTE 顾 名 即 可 思 义 。 上 述 函 数 的 用 法 如 
FETA: 


。 FE (HpermseB HCH) ARRS Hes perme Ur ta 
定 的 权限 ，adl_get_perm() 函 数 将 返回 1 ( 真 值 ) ， 否 则 返回 0。 该 函 
数 为 Linux 对 POSIX.1e 标 准 草 案 的 扩展 。 

e acl_add_permO) 函 数 用 来 向 由 permse 参 数 所 指 代 的 权限 集合 中 追加 
由 perm 人 参数 所 指定 的 权限 。 

e acl_delete_permO 函 数 用 来 从 permse 参 数 所 指 代 的 权限 集合 中 删除 由 
perm 参 数 所 指定 的 权限 。 即便 要 删除 的 权限 在 权限 集合 中 并 不 存 
在 ， 了 水 数 也 不 会 报错 。) 

° T 函数 用 来 从 permse 参 数 所 指 代 的 权限 集合 中 删除 所 

又 限 。 


创建 和 删除 ACE 
acl_create_entry() 函 数 用 来 在 某 一 现 有 ACL 中 新 建 一 条 记录 。 该 函 


ees 句柄 返回 到 由 其 第 二 个 参数 所 指定 的 内 存 位 


acl_entry_t entry; 





status = acl create entry(&acl, &entry); 


然后 ， 即 可 利用 先前 介绍 过 的 函数 来 设置 该 记录 。 


acl_delete_entry0O 函 数 用 来 从 ACL 中 删除 一 条 ACE。 


status = acl_delete_entry(acl, entry); 


更 新 文件 的 ACL 
acl_set_fileO 函 数 的 作用 与 acl_get_fileO0 相 反 ， 将 使 用 驻 留 于 内 存 的 
ACL 内 容 〈 由 acl 参 数 所 指 代 ) 来 更 新 磁盘 上 的 ACL。 
int status; 
status = acl set file(pathname, type, acl); 
如 欲 更 新 访问 型 ACL， 需 将 该 函数 的 tpye 参 数 指定 为 


ACL_TYPE_ACCESS; 如 欲 更 新 目录 的 默认 型 ACL， 则 需 将 type 指 定 为 
ACL TYPE. DEFAULT. 


ACEL 在 内 存 和 文本 格式 之 间 的 转换 


acl_from_textO 函 数 可 将 包含 文本 格式 ACL (KEDHO 的 字符 串 
转换 为 内 存 ACL， 并 返回 一 个 句柄 ， 用 以 在 后 续 函 数 调 用 中 指 代 该 
ACL. 








acl = acl_from_text(acl_string); 


acl_to_textO 则 执行 与 上 述 函 数 相反 的 转换 ， 并 同时 返回 对 应 于 
ACL (由 acl 参 数 指 定 ) 的 长 文本 格式 字符 串 。 


char *str; 
ssize t len; 


str = acl to text(acl, &len); 


奉 参数 len 不 为 NULL， 那 么 会 在 该 参数 所 指 癌 的 缓冲 区 中 放置 返回 
字符 串 的 长 度 。 


ACL API 中 的 其 他 函数 
接 下 来 将 介绍 几 个 未 见 诸 于 图 17-2 的 种 用 ACL 函数 。 


acl_calc ee 《其 句柄 由 acl & 
数 指定 ) 中 ACL_MASK 型 记录 的 权限 。 通 常 ， 只 要 是 修改 或 创建 
ACL, WAH ENZ KZ. a ACL_GROUP 以 及 
ACL_GROUP_OBJ 型 记录 的 权限 并 集 进 行 计 算 ， 作 为 ACL_MASK 型 记 
录 的 权限 。 知 ACL_MASK 型 记录 不 存在 ， 则 该 函数 会 创建 一 个 ， 这 也 
算是 该 函数 的 妙用 之 一 。 也 就 是 说 ， 在 将 ACL_USER 和 ACL_GROUP 型 
记录 添加 到 前 面 提 及 的 “最 小 化 >ACL 时 ， 调 用 该 函数 就 能 确保 
ACL_MASK 型 记录 的 创建 。 


若 参 数 adl 所 指定 的 ACL 有 效 ，acl_valid(acl) 函 数 将 返回 09， 否则 ， 返 
回 -1。 知 以 下 所 有 条 件 成 立 (为 真 )， 则 可 判定 该 ACL 有 效 。 


e ACL USER_ OBJ. ACL_GROUP_OBJ 以 及 ACL_OTHER 类 型 的 记 
KIY p 只 能 有 一 条 。 
若 有 任 一 ACL_USER 或 ACL_GROUP 类 型 的 记录 存在 ， 则 也 必然 
存在 一 条 ACL_MASK 型 记录 。 
标记 类 型 为 ACL_MASK 的 ACE 至 多 只 有 一 条 。 

每 条 标记 类 型 为 ACL_USER 的 记录 都 有 一 唯一 的 用 户 ID。 
。 每 条 标记 类 型 为 ACL_ GROUP 的 记录 都 有 一 唯一 的 组 ID。 





acl_check()f#llacl_error(ri2e Ca ANLinuxi 7 je) 与 
acl_valid0 函 数 有 异曲同工 之 妙 ， 尽 管 可 移植 性 不 强 ， 但 在 
处 理 畸 形 ACL 时 却 能 对 错误 提供 更 为 精确 的 描述 。 欲 知 详 
情 ， 请 参考 手册 页 。 


acl_delete_def file(pathname) 函 数 用 来 删除 目录 〈 由 参数 pathname 指 
定 ) 的 默认 型 ACL。 


acl_init(countb) 函 数 用 来 新 建 一 个 空 的 ACL 结 构 ， 其 空间 足以 容纳 由 
参数 count 所 指定 的 记录 数 。 回 系 统 传递 的 是 编程 者 的 柔性 诉 
求 ， 而 非 硬性 要 求 。) 函 数 将 返回 这 一 新 建 ACL 的 句柄 。 


acl_dup(acl) 函 数 用 来 为 由 acl 参 数 所 指定 的 ACL 创 建 副 本 ， 并 以 该 
ACL 副 本 的 句柄 作为 返回 值 。 


acl free(handle) 函 数 用 来 释放 由 其 他 ACL 函 数 所 分 配 的 内 存 。 例 
如 ， 必 须 使 用 该 函数 来 释放 由 acl_from_text()、acl_to_text()、 
acl_get_file()、acl_init() 以 及 acl_dup0O 调 用 所 分 配 的 内 存 。 


程序 示例 


程序 清单 17-1 对 某 些 ACL 库 函数 的 使 用 做 了 演示 。 该 程序 可 获取 并 
展示 与 文件 相关 的 ACL 〈 亦 即 ， 该 程序 提供 了 getfacl 命 令 的 部 分 功 
He) 。 各 以 -d 命 令 行 选 项 执行 该 程序 ， 则 将 显示 与 目录 相关 的 默认 型 
ACL， 而 非 访问 型 ACL。 

以 下 为 该 程序 的 运行 示例 。 
$ touch tfile 


$ setfacl -m ‘u:annie:r,u:paulh:rw,g:teach:r' tfile 
$ ./acl_view tfile 











user obj Yw- 
user annie Y-- 
user paulh Yw- 
group_obj Y-- 
group teach Y-- 
mask Yw- 
other I-- 


随 本 书 发 行 的 源码 中 还 包含 了 男 一 程序 : 
acl/acl_update.c， 可 用 来 更 新 ACL 〈 访 程序 提供 了 setfacl 命 
令 的 部 分 功能 




















程序 清单 17-1: 显示 与 文件 挂钩 的 访问 或 默认 ACL 











acl/acl_view.c 
#include <acl/libacl.h> 
#include <sys/acl.h> 
#include "ugid functions.h" 
#include "tlpi_hdr.h" 


static void 
usageError(char *progName) 


fprintf(stderr, "Usage: %s [-d] filename\n", progName) ; 
exit(EXIT FAILURE); 
} 


int 
main(int argc, char *argv[]) 


acl t acl; 

acl type t type; 

acl entry t entry; 

acl_ tag t tag; 

uid t *uidp; 

gid t *gidp; 

acl permset t permset; 
char *name; 

int entryId, permVal, opt; 


type = ACL_TYPE_ACCESS; 
while ((opt = getopt(argc, argv, "d")) != -1) { 
switch (opt) { 


case ‘d': type = ACL TYPE DEFAULT; break; 
case '?': usageError(argv[0]); 
} 


} 


if (optind + 1 != argc) 
usageError(argv[0]); 


acl = acl get file(argv[optind], type); 
if (acl == NULL) 
errExit("acl get file"); 
/* Walk through each entry in this ACL */ 
for (entryId = ACL FIRST ENTRY; ; entryId = ACL NEXT ENTRY) { 


if (acl_get_entry(acl, entryId, &entry) != 1) 
break; /* Exit on error or no more entries */ 


/* Retrieve and display tag type */ 


if (acl_ 


get_tag_type(entry, &tag) == -1) 


errExit("acl get tag type"); 


printf("%-12s", (tag == ACL_USER OBJ) ? 


(tag == ACL_USER) ? 
(tag == ACL_GROUP_OBJ) ? 
(tag == ACL_GROUP) ? 
(tag == ACL_MASK) ? 
(tag == ACL_OTHER) ? 


“user obj” : 


“user” : 
“group obj 
"group" : 
“mask” : 
“other” : 


/* Retrieve and display optional tag qualifier */ 


if (tag 


== ACL USER) { 


uidp = acl get qualifier(entry); 
if (uidp == NULL) 


hame 


errExit("acl get qualifier"); 


= groupNameFromId(*uidp); 


if (name == NULL) 


else 


printf("%-8d ", *uidp); 


printf("%-8s ", name); 


if (acl_free(uidp) == -1) 


errExit("acl free"); 


} else if (tag == ACL_GROUP) { 
gidp = acl_get_qualifier(entry); 
if (gidp == NULL) 


name 


errExit("acl get qualifier"); 


= groupNameFromlId{*gidp) ; 


if (name == NULL) 


else 


printf("%-8d ", *gidp); 


printf("%-8s ", name); 


if (acl free(gidp) == -1) 


} else { 


errExit("acl free"); 


printf(" "i 


/* Retrieve and display permissions */ 


if (acl_ 


get_permset(entry, &permset) == 


errExit("acl_get_permset"); 


permVal 


-1) 


= acl get _perm(permset, ACL READ); 
if (permVal == -1) 
errExit("acl_get_perm - ACL_READ"); 


rm 


"?77"); 


printf("%c", (permVal == 1) ? 'r’ : '-'); 
permVal = acl get perm(permset, ACL WRITE); 
if (permVal == -1) 

errExit("acl get perm - ACL WRITE"); 
printf("%c", (permVal == 1) ? 'w' : '-'); 
permVal = acl get _perm(permset, ACL_EXECUTE); 
if (permVal == -1) 

errExit("acl_get_perm - ACL_EXECUTE"); 
printf("%c", (permVal == 1) ? ‘x’ : '-'); 


printf("\n"); 
} 


if (acl free(acl) == -1) 
errExit("acl free"); 


exit(EXIT SUCCESS); 


acl/acl_view.c 


17.9 ”总 结 


自 2.6 版 本 起 ，Linux 开 始 支持 ACL。ACL 是 对 传统 UNIX 文 件 权 限 模 
型 的 扩展 ， 籍 此 可 在 每 用 户 或 每 组 的 基础 上 来 控制 对 文件 的 访问 。 


进 阶 信息 


访问 http://wt.tuxomania.net/publications/posix.le/， 可 在 线 查 看 
POSIX.1e 和 POSIX.2c 标 准 草 案 的 最 后 一 稿 (第 17 写 草案 ) 。 


acl(5) 手 册页 简要 介绍 了 ACL， 并 针对 Linux 平 台所 实现 的 各 种 ACL 
库 函 数 ， 就 其 可 移植 性 给 出 了 指导 。 


ACL 及 扩展 属性 的 Linux 实 现 细 节 刊 载 于 [Griinbacher，2003]。 
Andreas Griinbacher 所 维护 的 Web 站 点 也 包含 了 与 ACL 有 关 的 信息 ， 链 接 
为 http://acl.bestbits.at/。 








17.10 ”练习 


17-1. 编写 一 个 程序 ， 根 据 与 一 特定 用 户 或 组 相对 应 的 ACE 来 显示 
权限 。 该 程序 应 接受 2 个 命令 行 参数 。 第 一 个 参数 可 以 为 字 
母 “4* 或 <g*”， 用 以 表明 第 二 个 参数 是 用 户 还 是 组 。 (利用 定义 于 程序 清 
单 8-1 中 的 函数 ， 还 可 将 第 二 个 参数 任意 指定 为 数字 或 名 称 。) 奉 与 给 
定 用 户 或 组 相对 应 的 ACE 隶 属于 组 分 类 ， 则 程序 还 需 力 外 显示 与 ACL 掩 
码 型 记录 相 与 后 的 权限 。 











第 18 草 ”目录 与 链接 


作为 文件 相关 议题 的 结局 篇 ， 本 章 将 讨论 目录 和 和 链接。 首先 是 对 其 
系统 级 实现 进行 了 回顾 ， 之 后 则 描述 了 用 于 创建 和 移 除 目录 、 链 接 的 系 
统 调用 。 接 下 来 所 探讨 的 库 函 数 ， 可 允许 程序 扫描 单个 目录 下 的 内 容 并 
遍历 一 个 目录 树 《〈 即 ， 检 查 目 录 树 中 的 每 个 文件 ) 。 


每 个 进程 都 有 两 个 目录 相关 属性 根 目 录 及 当前 工作 目录 ， 分 别 用 于 
和 
统 调用 。 


最 后 ， 本 章 讨论 了 相关 库 函 数 ， 可 用 来 解析 路 径 名 ， 并 将 其 分 解 为 
目录 和 文件 名 两 部 分 。 














18.1 目录 和 (he) 链接 


在 文件 系统 中 ， 目 录 的 存储 方式 类 似 于 普通 文件 。 目 录 与 普通 文件 
的 区 别 有 二 。 


。 在 其 i-node 条 目 中 ， 会 将 目录 标记 为 一 种 不 同 的 文件 类 型 〈 参 见 
14.473) 。 

© 目录 是 经 特殊 组 织 而 成 的 文件 。 本 质 上 说 束 是 一 个 表格 ， 包 含 文件 
名 和 i-node 编 号 。 


在 大 多 数 原生 Linux 文 件 系 统 上 ， 文 件 名 长 度 可 达 255 个 字符 。 图 
18-1 所 示 为 针对 示例 文件 C/etc/passwd) 所 维护 的 文件 系统 i-node 表 以 及 
相关 目录 文件 的 部 分 内 容 ， 展 示 了 目录 与 i-node 之 间 的 关系 。 





虽然 一 个 进程 能 够 打开 一 个 目录 ， 但 却 不 能 使 用 read() 
去 读 取 目录 的 内 容 。 为 了 检索 目录 内 容 ， 进 程 必须 使 用 本 
章 后 续 讨论 的 系统 调用 和 库 函 数 。 (在 一 些 UNIX 实 现 中 ， 
也 可 以 对 目录 执行 read()， 但 这 会 给 应 用 带 来 可 移植 性 方面 
的 问题 。〉 进程 同样 也 不 能 使 用 write0) 来 改变 一 个 目录 的 
内 容 ， 仅 能 借助 于 诸如 open0 《创建 一 个 新 文件 ) 、 
linkO、mkdir0、symlinkO、unlinkO 及 rmdir0 之 类 的 系统 调 
用 《〈4.3 节 描述 了 open0 调 用 ， 本 章 稍 后 会 介绍 余下 的 系统 
调用 ) KREE ARER) 改变 其 内 容 。 














i-node 表 的 编号 始 于 1， 而 非 0， 因 为 若 目 录 条 目的 
node 字 段 值 为 0， 则 表明 该 条 目 尚 未 使 用 。i-node 1 用 来 记 
录 文 件 系统 的 坏 块 。 文 件 系 统 根 目 录 (/) 总 是 存储 在 i-node 条 
目 2 中 《如 图 18-1 所 示 ) ， 所 以 内 核 在 解析 路 径 名 时 就 知道 
该 从 哪里 着 手 。 





i-node inode 表 文件 数据 
分 [=j 
编号 (数据 块 ) 


2 [UiD=roor | GID=ro0r | 
类 型 = 目录 


perm=rw-r-xr-x 


数据 块 指针 


7 
类 型 = 目录 


数据 块 指 针 


6422 | UID=root | GID=root 
类 型 = 文件 
/etc/passud 文 人 


数据 块 指 针 


图 18-1: 以 文件 /etc/passwd 为 例 ， 展 示 i-node 和 目录 结构 之 间 的 关系 


回顾 文件 i-node (14.4 市 ) 中 存储 的 信息 列表 ， 会 发 现 其 中 并 未 包 
含 文件 名 ， 而 仅 通 过 目录 列表 内 的 一 个 映射 来 定义 文件 名 称 。 其 妙用 在 
于 ， 能 够 在 相同 或 者 不 同 目 录 中 创建 多 个 名 称 ， 每 个 均 指 癌 相 同 的 i- 
node 节 点 。 也 将 这 些 名 称 称 为 链接 ， 有 时 也 称 之 为 便 链 接 《〈 稍 后 介 
绍 ) ， 以 示 与 符 写 链接 有 所 区 别 。 














passwd | 6422 











文件 数据 


(登录 账户 信息 ) 























所 有 的 原生 Linux 和 UNIX 文 件 系统 均 文 持 便 链接 ， 然 
而 ， 许 多 非 UNIX 文 件 系 统 《〈 比 如 ， 微 软 的 VFAT) 则 不 文 


持 。【〔 微 软 的 NTFS 文 件 系统 文 持 人 硬 链 接 。) 


可 在 shell 中 利用 jn 命令 为 一 个 业已 存在 的 文件 创建 新 的 硬 链接 ， 正 
如 下 和 面 shell 会 话 日 志 所 示 。 


$ echo -n 'It is good to collect things,’ > abc 


$ 1s -li abc 
122232 -rw-r--r-- 1 mtk users 29 Jun 15 17:07 abc 
$ In abc xyz 
$ echo ' but it is better to go on walks.’ >> xyz 
$ cat abc 


It is good to collect things, but it is better to go on walks. 

$ 1s -li abc xyz 

122232 -rw-r--r-- 2 mtk users 63 Jun 15 17:07 abc 
122232 -rw-r--r-- 2 mtk users 63 Jun 15 17:07 xyz 


Cat 命 令 输出 中 一 目 了 然 的 事 ， 经 过 1ls-li 命 令 所 示 i-node 编 码 〈( 即 第 
一 列 ) 得 到 了 进一步 证 实 。 名 称 abc 和 xyz 指 向 相同 的 i-node 条 目 ， 因 此 
均 指 同 相同 文件 。1s-J1i 命 令 所 示 内 容 的 第 三 列 为 对 i-node 链 接 的 计数 。 
执行 In abc xyz 命 令 后 ，abc 所 指 问 i-node 的 链接 计数 升 至 2， 因 为 现在 指 
同 该 文件 的 有 两 个 名 字 。 由 于 指 问 相同 的 i-node， 人 针对 文件 xyz 输 出 的 
链接 计数 也 是 2。) 


右 移 除 其 中 一 个 文件 名 ， 另 一 文件 名 以 及 文件 本 身 将 继续 存在 。 


$ xm abc 
$ Is -li xyz 
122232 -rw-r--r-- 1 mtk users 63 Jun 15 17:07 xyz 


仅 当 inode 的 链接 计数 降 为 0 时 ， 也 就 是 移 除 了 文件 的 所 有 名 字 时 ， 
才 会 删除 《释放 ) 文件 的 inode 记 录 和 数据 块 。 总 结 如 下 : rm 命令 从 目 
录 列 表 中 删除 一 文件 名 ， 将 相应 i-node 的 链接 计数 减 一 ， 若 链接 计数 因 
此 而 降 为 0， 则 还 将 释放 该 文件 名 所 指 代 的 i-node 和 数据 块 。 


同一 文件 的 所 有 名 字 【 链 接 〉 地 位 平等 一 一 没有 一 个 名 字 【〔 比 如 ， 
第 一 个 ) 会 优 于 其 他 名 字 。 正 如 上 例 所 示 ， 在 移 除 与 文件 相关 的 第 一 个 
名 称 后 ， 物 理 文件 继续 存在 ， 但 只 能 通过 男 一 文件 名 来 访问 其 内 容 。 


在 线 论坛 上 经 常会 有 这 样 的 问题 出 现 ， 在 程序 中 如 何 找 到 与 文件 描 
述 符 X 相 关联 的 文件 名 ? 简单 的 回答 是 不 能 ， 至 少 缺 乏 明 确 而 又 便于 移 














植 的 手段 ， 因 为 一 个 文件 描述 符 指 同一 个 i-node， 而 指 癌 这 个 i-node 的 
文件 名 则 可 能 有 多 个 《或 者 甚至 如 18.3 节 所 述 ， 一 个 都 没有 ) 。 





在 Linux 系 统 上 ， 借 助 于 readdir() 对 Linux 特 
有 /proc/PID/fd 目 录 内 容 〈( 内 含 符 写 链接 指向 进程 当前 打开 
的 每 个 文件 描述 符 〉 的 扫描 ， 可 以 获知 一 个 进程 当前 打开 
了 哪些 文件 。 此 外 ， 已 经 移植 到 多 个 UNIX 系 统 中 的 lsof(1) 
和 fuser(1) 工 具 也 精 于 此 道 。 


对 硬 链 接 的 限制 有 二 ， 均 可 用 符号 链接 来 加 以 规避 。 


因为 目录 条 目 《〈 硬 链接 ) 对 文件 的 指 代 采 用 了 i-node 编 号 ， 而 i-node 
编号 的 唯一 性 仅 在 一 个 文件 系统 之 内 才能 得 到 保障 ， 所 以 硬 链 接 必 
须 与 其 指 代 的 文件 驻 留 在 同一 文件 系统 中 。 

Ae a 从 而 避免 出 现 令 诺 多 系统 程序 陷于 混乱 的 
链接 环 路 。 





早期 的 UNIX 实 现 一 度 曾 允许 超级 用 户 为 目录 创建 硬 链 
接 。 这 在 当时 是 必要 的 ， 因 为 这 些 实现 并 未 提供 mkdir() 系 
统 调 用 。 相 反 ， 当 时 会 使 用 mknode0O 调 用 创建 一 个 目录 ， 
然后 为 .和 .. 创 建 链接 ([Vahalia, 1996]) 。 虽 然 这 一 特性 已 
是 昨日 黄花 ， 但 一 些 现代 UNIX 实 现 出 于 向 后 兼容 的 目的 仍 
对 其 加 以 保留 。 


使 用 绑 定 挂 载 (bind mount) 可 以 获得 与 为 目录 创建 硬 
链接 相似 的 效果 。 


18.2 ”符号 CR) 链接 


符号 链接 ， 有 时 也 称 为 软 链接 ， 是 一 种 特殊 的 文件 类 型 ， 其 数据 是 
另 一 文件 的 名 称 。 图 18-2 展 示 的 情况 是 : 两 个 便 链 接 
/home/erena/this 和 /home/allyn/that 指向 同一 个 文件 ， 而 符号 链 
接 /home/kiran/other， 则 指 代 文件 名 /home/erena/this。 


在 shell 中 ， 符 写 链接 是 由 ln-s 命 令 创建 的 。ls-F 命 令 的 输出 结果 中 
会 在 符号 链接 的 尾部 标记 @。 


符号 链接 的 内 容 既 可 以 是 绝对 路 径 ， 也 可 以 是 相对 路 径 。 解 释 相 对 
符号 链接 时 以 链接 本 号 的 位 置 作 为 参照 点 。 


符号 链接 的 地 位 不 如 硬 链接 。 尤 其 是 ， 文 件 的 链接 计数 中 并 未 将 符 
号 链接 计算 在 内 。 因此， 图 18-2 中 编号 为 61 的 i-node， 其 链接 计数 为 
2， 而 不 是 3。) 因此 ， 如 果 移 除了 符号 链接 所 指向 的 文件 名 ， 符 号 链接 
本 身 还 将 继续 存在 ， 尽 管 无 法 再 对 其 进行 解 引 用 〈 下 溯 ) 操作 ， 也 将 此 
更 有 其 者 ， 还 可 以 为 并 不 存在 的 文件 名 创建 一 
站 符号 链接 。 








i-node i-node# 文件 数据 
编号 /home/erena 目录 
































eee L ee pa 
Sf /home/allyn 目录 件 的 两 个 硬 
perm=rw-r--r-- 链接 
link count = 2 | size=518 a aes 
数据 块 指针 
| 本 
UID=kiran other | 309 |<«— a 符号 








类 型 = 符号 链接 
perm=rwxrwxrwx 


link count=1 | size=16 


数据 块 指针 “/home/erena/ 
this” 


图 18-2: 对 硬 链接 和 符号 链接 的 展现 














引入 符号 链接 的 是 4.2BSD。 虽 然 未 获 POSIX.1-1990 接 
纳 ， 但 SUSv1 和 SUSv3 随 后 还 是 将 其 纳入 规范 。 


因为 符号 链接 指 代 一 个 文件 名 ， 而 非 inode 编 号 ， 所 以 可 以 用 其 来 
链接 不 同文 件 系 统 中 的 一 个 文件 。 对 硬 链接 的 那些 制约 也 就 不 会 困扰 到 
符号 链接 ， 可 以 为 目录 创建 符号 链接 。 诺 如 find 和 tar 之 类 的 工具 命令 有 
能 力 识别 人 硬 链 接 和 符 写 链接 之 间 的 差 寞 ， 要 么 会 在 默认 情况 下 不 对 符号 
链接 进行 解 引用 ， 要 么 会 避免 因 使 用 符号 链接 而 陷入 引用 环 路 。 


从 写 链接 之 间 可 能 会 形成 链 路 (例如 ，a 是 指向 b 的 符号 链接 ， 而 b 
古 指 问 c 的 符号 链接 ) 。 当 在 各 个 文件 相关 的 系统 调用 中 指定 了 符 写 链 
接 时 ， 内 核 会 对 一 系列 链接 层 层 解 去 引用 ， 和 下 抵 最 终 文件 。 


SUSv3 规 定 ， 针 对 路 径 名 中 的 每 个 符号 链接 部 件 ， 系 统 实现 应 允许 
对 其 实施 至 少 POSIX_SYMLOOP_MAX 次 解除 引用 操作 。 
_POSIX_SYMLOOP_MAX 的 规定 值 为 8。 然 而 ， 在 内 核 2.6.18 之 前 ， 
Linux 将 解析 符号 链接 链 路 时 的 解 引用 操作 次 数 限制 为 5 次 。 始 于 版 本 
2.6.18，Linux 内 核实 现 了 SUSv3 所 规定 的 最 小 解 引用 次 数 : 8 次 。Linux 
还 将 对 一 个 完整 路 径 名 的 解 引用 总 数 限 制 为 40 次 。 施 加 这 些 限 制 ， 意 在 
应 对 超 长 符号 链接 链 路 以 及 符号 链接 环 路 ， 从 而 使 内 核 代 码 在 解析 符号 
链接 时 免 于 引发 堆栈 溢出 。 








某 些 UNIX 文 件 系统 的 优化 举措 ， 不 但 没有 在 正文 中 提 
及 ， 而 且 也 未 见 诸 于 图 18-2。 如 果 构 成 符号 链接 内 容 的 字 
符 串 总 长 度 很 小 ， 足 以 放 入 i-node 中 通常 用 于 存放 数据 指针 
的 位 置 ， 那 么 就 会 将 字符 率直 接 存储 在 那里 。 这 省 去 对 一 
个 磁盘 块 的 分 配 ， 也 加 速 了 对 符号 链接 信息 的 访问 ， 因 为 
获取 信息 时 仅 涉 及 到 文件 的 i-node。 例 如 ，ext2、ext3 及 
ext4 采 用 这 一 技术 ， 将 i-node 中 通常 用 于 存放 数据 块 指 针 的 
60 个 字 节 转 而 用 于 存放 长 度 合适 的 符号 字符 串 。 实 践 证 
明 ， 这 一 优化 措施 卓有成效 。 在 笔者 检查 过 的 某 一 系统 
中 ， 符 号 链接 共计 20 700 个 ， 其 中 内 容 长 度 不 超过 60 个 字 
节 的 占 97%。 


系统 调用 对 符号 链接 的 解释 


许多 系统 调用 都 会 对 符号 链接 进行 解 引 用 处 理 〈 即 下 溯 folow) ， 
从 而 对 链接 所 指向 的 文件 展开 操作 。 还 有 一 些 系统 调用 对 符号 链接 则 不 
作 处 理 ， 直 接 操作 于 链接 文件 本 身 。 书 中 会 在 论 及 每 个 系统 调用 的 同 


针对 符号 链接 的 行为 。 表 18-1 对 此 作 了 ， 


表 18-1: 各 个 函数 对 符号 链接 的 解释 














by ge 


Cy =H o 





listxattr() 


llistxattrQ) 


lremovexattr() 


eo es 
mo ff 
wo es 


opendir() 
pathconf() 
pivot_root() 
quotactl() 
readlink() 
removexattr() 


wo 无 论 哪个 参数 中 的 链接 ， 都 不 会 对 其 进行 解 


在 参 数 为 符号 链接 ， 则 调用 失败 ， 并 将 errno 置 为 

















少数 情况 下 ， 符 号 链接 本 喘 及 其 所 指向 的 文件 会 需要 类 似 的 功能 ， 
系统 这 时 束 会 提供 两 套 系统 调 用 : 一 套 会 对 链接 解除 引用 ， 另 一 套 则 反 
之 ， 后 者 在 命名 时 会 冠 以 字母 |。stat() 和 1]stat() 就 是 一 例 。 


有 一 点 是 约定 俗 成 的 ， 总 是 会 对 路 径 名 中 目录 部 分 〈 即 最 后 一 个 斜 
线 字符 前 的 所 有 组 成 部 分 ) 的 符号 链接 进行 解除 引用 操作 。 因 此 ， 在 路 
径 /somedirsomesubdivfile 中 ， 知 somedir 和 somesubdir 属于 符号 链接 ， 
则 一 定 会 解除 对 这 两 个 目录 的 引用 ， 而 针对 file 是 否 进行 解 引用 与 人 否 ， 
则 取决 于 路 径 名 所 传 入 的 系统 调用 。 














18.11 节 描述 了 一 组 自 版 本 2.6.16 加 入 的 系统 调用 ， 对 








表 18-1 所 展示 的 部 分 接口 功能 有 所 扩展 。 对 于 其 中 的 茶 些 
调用 而 言 ， 可 以 利用 flags 参 数 来 控制 是 售 对 符号 链接 进行 
解 引 用 操作 。 





符号 链接 的 文件 权限 和 所 有 权 


大 部 分 操作 会 无 视 符号 链接 的 所 有 权 和 权限 《创建 符 号 链接 时 会 为 
其 赋予 所 有 权限 ) 。 是 人 否 允 许 操作 反而 是 由 符 写 链接 所 指 代 文件 的 所 有 
权 和 权限 来 决定 。 仅 当 在 帝 有 粘性 权限 位 〈15.4.5 节 ) 的 目录 中 对 符 扎 
链接 进行 移 除 或 改名 操作 时 ， 才 会 考 愿 符号 链接 目 身 的 所 有 权 。 





18.3 GARR CE) 链接 : link0 和 unlink() 
link0 和 unlinkO 系 统 调 用 分 别 创建 和 移 除 硬 链接 。 





#include <unistd.h> 


int link(const char *oldpath, const char *newpath); 








Returns 0 on success, or -1 on error 





各 oldpath 中 提供 的 是 一 个 已 存在 文件 的 路 径 名 ， 则 系统 调用 link0 
将 以 newpath 参 数 所 指定 的 路 径 名 创建 一 个 新 链接 。 知 newpath 指 定 的 路 
径 名 已 然 存 在 ， 则 不 会 将 其 敢 盖 ， 相反， 将 产生 一 个 错误 
(EEXIST) . 


在 Linux 中 ，linkO 系 统 调用 不 会 对 符号 链接 进行 解 引 用 操作 。 知 
oldpath 属 于 符号 链接 ， 则 会 将 newpath 创 建 为 指向 相同 符号 链接 文件 的 
全 新 便 链 接 。 (换言之 ，newpath 也 是 符号 链接 ， 指 癌 oldpath 所 指 代 的 
同一 文件 。〉 这 一 行为 有 悖 于 SUSv3 规 范 。SUSv3 要 求 ， 除 非 男 行规 定 
GinkO 系 统 调 用 不 在 此 列 ) ， 人 否则 所 有 执行 路 径 名 解析 操作 的 函数 都 
应 对 符号 链接 进行 解 引用 。 大 多 数 其 他 UNIX 实 现 的 行事 方式 都 与 
SUSv3 相 符 。 值 得 注意 的 是 ，Solaris 是 个 例外 ， 默 认 情 况 下 的 行为 与 
Linux 相 同 。 但 知 采 用 适当 的 编译 器 选项 ， 又 可 提供 符合 SUSv3 规 范 的 
行为 。 鉴 于 系统 实现 间 的 这 种 差异 ， 应 避免 将 oldpath 参 数 指定 为 符号 链 
接 ， 以 保障 程序 的 可 移植 性 。 














SUSv4 承 认 现 有 实现 间 存 在 不 一 致 性 ， 同 时 规定 link() 
调用 对 符号 链接 解 引 用 与 否 由 实现 定义 。SUSv4 还 将 
linkatO 纳 入 规范 ， 在 执行 与 jnk0 相 同 任 务 的 同时 ， 可 利用 
flag 参 数 来 控制 调用 是 否 解析 符号 链接 。 更 多 细节 参见 
18.11 节 。 





#include <unistd.h> 


int unlink(const char *pathname) ; 


Returns 0 on success, or -1 on error 











unlinkO 系 统 调用 移 除 一 个 链接 〈 删 除 一 个 文件 名 ) ， 且 如 果 此 链 
接 是 指向 文件 的 最 后 一 个 链接 ， 那 么 还 将 移 除 文件 本 身 。 若 pathname 中 
旨 定 的 链接 不 存在 ， 则 unlinkO 调 用 失败 ， 并 将 errno 置 为 ENOENT。 


unlink() 不 能 移 除 一 个 目录 ， 完 成 这 一 任务 需要 使 用 rmdir() 或 
remove()， 将 于 18.6 节 进行 介绍 。 


SUSv3 规 定 ， 若 pathname 中 指定 的 是 一 个 目录 ， 则 
unlinkO 调 用 失败 ， 并 将 errno 置 为 EPERM。 然 而， 在 Linux 
中 ，unlink0 在 这 种 情况 下 会 将 errno 置 为 EISDIR 值 。 (对 于 
与 SUSv3 间 的 这 一 差别 ，LSB 倒 也 并 不 讳言 。) 为 保障 可 
移植 性 ， 应 用 程序 在 检查 这 种 情况 时 应 做 两 手 准 备 。 


unlinkO 系 统 调用 不 会 对 符号 链接 进行 解 引用 操作 ， 大 pathname 为 符 
号 链接 ， 则 移 除 链接 本 身 ， 而 非 链接 指 癌 的 名 称 。 


仅 当 关闭 所 有 文件 描述 符 时 ， 方 可 删除 一 个 已 打开 的 文件 


内 核 除 了 为 每 个 inode 维 护 链接 计数 之 外 ， 还 对 文件 的 打开 文件 描 
述 ( 参 见 图 5-2) 计数 。 当 移 除 指 同 文件 的 最 后 一 个 链接 时 ， 如 果 仍 有 
进程 持 有 指 代 该 文件 的 打开 文件 描述 符 ， 那 么 在 关闭 所 有 此 类 描述 符 之 
前 ， 系 统 实际 上 将 不 会 删除 该 文件 。 这 一 特性 的 妙用 在 于 允许 取消 对 文 
件 的 链接 ， 而 无 需 担心 是 否 有 其 他 进程 已 将 其 打开 。 然而 ， 对 于 链接 
数 已 降 为 0 的 打开 文件 ， 就 无 法 将 文件 名 与 其 重新 关联 起 来 。) 此 外 ， 
基于 上 述 事实 ， 还 可 以 玩 点 小 技巧 : 先 创建 并 打开 一 个 临时 文件 ， 随 即 
取消 对 文件 的 链接 Cunlink) ， 然 后 在 程序 中 继续 使 用 该 文件 。《〈 这 正 
是 5.12 节 所 述 tmnpfile0 函 数 的 所 作 所 为 。) 


程序 清单 18-1 对 此 现象 做 了 展示 。 
程序 清单 18-1: 使 用 unlinkO 移 除 一 个 链接 


dirs_links/t_unlink.c 


#include <sys/stat.h> 
#include <fcntl.h> 
#include "tlpi_hdr.h" 


#define CMD SIZE 200 
#define BUF_SIZE 1024 


int 
main(int argc, char *argv[]) 


int fd, j, numBlocks; 
char shellCmd[CMD SIZE]; /* Command to be passed to system() */ 
char buf[BUF_SIZE]; /* Random bytes to write to file */ 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s temp-file [num-1kB-blocks] \n", argv[0]); 


numBlocks = (argc > 2) ? getInt(argv[2], GN_GT_0, “num-1kB-blocks") 
: 100000; 


fd = open(argv[1], O WRONLY | O CREAT | O EXCL, S IRUSR | S IWUSR); 
if (fd == =i) 
errExit("open"); 


if (unlink(argv[1]) == -1) /* Remove filename */ 
errExit("unlink"); 


for (j = 0; j < numBlocks; j++) /* Write lots of junk to file */ 
if (write(fd, buf, BUF SIZE) != BUF SIZE) 
fatal("partial/failed write"); 


snprintf(shellCmd, CMD SIZE, "df -k “dirname %s`", argv[1]); 
system(shel1Cmd) ; /* View space used in file system */ 


if (close(fd) == -1) /* File is now destroyed */ 
errExit("close"); 
printf ("***##***** Closed file descriptor\n"); 


system(shellCmd) ; /* Review space used in file system */ 
exit(EXIT_ SUCCESS); 


dirs_links/t_unlink.c 


程序 清单 18-1 中 程序 接受 两 个 命令 行 参 数 。 第 一 个 参数 标识 程序 应 
该 创建 的 文件 名 称 。 程 序 打开 此 文件 后 随即 取消 与 文件 名 的 链接 。 虽 然 


文件 名 已 消失 ， 但 是 文件 本 身 依然 存在 。 然 后 程序 同文 件 随机 写 入 一 些 
数据 块 ， 数 据 块 数量 由 程序 的 第 二 个 命令 行 参 数 〈 可 选项 ) 指定 。 这 
时 ， 程 序 会 利用 df(1) 命 令 显示 文件 系统 的 空间 使 用 情况 。 程 序 接着 会 关 
闭 文 件 描 述 符 ， 系 统 因 之 而 将 文件 移 除 ， 程 序 会 再 次 使 用 df(1) 命 令 来 显 
a ee arene 
SATU: 


$ ./t_unlink /tmp/tfile 1000000 





Filesystem 1K-blocks Used Available Use% Mounted on 
/dev/sda10 5245020 3204044 2040976 62% / 
FAAAAAEEKK Closed file descriptor 

Filesystem 1K-blocks Used Available Use% Mounted on 
/dev/sda10 5245020 2201128 3043892 42% / 


RE Pris 718-1 (8 H system() eK Tshelltit+, 27.6 
节 将 对 此 函数 做 详细 描述 。 


18.4 更 改 文 件 名 : rename() 


借助 于 rename(O 系 统 调用 ， 既 可 以 重 命名 文件 ， 又 可 以 将 文件 移 至 
FSF At FAY A HR: 





#include <stdio.h> 


int rename(const char *oldpath, const char *newpath); 


Returns 0 on success, or -1 on error 











调用 会 将 现 有 的 一 个 路 径 名 oldpath 重 命名 为 newpath 参 数 所 指定 的 
路 径 名 。 


rename() 调 用 仪 操 作 目 录 条 目 ， 而 不 移动 文件 数据 。 改 名 既 不 影响 
指 问 该 文件 的 其 他 硬 链 接 ， 也 不 影响 持 有 ee eee 
程 ， 因 为 这 些 文件 描述 符 指 向 的 是 打开 文件 摘 述 ，《 在 调用 open0) 之 
与 文件 名 并 无 瓜 锡 。 


以 下 规则 适用 与 对 rename() 的 调用 。 


若 newpath 己 经 存在 ， 则 将 其 被 新 。 

若 newpath 与 oldpath 指 癌 同 一 文件 ， 则 不 发 生变 化 ( 且 调 用 成 

功 ) 。 这 很 不 合 常 理 。 顺 着 上 一 条 规则 的 思路 ， 通 常 的 推 师 是 : 如 
果 两 个 文件 名 x 和 y 都 存在 ， 那 么 调用 rename("x","y") 时 应 当 把 x 移 除 
才 是 。 但 如 果 x 和 y 链 接 的 是 同一 文件 ， 事 实 却 并 非 如 此 。 








WY 


后 








此 规则 源 于 早期 的 BSD 实 现 ， 其 动机 可 能 是 出 于 这 样 
的 考虑 : 要 保障 诸如 rename ("x", "x") 、 
rename ("x", "/x") 以 及 rename ("x", "somedir/../x") 之 类 
的 调用 不 会 移 除 文件 ， 内 核 必须 进行 检查 。 而 这 种 设计 则 
有 助 于 简化 这 一 检查 。 


rename(O 系 统 调 用 对 其 两 个 参数 中 的 符号 链接 均 不 进行 解 引 用 。 如 

果 oldpath 是 一 符号 链接 ， 那 么 将 重 命名 该 符号 链接 。 如 果 newpath 

是 一 符号 链接 ， 那 么 会 将 其 视 为 由 oldpath 重 命名 而 成 的 普通 路 径 名 
( 即 移 除 已 有 的 符 写 链接 newpath)〉。 

如 果 oldpath 指 代 文 件 ， 而 非 目 录 ， 那 么 就 不 能 将 newpath 指 定 为 一 

个 目录 的 路 径 名 否则 将 errmo 置 为 EISDIR) 。 要 想 重 命名 一 个 文 

件 到 某 一 目录 中 【《〈 亦 即将 文件 移 到 另 一 目录 ) ，newpath 必 须 包 含 

。 如 下 调用 既 将 一 个 文件 移动 到 另 一 目录 中 ， 同 时 又 将 

其 改名 : 

rename("sub1/x", "sub2/y"); 

若 将 oldpath 指 定 为 目录 名 ， 则 意 在 重 命名 该 日 录 。 这 种 情况 下 ， 必 

须 保 证 newpth 要 么 不 存在 ， 要 么 是 一 个 空 目 录 的 名 称 。 无 论 

newpath 是 一 个 已 有 文件 还 是 一 个 非 空 目 录 ， 调 用 都 将 出 错 《〈 分 别 

将 ermo 置 为 ENOTDIR 和 ENOTEMPTY) 。 

知 oldpath 是 一 目录 ， 则 newpath 不 能 包含 oldpath 作 为 其 目录 前 绥 。 

例如 ， 不 能 将 /home/mtk 重 命名 为 home/mtk/bin〔 错 误 为 

EINVAL) 。 

oldpath 和 newpath 所 指 代 的 文件 必须 位 于 同一 文件 系统 。 之 所 以 如 

此 ， 是 因为 目录 内 容 由 硬 链接 列表 组 成 ， 且 人 硬 链 接 所 指 回 的 i-node 

与 目录 位 于 同一 文件 系统 。 如 前 所 述 ，rename(O 仅 限于 操作 目录 列 

表 的 内 容 。 试 图 将 一 文件 重 命 名 至 不 同 的 文件 系统 将 返回 错误 

EXDEV。〔 非 要 如 此 ， 必 须 从 一 个 文件 系统 中 将 其 文件 内 容 复 制 

oe 一 文件 系统 ， 然 后 再 删除 老 文 件 。 这 正 是 mv 命令 的 功能 所 

Eo ) 























18.5 ”使 用 符号 链接 : symlink()#lreadlink() 
现在 来 看 看 用 于 创建 符号 链接 ， 以 及 检查 其 内 容 的 系统 调用 。 


symlinkO 系 统 调用 会 针对 由 filepath 所 指定 的 路 径 名 创建 一 个 新 的 符 
号 链接 一 一 linkpath。 〈 想 移 除 符号 链接 ， 需 使 用 unlinkO 调 用 。) 








#include <unistd.h> 


int symlink(const char *filepath, const char *linkpath) ; 





Returns 0 on success, or -1 on error 











各 linkpath 中 给 定 的 路 径 名 已 然 存 在 ， 则 调用 失败 〈 且 将 errno 置 为 
EEXIST) > 由 filepath 指 定 的 路 径 名 可 以 是 绝对 路 径 ， 也 可 以 是 相对 路 


径 。 


由 filepath 所 命名 的 文件 或 目录 在 调用 时 无 需 存 在 。 即 便当 时 存在 ， 
也 无 法 阻止 后 来 将 其 删除 。 这 时 ，linkpath 成 为 “ 甚 空 链 接 *"， 其 他 系统 调 
用 试图 对 其 进行 解 引用 操作 都 将 出 错 “通常 错误 写 为 ENOENT) 。 


如 果 指 定 一 符号 链接 作为 open0 调 用 的 pathname 参 数 ， 那 么 将 打开 
链接 指 回 的 文件 。 有 时 ， 倒 宁愿 获取 链接 本 身 的 内 容 ， 即 其 所 指 同 的 路 
径 名 。 这 正 是 readlinkO 系 统 调用 的 本 职工 作 ， 将 符号 链接 字符 串 的 一 份 
副本 置 于 buffer 指 同 的 字符 数组 中 。 











#include <unistd.h> 


ssize t readlink(const char *pathname, char *buffer, size t bufsiz); 








Returns number of bytes placed in buffer on success, or -1 on error 





bufsiz 是 一 个 整 型 参数 ， 用 以 告知 readlinkO 调 用 buffer 中 的 可 用 字 节 
数 。 


如 果 一 切 顺 利 ，readlink0 将 返回 实际 放 入 buffer 中 的 字 节 数 。 奋 链 
接 长 度 超过 bufsiz， 则 置 于 buffer 中 的 是 经 截断 处 理 的 字符 串 《〈 并 返回 字 
符 串 大 小 ， 亦 即 bufsiz) 。 


由 于 buffer 尾 部 并 未 放置 终止 空 字符 ， 故 而 也 无 法 分 辨 readlink() 所 
返回 的 字符 串 到 底 是 经 过 截断 处 理 ， 还 是 恰巧 将 buffer 填 满 。 验 证 后 者 
的 方法 之 一 是 重新 分 配 一 块 更 大 的 buffer， 并 再 次 调用 readlink()。 男 
外 ， 还 可 以 将 pathname 的 长 度 定 义 为 常量 PATH_MAX (参见 11.1 节 )， 
该 常量 定义 了 程序 可 拥有 的 最 长 路 径 名 长 度 。 


程序 清单 18-4 演 示 了 readlink() 的 用 法 。 











为 限制 符号 链接 中 所 能 存储 的 最 大 字 节 数 ，SUSv3 定 
义 了 一 个 新 限制 SYMLINK_MAX， 要 求 系统 实现 对 此 加 以 
定义 ， 并 规定 其 不 得 少 于 255 个 字 节 。 写 作 本 书 时 ，Linux 
尚未 对 此 限制 作出 定义 。 而 正文 之 所 以 建议 使 用 
PATH_ MAX， 是 因为 该 限制 至 少 与 SYMLINK_MAX 大 小 
相当 。 


SUSvV2 将 readlink() 的 返回 类 型 定义 为 int， 而 当前 的 许 
多 实现 〈 以 及 Linux 中 较 老 版 本 的 glibc) 对 此 奉行 不 悖 。 
SUSv3 则 将 readlink0O 的 返回 值 类 型 改 为 ssize _t。 


18.6 ”创建 和 移 除 目录 : mkdir0 和 rmdir(0) 
mkdir() 系 统 调用 创建 一 个 新 目录 。 





#include <sys/stat.h> 


int mkdir(const char *pathname, mode t mode); 


Returns 0 on success, or -1 on error 











pathname 人 参数 指定 了 新 目录 的 路 径 名 。 访 路径 名 可 以 是 相对 路 径 ， 
也 可 以 是 绝对 路 径 。 知 具有 该 路 径 名 的 文件 已 经 存在 ， 则 调用 失败 并 将 
errno 置 为 EEXIST。 


对 新 目录 所 有 权 的 设置 遵循 15.3.1 节 所 述 规则 。 


mode 人 参数 指定 了 新 目录 的 权限 。 (15.3.1、15.3.2 和 15.4.5 各 节 描 述 
了 目录 权限 位 的 含义 。) 对 该 位 掩 码 值 的 指定 方式 既 可 以 与 openO 调 用 
相同 对 表 15-4 所 列 各 常量 进行 或 (|) 操 作 ， 也 可 直接 赋予 八进制 数 
值 。 既 定 的 mode 值 还 将 于 进程 掩 码 相 与 (&) 〈 人 参见 15.4.6 节 ) 。 田 
外 ，set-ruser-ID 位 始终 处 于 关闭 状态 ， 因 为 该 位 对 于 目录 而 言 坚 无 意 
Mo 


que fEmode t REA J Rain (S_ISVTX) ， 那 么 将 对 新 目录 设置 
该 权限 。 


调用 还 会 忽略 在 mode 中 设置 的 set-group-ID 位 (S_ISGID) 。 相 反 ， 
看 对 其 父 目 录 设 置 了 set-group-ID 位 ， 则 同样 会 对 新 建 目 录 设 置 该 权限 。 
15.3.1 节 曾 指出 ， 对 目录 设置 setrgroup-ID 权 限 位 将 导致 目录 中 新 建文 件 
的 组 ID 取 自 目录 组 ID， 而 非 进程 有 效 组 ID 。mkdirO 系 统 调用 按 此 处 摘 
A 限 位 ， 以 保证 目录 下 所 有 子 目录 的 行为 均 
甩 持 一 致 。 


SUSv3 明 文 规定 ，mkdir0 对 set-user-ID、set-group-ID 以 及 粘 清 位 的 
处 理 方 式 由 实现 定义 。 某 些 UNIX 实 现在 新 建 目录 时 总 是 关闭 这 3 个 权限 
位 。 



































新 建 目录 包括 两 个 条 目 : .《〈 点 ) ， 即 指向 目录 自身 的 链接 ;，..〈 点 
Fa) ， 即 指向 父 目 录 的 链接 。 





SUSv3 并 未 要 求 目 录 中 包括 .和 .. 条 目 ， 只 是 要 求 当 路 径 
中 出 现 .和 .. 时 ， 实 现 应 能 正确 解释 。 若 要 保证 应 用 程序 的 
可 移植 性 ， 则 不 应 假设 目录 中 存在 这 些 条 目 。 








mkdir0 系 统 调用 所 创建 的 仅仅 是 路 径 名 中 的 最 后 一 部 分 。 换 言 之 ， 
mkdir("aaa/bbb/ccc"，mode) 仅 当 目 录 aaa 和 aaa/bbb 已 经 存在 的 情况 下 才 
会 成 功 。〔 这 相当 于 mkdir(1) 命 令 的 默认 行为 ， 但 mkdir(1) 同 时 也 提供 -p 
选项 ， 可 将 不 存在 的 中 间 目 录 一 一 创建 。) 





GNU C 语 言 库 提供 有 mkdtemp(template) 函 数 ， 可 谓 
mkstemp() 函 数 的 “目录 ”版 。 该 函数 会 创建 一 个 唯一 命名 的 
目录 ， 在 对 所 有 者 开启 读 、 写 和 执行 权限 的 同时 ， 不 对 任 
何其 他 用 户 赋予 任何 权限 。 不 过 ，mkdtempO 所 返回 的 并 非 
一 个 文件 摘 述 符 ， 而 是 一 枚 指针 ， 指 问 经 过 修改 处 理 的 字 
符 串 ， 内 含 template 中 的 实际 目录 名 。 该 函数 并 未 纳入 
SUSv3 规 范 ， 也 未 获得 所 有 UNIX 实 现 的 支持 ， 但 SUSv4 对 
SEE ee 





rmdir0 系 统 调 用 移 除 由 pathname 指 定 的 目录 ， 该 目录 可 以 是 绝对 路 
径 名 ， 也 可 以 是 相对 路 径 名 。 





#include <unistd.h> 


int rmdir(const char *pathname) ; 








Returns 0 on success, or -1 on error 





要 使 rmdir0 调 用 成 功 ， 则 要 删除 的 目录 必须 为 空 。 如 果 pathname 的 
最 后 一 部 分 为 符号 链接 ， 那 么 rmdir() 调 用 将 不 对 其 进行 解 引用 操作 ， 并 
返回 错误 ， 同 时 将 errno 置 为 ENOTDIR。 





18.7 移 除 一 个 文件 或 目录 : remove() 
remove() 库 函数 移 除 一 个 文件 或 一 个 空 目 录 。 





#include <stdio.h> 


int remove(const char *pathname); 








Returns 0 on success, or -1 on error 





如 果 pathname 是 一 文件 ， 那 么 remove() 去 调用 unlink(); 如 果 
pathname 为 一 目录 ， 那 么 remove() 去 调用 rmdir()。 


与 unlink0、rmdir0 一 样 ，remove0 不 对 符号 链接 进行 解 引 用 操作 。 
若 pathname 是 一 符号 链接 ， 则 remove0 会 移 除 链接 本 身 ， 而 非 链接 所 指 
[AI EN SC 


如 果 移 除 一 个 文件 只 是 为 创建 同名 新 文件 做 准备 ， 那 么 编码 时 使 用 
remove0 函 数 会 更 加 简单 ， 无 需 再 去 检查 目录 名 所 指 是 文件 还 是 目录 ， 
然后 再 决定 是 调用 unlink0O 还 是 rmdir0。 








remove(O 属 于 C 语 言 标准 库 函 数 ， 广 为 UNIX 和 非 UNIX 
系统 所 支持 。 大 多 数 非 UNIX 系 统 并 不 支持 硬 链 接 ， 所 以 将 
移 除 文件 的 函数 命名 为 unlink0O 也 不 合 情 理 。 


18.8 HX: opendir() 和 readdir() 
本 市 所 述 库 函 数 可 用 于 打开 一 个 目录 ， 并 逐一 获取 其 包含 文件 的 名 





称 。 


读 取 目录 的 库 函 数 均 以 getdents() 系 统 调用 (未 纳入 
SUSv3 规 范 ) 为 基础 ， 但 其 接口 更 易于 使 用 。Linux 还 提供 
了 readdir(2) 系 统 调用 (相对 于 此 处 描述 的 readdir(3) 库 函 
数 ) ， 所 执行 的 任务 类 似 于 getdents()， 也 因 之 而 遭 废止 。 








opendir() 函 数 打 开 一 个 目录 ， 并 返回 指 同 该 目录 的 句 顶 ， 供 后 续 
用 。 





#include <dirent.h> 


DIR *opendir(const char *dirpath) ; 
Returns directory stream handle, or NULL on error 











opendir() K 247 FF 由 dirpath 指 定 的 目录 ， 并 返回 指 同 DIR 类 型 结构 
的 指针 。 该 结构 即 所 谓 目 录 流 〈directory stream) ， 亦 即 调用 者 传递 给 
下 述 其 他 函数 的 句柄 。 一 旦 从 opendir0O 返 回 ， 则 将 目录 流 指 向 目录 列表 
的 首 条 记录 。 

除了 要 创建 的 目录 流 所 针对 的 目录 由 打开 文件 描述 符 指 代 之 外 ， 
fdopendir() 与 opendir() 并 无 不 同 。 








#include <dirent.h> 


DIR *fdopendir(int fd); 





Returns directory stream handle, or NULL on error 








提供 fdopendirO 函 数 ， 意 在 帮助 应 用 程序 免 受 18.11 节 所 述 各 种 竞 态 
条 件 的 困扰 。 


调用 fdopendir0) 成 功 后 ， 文 件 描述 符 将 处 于 系统 的 控制 之 下 ， 且 除 
了 利用 本 节余 下 部 分 所 摘 述 的 函数 之 外 ， 程 序 不 应 采取 任何 其 他 方式 对 
其 进行 访问 。 

SUSv4 定 义 了 fdopendirO 函 数 〈 但 SUSv3 并 未 将 其 纳入 规范 ) 。 

readdir() 函 数 从 一 个 目录 流 中 读 取 连续 的 条 目 。 








#include <dirent.h> 


struct dirent *readdir(DIR *dzrp); 


Returns pointer to a statically allocated structure describing 
next directory entry, or NULL on end-of-directory or error 











每 调用 readdir0 一 次 ， 束 会 从 dirp 所 指 代 的 目录 流 中 读 取 下 一 目录 条 
目 ， 并 返回 一 枚 指针 ， 指 回 经 静态 分 配 而 得 的 dirent 类 型 结构 ， 内 含 与 
该 条 目 相 关 的 如 下 信息 : 


struct dirent { 
ino_t d_ino; /* File i-node number */ 
char d_name[]; /* Null-terminated name of file */ 


}; 
每 次 调用 readdir0 都 会 履 盖 该 结构 。 


出 于 对 程序 可 移植 性 的 考虑 ， 上 述 定义 略 去 了 Linux 
dirent 结 构 中 的 各 种 非 标准 字段 。 这 其 中 最 令 人 感 兴趣 的 当 
属 d_type， 它 同时 获得 了 BSD 流 派 的 支持 ， 但 并 未 在 其 他 
UNIX 系 统 中 实现 。 该 属性 值 用 于 标识 命名 于 d_name 之 中 文 
件 的 类 型 ， 诸 如 DT_REG (普通 文件 ) ~ DT_DIR (H 
录 ) 、DT_LNK (符号 链接 ) 或 DT_FIFO (FIFO). (这 
些 名 称 类 似 于 表 15-1 所 列 诸 宏 。) 利用 该 属性 值 可 省 去 为 


确定 文件 类 型 而 对 lstat 0 的 调用 。 注 意 ， 写 作 本 书 时 ， 该 属 
性 仅 获 得 Btrfs、ext2、ext3 以 及 ext4 的 全 面 支持 。 


调用 ]stat() 〈 或 者 stat0)， 如 果 应 对 符号 链接 解 引 用 时 ) 可 获得 
d_name 上 所 指 癌 文件 的 更 多 信息 ， 其 中 ， 路 径 名 由 之 前 调用 opendirO 时 指 
定 的 dirpath 参 数 与 “字符 以 及 d_name 字段 的 返回 值 拼 接 组 成 。 


readdir() 返 回 时 并 未 对 文件 名 进行 排序 ， 而 是 按照 文件 在 目录 中 出 
现 的 天 然 次 序 〈( 这 取决 于 文件 系统 同 目录 添加 文件 时 所 遵循 的 次 序 ， 及 
其 在 删除 文件 后 对 目录 列表 中 空 际 的 填补 方式 ) 。 (命令 ls 了 f 对 文件 列 
表 的 排列 与 调用 readdirO 时 一 样 ， 均 未 做 排序 处 理 。) 

















使 用 scandir(3) 函 数 可 以 获得 经 过 排序 处 理 的 文件 列 
表 ， 且 排列 规则 可 由 程序 员 定 义 ， 有 具体 细节 请 参考 手册 
页 。 尽 管 该 函数 未 获 SUSv3 接 纳 ， 但 得 到 了 大 多 数 UNIX 实 
现 的 支持 。SUSv4 也 对 scandir0 作 了 定义 。 








一 旦 遇 到 目录 结尾 或 是 出 错 ，readdir0 将 返回 NULL， 针 对 后 一 种 情 
况 ， 还 会 设置 errno 以 示 有 具体 错误 。 为 了 区 别 这 两 种 情况 ， 可 编码 如 下 : 


errno = 0; 
direntp = readdir(dirp); 
if (direntp == NULL) { 
if (errno != 0) { 
/* Handle error */ 
} else { 
/* We reached end-of-directory */ 
} 


} 








如 果 目 录 内 容 恰 着 应 用 调用 readdir0 扫 摘 该 目录 时 发 生变 化 ， 那 么 
应 用 程序 可 能 无 法 观察 到 这 些 变动 。SUSv3 明 确 指 出 ， 对 于 readdirO 是 











侣 会 返回 自 上 次 调用 opendir0 或 rewinddirO 后 在 目录 中 增 减 的 文件 ， 规 
范 不 做 要 求 。 至 于 最 后 一 次 执行 上 述 调用 前 束 存 在 的 文件 ， 应 确保 其 全 


部 返回 。 
rewinddir() 函 数 可 将 目录 流 回 移 到 起 点 ， 以 便 对 readdir() 的 下 一 次 调 
用 将 从 目录 的 第 一 个 文件 开始 。 











#include <dirent.h> 





void rewinddir(DIR *dirp); 
closedir0 函 数 将 由 dirp 指 代 、 处 于 打开 状态 的 目录 流 关 闭 ， 同 时 释 
放流 所 使 用 的 资源 。 











#include <dirent.h> 


int closedir(DIR *dirp); 





Returns 0 on success, or -1 on error 














SUSv3 还 定义 了 两 个 高 级 函数 : telldir0 和 seekdir0， 人 允许 随机 访问 
目录 流 。 有 关 这 些 函 数 的 深入 信息 请 参考 手册 页 。 





目录 流 与 文件 描述 符 
有 一 个 目录 流 ， 就 有 一 个 文件 描述 符 与 之 关联 。dirfd0 函 数 返 回 与 
dirp 目 录 流 相关 联 的 文件 描述 符 。 





#include <dirent.h> 


int dirfd(DIR *dirp); 





Returns file descriptor on success, or -1 on error 








例如 ， 将 dirfd0 返 回 的 文件 描述 符 传 递 给 fchdirO0 〈 参 见 18.10 节 ) , 
就 可 以 把 进程 的 当前 工作 目录 改 成 相应 目录 。 此 外 ， 还 可 以 将 其 传递 给 
18.11 节 所 述 各 函数 的 dirfd 参 数 。 

dirfd0 函 数 还 见 诸 于 BSD 系 统 ， 但 在 其 他 实现 中 则 鲜 有 踪迹 。 该 函 
数 未 获 SUSv3 接 纳 ， 但 SUSv4 则 对 其 做 了 规范 。 





这 里 值得 一 提 的 是 ，opendir0O 会 为 与 目录 流 相 关联 的 文件 描述 符 自 
动 设置 close-on-exec 标 志 (FD_CLOEXEC) ， 以 确保 当 执行 execO 时 自 
动 关闭 该 文件 描述 符 。 〈SUSv3 要 求 这 一 行为 。) close-on-exec 标 志 将 
在 27.4 节 加 以 描述 。 


示例 程序 
程序 清单 18-2 使 用 opendir()、readdir() 和 closedir() 函 数 来 列 出 由 命令 


行 参 数 所 指定 各 目录 的 内 容 《〈 知 未 提供 参数 则 为 当前 工作 目录 ) 。 以 下 
征 运 行 该 程序 的 一 个 例子 : 


$ mkdir sub Create a test directory 

$ touch sub/a sub/b Make some files in the test directory 
$ ./list_files sub List contents of directory 

sub/a 

sub/b 











程序 清单 18-2: 扫描 一 个 目录 























dirs_links/list_files.c 


#include <dirent.h> 
#include "tlpi_hdr.h" 


static void /* List all files in directory ‘dirPath' */ 
listFiles(const char *dirpath) 
{ 


DIR *dirp; 
struct dirent *dp; 
Boolean isCurrent; /* True if ‘dirpath' is "." */ 


isCurrent = strcmp(dirpath, ".") == 0; 


dirp = opendir(dirpath) ; 

if (dirp == NULL) { 
errMsg("opendir failed on '%s'", dirpath); 
return; 


/* For each entry in this directory, print directory + filename */ 


for (55) { 
errno = 0; /* To distinguish error from end-of-directory */ 
dp = readdir(dirp); 
if (dp == NULL) 
break; 


if (strcmp(dp->d_name, ".") == 0 || strcmp(dp->d_name, "..") == 0) 
continue; /* Skip . and .. */ 


if (!isCurrent) 
printf("%s/", dirpath); 
printf("%s\n", dp->d_name) ; 
} 


if (errno != 0) 
errExit("readdir"); 


if (closedir(dirp) == -1) 
errMsg("closedir"); 


} 
int 
main(int argc, char *argv[]) 


if (argc > 1 && strcmp(argv[1], "--help") == 0) 
usageErr("%s [dir...]\n", argv[0]); 


if (argc == 1) /* No arguments - use current directory */ 
listFiles("."); 


else 
for (argv++; *argv; argv++) 
listFiles(*argv) ; 


exit (EXIT_SUCCESS) ; 


dirs links/list_files.c 
readdir_r() K 2 


readdir_rO0 函 数 是 readdir0 的 变 体 。 二 者 之 间 语 义 上 的 关键 差异 在 于 
前 者 是 可 重 入 的 ， 而 后 者 不 是 。 这 是 因为 readdir_r() 对 文件 条 目的 返回 
利用 的 是 由 调用 者 分 配 的 entry 参 数 ， 而 readdir0 则 是 将 信息 置 于 静态 分 
配 的 结构 并 返回 其 指针 。21.1.2 节 和 31.1 节 讨论 了 可 重 入 性 


(reentrancy) 。 








#include <dirent.h> 


int readdir_r(DIR *dirp, struct dirent *entry, struct dirent **result) ; 








Returns 0 on success, or a positive error number on error 





针对 既定 dirp， 亦 即 之 前 调用 opendirO0 所 打开 的 目录 流 ，readdir_r() 
将 下 一 项 目录 条 目 置 于 由 entry 指 癌 的 dirent 结 构 中 。 男 外 ， 还 会 在 
result 由 中 放置 指向 该 结构 的 一 枚 指针 。 如 果 抵 达 目 录 流 尾部 ， 那 么 会 在 
result 包 中 返回 NULL 〈 且 readdir_rO0 返 回 0) 。 当 出 现 错误 时 ，readdir_r0) 
不 会 返回 -1， 而 是 返回 一 个 对 应 于 ermo 的 正 整 型 值 。 


在 Linux 中 ，dirent 结 构 的 d_name 字 段 是 大 小 为 256 字 节 的 一 个 数 
组 ， 足 以 容纳 可 能 出 现 的 最 长 文件 名 。 虽 然 有 几 个 其 他 的 UNIX 实 现 也 
为 d_ name 定 义 了 相同 的 大 小 ， 但 SUSv3 对 此 却 并 做 规定 ， 而 另 一 些 
UNIX 实 现 则 将 该 字段 定义 为 1 字 节 的 数组 ， 并 将 正确 分 配 结构 大 小 的 工 
作 交 给 调用 程序 。 这 时 ， 应 将 d_name 字 段 大 小 设 定 为 常量 
NAME_MAX+1 (考虑 终止 空 字 节 ) 。 为 确保 可 移植 性 ， 应 用 程序 应 以 
如 下 方式 分 配 dirent 结 构 : 


struct dirent *entryp; 
size_t len; 











len = offsetof(struct dirent, d name) + NAME MAX + 1; 
entryp = malloc(len); 
if (entryp == NULL) 

errExit ("malloc"); 





鉴于 dirent 结 构 中 d_name 字 段 〈 该 属性 总 是 位 于 结构 的 最 后 ) 之 前 
各 类 属性 的 数量 和 大 小 在 不 同系 统 中 实现 不 一 ， 采 用 offsetofO 宏 《〈 和 定义 
于 <stddef.h> 中 ) 可 避免 程序 对 此 产生 依赖 。 





offsetofO 宏 接受 两 个 参数 一 结构 类 型 和 该 结构 中 某 
一 字段 的 名 称 一 一 并 返回 一 size_t 类 型 值 ， 亦 即 该 字段 距 结 
构 起 点 的 字 市 偏 移 量 。 这 个 宏 之 所 以 必要 ， 是 由 于 编译 占 
为 满足 诸如 int 之 类 的 类 型 的 对 齐 要 求 ， 可 能 在 结构 中 插入 
填充 字 节 。 这 会 导致 结构 中 某 一 字段 的 侦 移 量 可 能 要 大 于 
该 属性 之 前 所 有 字段 的 长 度 总 和 。 














18.9 ”文件 树 裔 历 : nftw() 


nftwO 函 数 多 许 程序 对 整个 目录 子 树 进 行 递 归 遇 历 ， 并 为 子 树 中 的 
每 个 文件 执行 条 些 操 作 ( 即 ， 调 用 由 程序 员 定 义 的 函数 )。 





nftw() 函 数 是 对 执行 类 似 功能 的 老 函数 ftw() 的 加 强 。 由 
于 提供 了 更 多 功能 ， 对 符号 链接 的 处 理 也 更 易于 把 握 
(SUSvV3 规 定 ，ftw0 的 函数 实现 无 论 是 否 对 符号 链接 进行 
解 引用 ， 均 符合 规范 ) ， 故 而 新 近 开 发 的 应 用 程序 应 考虑 
采用 nftw() (new ftw) 。SUSv3 将 nftw0 和 ftwO 均 纳入 规 
范 ， 但 SUSv4 将 后 者 标记 为 “已 废止 ”。 


GNU C 语 言 尔 数 库 也 提供 了 派生 自 BSD 分 文 的 fts 
API(fts_open()、fts_read()、fts_children()、fts_set() 和 
fts_close())。 这 些 函 数 执行 的 任务 类 似 于 ftw() 和 nftw()， 但 
在 壳 历 树 方面 为 应 用 程序 提供 了 更 大 的 灵活 性 。 然 而 ， 
为 这 些 API 目 前 尚未 获得 业界 标准 的 接纳 ， 也 鲜 有 见 诸 于 
BSD 后 裔 之 外 的 其 他 UNIX 实 现 ， 所 以 在 此 略 而 不 论 。 





nftw() 函 数 志 历 由 dirpath 指 定 的 目录 树 ， 并 为 目录 树 中 的 每 个 文件 
调用 一 次 由 程序 员 定 义 的 func 函 数 。 





#define _XOPEN_SOURCE 500 
#include <ftw.h> 


int nftw(const char *dirpath, 
int (*func) (const char *pathname, const struct stat *statbuf, 
int typeflag, struct FTW *ftwbu/f), 
int nopenfd, int flags); 
Returns 0 after successful walk of entire tree, or -1 on error, 
or the first nonzero value returned by a call to func 




















默认 情况 下 ，nftwO 会 针对 给 定 的 树 执 行 未 排序 的 前 序 过 历 ， 即 对 
各 目录 的 处 理 要 先 于 各 目录 下 的 文件 和 子 目 录 。 


当 nftw0O 这 有 历 目 录 树 时 ， 最 多 会 为 树 的 每 一 层级 打开 一 个 文件 描述 
符 。 参 数 nopenfd 指 定 了 nftwO 可 使 用 文件 描述 符 数 量 的 最 大 值 。 如 宁 目 
录 树 深度 超过 这 一 最 大 值 ， 那 么 nftw0 会 在 做 好 记录 的 前 提 下 ， 关 闭 并 
重新 打开 描述 符 ， 从 而 避免 同时 持 有 的 描述 符 数 目 突破 上 限 
nopenfd (从 而 导致 运行 越 来 越 慢 ) 。 在 较 老 的 UNIX 实 现 中 ， 有 的 系统 
要 求 每 个 进程 可 打开 的 文件 描述 符 数量 不 得 超过 20 个 ， 这 更 突显 出 这 一 
参数 的 必要 性 。 现 代 UNIX 实 现 允许 进程 打开 大 量 的 文件 描述 符 ， 因 
此 ， 在 指定 该 数目 时 出 手 可 以 大 方 一 些 〈 比 如 ，10 或 者 更 多 ) 。 


nftwO 的 flags 参 数 由 0 个 或 多 个 下 列 第 量 相 或 组成， 这些 种 量 可 对 
函数 的 操作 做 出 修正 。 


FTW_CHDIR 


在 处 理 目 录 内 容 之 前 先 调用 chdir0 进 入 每 个 目录 。 如 果 打 算 让 func 
i E E E 
用 这 一 Wi RS 











FTW_DEPTH 


对 目录 树 执行 后 序 遇 历 。 这 意味 者 ，nftw0 会 在 对 目录 本 身 执行 
func 之 前 先 对 目录 中 的 所 有 文件 〈 及 子 目 录 ) 执行 func 调 用 。〈 这 一 标 
志 名 称 容 易 引 起 误会 一 一 nftw0 过 历 目 录 树 遵循 的 是 深度 优先 原则 ， 而 
非 广度 优先 。 而 这 一 标志 的 作用 其 实 束 是 将 先 序 志 历 改 为 后 序 吉 历 。) 


FIW_MOUNT 











不 会 越界 进入 男 一 文件 系统 。 因 此 ， 如 果树 中 某 一 子 目录 是 挂 载 
点 ， 那 么 不 会 对 其 进行 遍历 。 


FTW_PHYS 


默认 情况 下 ，nftw0O 对 符号 链接 进行 解 引 用 操作 。 而 使 用 该 标志 则 
告知 nftw() 水 数 不 要 这 么 做 。 相 反 ， 函 数 会 将 符号 链接 传递 给 func 也 | 
数 ， 并 将 typeflag 值 置 为 FTW_SL， 如 下 所 述 。 


nftw() 为 每 个 文件 调用 func 时 传递 4 个 参数 。 第 一 个 参数 pathname 是 
文件 的 路 径 名 。 这 个 路 径 名 可 以 是 绝对 路 径 ， 也 可 以 是 相对 路 径 。 如 果 
指定 dirpath 时 使 用 的 是 绝对 路 径 ， 那 么 pathname 就 可 能 是 绝对 路 径 。 反 
之 ， 如 采 指 定 dirpath 时 使 用 的 是 相对 路 径 名 ， 则 pathname 中 的 路 径 可 能 
是 相对 于 进程 调用 ntfw0O 时 的 当前 工作 目录 而 言 。 第 二 个 参数 statbuf 是 
一 枚 指针 ， 指 同 stat 结 构 《〈 参 见 15.1 节 ) ， 内 会 该 文件 的 相关 信息 。 第 三 
个 参数 typeflag 提 供 了 有 关 该 文件 的 深入 信息 ， 并 具有 如 下 特征 值 之 











FTW_D 

这 是 一 个 目录 。 
FTW_DNR 

这 是 一 个 不 能 读 取 的 目录 《上 所 以 nftw0 不 能 遇 历 其 后 代 ) 。 
FTW_DP 


正在 对 一 个 目录 进行 后 序 过 历 ， 当 前 项 是 一 个 目录 ， 其 所 包含 的 文 
件 和 子 目录 已 经 处 理 完 毕 。 


FTW_F 
该 文件 的 类 型 是 除 目 录 和 符 写 链接 以 外 的 任何 类 型 。 
FTW_NS 


对 该 文件 调用 stat0 失 败 ， 可 能 是 因为 权限 限制 。Statbuf 中 的 值 未 定 
Meo 





FTW_SL 


这 是 一 个 符号 链接 。 仅 当 使 用 FTW_PHYS 标志 调用 nftw() 函 数 时 才 
返回 该 值 。 


FTW_SLN 


Re TETIT iE. MMAR TE flags au fs 7E FTW_PHY Stax 
志 时 才 会 出 现 该 值 。 


Func 的 第 四 个 参数 ftwbuf 是 一 枚 指针 ， 所 指向 结构 定义 如 下 : 


struct FTW { 
int base; /* Offset to basename part of pathname */ 
int level; /* Depth of file within tree traversal */ 


}; 


该 结构 的 base 子 段 古 指 func 函 数 中 pathname 参 数 内 文件 名 部 分 (最 
后 一 个 “字符 之 后 的 部 分 ) 的 整 型 偏 移 量 。level 字 上 段 是 指 该 条 目 相 对 于 
遍历 起 点 (其 level 为 0) 的 深度 。 





每 次 调用 func 都 必须 返回 一 个 整 型 值 ， 由 nftw0 加 以 解释 。 如 采 返 
回 0，nftwO 会 继续 对 树 进行 过 历 ， 如 宁 所 有 对 func 的 调用 均 返 回 0， 那 
么 nftw0 〇 本 里 也 将 返回 0 给 调用 者 。 硅 返回 非 0 值 ， 则 通知 nftw0 并 即 停止 
对 树 的 遍历 ， 这 时 nftw0O 也 会 返回 相同 的 非 0 值 。 


由 于 nftw0 使 用 的 数据 结构 是 动态 分 配 的 ， 故 而 应 用 程序 提前 终止 
目录 树 遍历 的 唯一 方法 就 是 让 func 调 用 返回 一 个 非 0 值 。 调 用 longjmp0) 
(6.8 市 ) 从 func 退 出 会 导致 不 可 预期 的 结果 一 一 至 少 会 引起 内 存 泄漏 。 
示例 程序 


程序 清单 18-3 展 示 了 nftw() 的 使 用 。 





























程序 清单 18-3: 使 用 nftw0O) 遍 历 目录 树 








dirs links/nftw dir tree.c 
#define XOPEN SOURCE 600 /* Get nftw() and S_IFSOCK declarations */ 
#include <ftw.h> 
#include "tlpi_hdr.h" 


static void 

usageError(const char *progName, const char *msg) 

{ 
if (msg != NULL) 

fprintf(stderr, "%s\n", msg); 

fprintf(stderr, "Usage: %s [-d] [-m] [-p] [directory-path]\n", progName) ; 
fprintf(stderr, "\t-d Use FTW DEPTH flag\n"); 
fprintf(stderr, "\t-m Use FTW MOUNT flag\n"); 
fprintf(stderr, "\t-p Use FTW_PHYS flag\n"); 
exit(EXIT FAILURE); 

} 


static int /* Function called by nftw() */ 
dirTree(const char *pathname, const struct stat *sbuf, int type, 
struct FTW *ftwb) 


switch (sbuf->st_mode & S IFMT) { /* Print file type */ 

case S IFREG: printf("-"); break; 

case S IFDIR: printf("d"); break; 

case S IFCHR: printf("c"); break; 

case S IFBLK: printf("b"); break; 

case S IFLNK: printf("1"); break; 

case S IFIFO: printf("p"); break; 

case 9 IFSOCK: printf("s"); break; 

default: printf("?"); break; /* Should never happen (on Linux) */ 


} 


printf(" %s ", 
(type == FTW_D) 
(type == FTW_DP) 
(type == FTW_SL) 
(type == FTW_NS) 


"D " : (type == FTW DNR) ? "DNR" : 
"DP" : (type == FIWF) ? "F "s 
"SL " : (type == FTW SLN) ? "SLN" : 
" NS " : Ww " ) ; 


a em: OR e 


if (type != FTW_NS) 
printf("%71ld ", (long) sbuf->st_ino); 


else 
printf(" my 
printf(" %*s", 4 * ftwb->level, ""); /* Indent suitably */ 
printf("%s\n", &pathname[ftwb->base]) ; /* Print basename */ 
return 0; /* Tell nftw() to continue */ 
} 
int 


main(int argc, char *argv[]) 
int flags, opt; 


flags = 0; 

while ((opt = getopt(argc, argv, "dmp")) != -1) { 
switch (opt) { 
case 'd': flags |= FTW DEPTH; break; 
case 'm': flags |= FTW MOUNT; break; 
case 'p': flags |= FTW_PHYS; break; 
default: usageError(argv[0], NULL); 
} 

} 


if (argc > optind + 1) 
usageError(argv[0], NULL); 


if (nftw((argc > optind) ? argv[optind] : ".", dirTree, 10, flags) == -1) { 
perror("nftw"); 
exit(EXIT_FAILURE) ; 

} 

exit (EXIT SUCCESS); 


dirs_links/nftw_dir_tree.c 


程序 清单 18-3 中 程序 以 层级 缩 进 方式 显示 了 一 个 目录 树 中 的 文件 。 
每 行 显示 一 个 文件 ， 内 容 包 括 文件 名 、 文 件 类 型 及 i-node 编 号 。 可 通过 
命令 行 选项 来 指定 nftwO 调 用 中 的 flags 参 数值 。 下 面 的 shell 会 话 展示 了 
oe 首先 创建 一 个 新 的 空 目录 ， 并 在 其 中 填充 各 种 类 
4 的 文件 。 








$ mkdir dir 

$ touch dir/a dir/b Create some plain files 

$ In -s a dir/sl and a symbolic link 

$ In -s x dir/dsl and a dangling symbolic link 
$ mkdir dir/sub and a subdirectory 

$ touch dir/sub/x with a file of its own 

$ mkdir dir/sub2 and another subdirectory 

$ chmod 0 dir/sub2 that is not readable 


AEH AET val HnftwOR že, Hflags %00: 


$ ./nftw_dir_tree dir 


dD 2327983 dir 

=F 2327984 a 

- F 2327985 b 

-F 2327984 sl The symbolic link s1 was resolved to a 
1 SLN 2327987 dsl 

dD 2327988 sub 

- F 2327989 X 

d DNR 2327994 sub2 


从 以 上 输出 可 见 ， 对 符号 链接 sl 进行 了 解析 。 


然后 再 使 用 该 程序 来 调用 nftw0O 函 数 ， 令 flags 参 数 包 售 FTW_PHYS 
和 FITW_DEPTH 标 志 : 


$ ./nftw_dir_ tree -p -d dir 


- F 2327984 a 

- F 2327985 b 

1 SL 2327986 sl The symbolic link sl was not resolved 
1 SL 2327987 dsl 

-F 2327989 x 

d DP 2327988 sub 

d DNR 2327994 sub2 

d DP 2327983 dir 


从 以 上 输出 可 见 ， 未 对 符号 链接 s1 进 行 解析 。 


nftw() 的 FTW_ACTIONRETVAL 标 识 


始 于 2.3.3 版 本 ，glibc 人 允许 在 ntfw() 的 flags 参 数 中 指定 一 个 额外 的 非 
标准 标志 FITW_ACTIONRETVAL。 此 标志 改变 了 nftw0 函 数 对 funcO) 返 
回 值 的 解释 方式 。 当 指定 该 标识 时 ，func0 应 返回 下 列 值 之 一 。 


FTW_CONTINUE 

与 传统 func() 函 数 返回 0 时 一 样 ， 继 续 处 理 目录 树 中 的 条 目 。 
FTW_SKIP_SIBLINGS. 

不 再 进一步 处 理 当 前 目录 中 的 条 目 ， 恢 复 对 父 目 录 的 处 理 。 


FTW_SKIP_SUBTREE 


如 果 pathname 是 目录 《〈 即 typeflag 为 FTW_D) ， 那 么 就 不 对 该 目录 
下 的 条 目 调用 funcO0。 恢 复 进 行 对 该 目录 的 下 一 个 同 级 目录 的 处 理 。 


FTW_STOP 


与 传统 func() 函 数 返 回 非 0 值 时 一 样 ， 不 再 进一步 处 理 目录 树 下 的 任 
何 条 目 。nftw0 将 返回 FTW_STOP 给 调用 者 。 














想 从 <ftw.h> 文 件 中 获得 对 FTW_ACTIONRETVAL 的 定义 ， 必 须 定 
义 GNU SOURCE 特性 测试 宏 。 





18.10 ”进程 的 当前 工作 目录 


一 个 进程 的 当前 工作 目录 (current working directory) 定义 了 该 进 
程 解析 相对 路 径 名 的 起 点 。 新 进程 的 当前 工作 目录 继承 自 其 父 进程 。 


获取 当前 工作 目录 
进程 可 使 用 getcwd(0) 来 获取 当前 工作 目录 。 




















#include <unistd.h> 


char *getcwd(char *cwdbuf, size_t size); 





Returns cwdbuf on success, or NULL on error 








getcwdO 函 数 将 内 合 当 前 工作 目录 绝对 路 径 的 字符 串 〈 包 括 结尾 空 
字符 ) 置 于 cwdbuf 指 疝 的 已 分 配 缓 冲 区 中 。 调 用 者 必须 为 cwdbuf 绥 冲 区 
分 配 至 少 sizeg 个 字 节 的 空间 。 (通常 ，cwdbuf 的 大 小 与 PATH_MAX 常 
量 相当 。) 


一 旦 调用 成 功 ，getcwd0) 将 返回 一 枚 指 问 cwdbuf 的 指针 。 如 果 当 前 
工作 目录 的 路 径 名 长 度 超过 size 个 字 节 ， 那 么 getcwd0 会 返回 NULL， 并 
将 errno 置 为 ERANGE。 


在 Linux/x86-32 系 统 中 ，getcwd0 返 回 指针 所 指向 的 字符 串 最 大 长 度 
可 达 4096 个 字 节 。 如 果 当 前 工作 目录 《以 及 cwdbuf 和 size) 突破 了 这 一 
限制 ， 那 么 就 会 直接 对 路 径 名 做 截断 处 理 ， 移 去 始 于 起 点 的 整个 目录 前 
缀 〈 字 符 串 仍 以 空 字符 结尾 ) 。 换 言 之 ， 当 当前 工作 目录 的 绝对 路 径 超 
出 这 一 限制 时 ，getcwd0 的 行为 也 不 再 可 靠 。 








实际 上 ，Linux 的 getcwd0O 系 统 调 用 为 要 返回 的 路 径 名 
在 内 部 分 配 了 一 个 虚拟 内 存 页 。x86-32 架 构 的 页 大 小 为 
4096 字 节 ， 而 在 页 尺寸 更 大 的 架构 中 《〈 比 如，Alpha 的 页 大 
小 为 8192 字 节 ) ，getcwd0) 能 返回 更 长 的 路 径 名 。 








若 cwdbuf 为 NULL， 且 size 为 0， 则 glibc 封 装 函 数 会 为 getcwdO 按 需 
分 配 一 个 缓冲 区 ， 并 将 指 癌 该 缓冲 区 的 指针 作为 函数 的 返回 值 。 为 避免 
内 存 泄漏 ， 调 用 者 之 后 必须 调用 free() 来 释放 这 一 绥 冲 区 。 对 可 移植 性 
有 所 要 求 的 应 用 程序 应 当 避 人 免 依赖 该 特性 。 大 多 数 其 他 实现 则 针对 
SUSvV3 规 范 提供 了 一 个 更 为 简单 的 扩展 。 如 果 cwdbuf 是 NULL， 那 么 
getcwd() 将 分 配 一 个 大 小 为 size 字 节 的 绥 冲 区 ， 用 于 同调 用 者 返回 结果 。 
glibc 的 getcewd() 也 实现 了 这 一 特性 。 








GNU C 函 数 库 还 为 获取 当前 工作 目录 提供 了 另外 两 个 
函数 。 派 生 自 BSD 的 getwd(path) 函 数 容易 引起 缓冲 区 溢 
出 ， 因 为 该 函数 无 法 为 返回 的 路 径 名 长 度 设 定 上 限 。 
get_current_dir name0 函 数 也 会 返回 包含 当前 工作 目录 名 的 
一 个 字符 串 。 虽 然 该 函数 易于 使 用 ， 但 却 不 具有 可 移植 
性 。 考 虑 到 安全 性 和 可 移植 性 ，getcwd0 无 疑 是 不 二 之 选 
《前 提 是 避免 使 用 GNU 扩 展 功 能 














只 要 具有 合适 的 权限 (大 体 要 求 是 ， 身 为 进程 属 主 或 者 具有 
CAP_SYS_PTRACE 能 力 ) ， 就 可 通过 读 取 (readlink()) Linux 专 有 符号 
链接 /proc/PID/cwd 的 内 容 来 确定 任何 进程 的 当前 工作 目录 。 


改变 当前 工作 目录 


chdir() 系 统 调用 将 调用 进程 的 当前 工作 目录 改变 为 由 pathname 指 定 
的 相对 或 绝对 路 径 名 《〈 如 属于 符号 链接 ， 还 会 对 其 解除 引用 ) 。 




















#include <unistd.h> 


int chdir(const char *pathname) ; 


Returns 0 on success, or -1 on error 














fchdirO 系 统 调 用 与 chdir0 作 用 相同 ， 只 是 在 指定 目录 时 使 用 了 文件 
描述 符 ， 而 该 描述 符 是 之 前 调用 open0 打 开 相 应 目录 时 获得 的 。 














#define XOPEN SOURCE 500 /* Or: #define BSD SOURCE */ 
#include <unistd.h> 


int fchdir(int fd); 


Returns 0 on success, or -1 on error 














以 下 代码 片段 所 示 为 使 用 fchdirO 将 进程 的 当前 工作 目录 变 为 另 一 位 
置 ， 然 后 再 改 回 原始 位 置 : 





int fd; 

fd = open(".", O RDONLY); /* Remember where we are */ 
chdir(somepath) ; /* Go somewhere else */ 

fchdir( fd); /* Return to original directory */ 
close(fd); 


使 用 chdir0 达 到 同等 效果 的 代码 如 下 所 示 : 


char buf[PATH MAX]; 


getcwd(buf, PATH MAX); /* Remember where we are */ 
chdir(somepath) ; /* Go somewhere else */ 
chdir(buf) ; /* Return to original directory */ 


18.11 针对 目录 文件 描述 符 的 相关 操作 


始 于 版 本 2.6.16，Linux 内 核 提 供 了 一 系列 新 的 系统 调用 ， 在 执行 与 
传统 系统 调用 相似 任务 的 同时 ， 还 提供 了 一 些 附 加 功能 ， 对 茶 些 应 用 程 
序 非常 有 用 。 表 18-2 对 这 些 调用 进行 了 归纳 。 之 所 以 在 本 章 介 绍 这 些 系 
统 调用 ， 是 因为 它们 对 进程 当前 工作 目录 的 传统 语义 做 了 改动 。 


表 18-2: 系统 调用 使 用 目录 文件 描述 来 解释 相对 路 径 














类 似 的 传统 接 
口 


E 

=j 
支持 AT_SYMLINK_NOFOLLOW 标 志 
支持 AT_SYMLINK_NOFOLLOW 标 志 


























~ ( 始 于 Linux 2.6.18) AT_SYMLINK_FOLLOW 标 
m ooo 
me o 
“om | 











unlinkat() | unlink) 支持 AT_REMOVEDIR 标 志 
utimensat() 支持 AT_SYMLINK_NOFOLLOW 标 志 


为 便于 描述 这 些 系统 调用 ， 这 里 就 以 openat() 为 例 。 








#define XOPEN SOURCE 700 /* Or define POSIX C SOURCE >= 200809 */ 
#include <fcntl.h> 


int openat(int dirfd, const char *pathname, int flags, ... /* mode t mode */); 








Returns file descriptor on success, or -1 on error 





openat(O 系 统 调用 类 似 于 传统 的 open0 系 统 调用 ， 只 是 添加 了 一 个 
dirfd 参 数 ， 其 作用 如 下 。 


。 如 采 pathname 中 为 一 相对 路 径 名 ， 那 么 对 其 解释 则 以 打开 文件 描述 


e 如 条 pathname 中 为 一 相对 路 径 ， 且 dirfd 中 所 含 为 特殊 值 
AT_FDCWD， 那 么 对 pathname 的 解释 则 相对 与 进程 当前 工作 目录 
( 即 与 open(2) 行 为 一 致 〉 而 言 。 
e 如 末 pathname 中 为 绝对 路 径 ， 那 么 将 忽略 dirfd 参 数 。 


openat() 的 flag 参 数目 的 与 open() 相 同 。 然 而 ， 部 分 表 18-2 中 所 列 系 
统 调 用 还 支持 flags 参 数 ， 这 是 相应 的 传统 系统 调用 所 不 具备 的 ， 其 目的 
在 于 修改 调用 语义 。 出 现 频 率 最 高 的 标志 为 
AT_SYMLINK_NOFOLLOW， 其 含义 是 如 果 pathname 为 符号 链接 ， 那 
么 系统 调用 将 操作 于 符号 链接 本 喘 ， 而 非 符 号 链接 所 指 回 的 文件 。 
(linkatO 系 统 调用 提供 了 AT_SYMLINK_FOLLOW 标 志 ， 其 作用 正好 相 
反 ， 即 改变 linkatO 的 默认 行为 ， 当 oldpath 属 于 符号 链接 时 对 其 进行 解 引 








用 操作 。) 有 关 其 他 标志 的 详情 ， 请 参考 相应 手册 页 。 


之 所 以 要 支持 表 18-2 中 所 列 的 系统 调用 ， 其 原因 有 二 此 处 再 以 


openat() 为 例 〉。 





当 调 用 open0) 打 开 位 于 当前 工作 目录 之 外 的 文件 时 ， 可 能 会 发 生 某 
些 竞 态 条 件 。 而 使 用 openat0 就 能 够 避免 这 一 问题 。 在 调用 open(O) 的 
同时 ， 如 果 pathname 目录 前 缀 的 某 些 部 分 发 生 了 改变 ， 就 可 能 导致 
竞争 。 要 想 避 免 这 类 葛 态 ， 可 以 针对 目标 目录 打开 一 个 文件 摘 述 
符 ， 然 后 将 该 描述 符 传递 给 openat()。 

如 第 29 章 所 述 ， 工 作 目 录 是 进程 的 属性 之 一 ， 为 进程 中 所 有 线程 所 
共享 。 而 对 某 些 应 用 程序 而 言 ， 需 要 针对 不 同 线程 拥有 不 同 的 “ 虚 
拟 ” 工 作 目 录 。 将 openat() 与 应 用 所 维护 的 目录 文件 摘 述 符 相 结合 ， 
就 可 以 模拟 出 这 一 功能 。 


SUSv3 并 未 对 这 些 系统 调用 加 以 规范 ， 但 SUSv4 将 其 包括 在 内 。 为 











了 获得 对 这 些 系统 调用 的 声明 ， 必 须 在 包含 相应 头 文件 之 前 《比如 定义 
open0 的 <fcntLh>) 将 _XOPEN_SOURCE 特 性 测试 宏 定 义 为 大 于 或 等 于 
700 的 值 。 另 外 ， 将 _POSIX_C_SOURCE 宏 的 值 定义 为 大 于 或 等 于 
200809 也 能 收 到 同样 效果 。 在 2.10 版 本 之 前 的 glibc 中 ， 要 获得 对 这 些 
系统 调用 的 声明 还 需要 定义 _ATFILE_SOURCE 宏 。) 


Solaris 9 及 其 更 蜗 版 本 也 提供 了 一 些 表 18-2 所 列 接口 的 
版 本 ， 只 是 语义 略 有 不 同 。 


18.12 ”改变 进程 的 根 目 录 : chroot() 


每 个 进程 都 有 一 个 根 目 录 ， 该 目录 是 解释 绝对 路 径 〈 即 那些 以 / 开 
始 的 目录 ) 时 的 起 点 。 默 认 情 况 下 ， 这 是 文件 系统 的 真实 根 目 录 。 (新 
进程 从 其 父 进程 处 继承 根 目 录 。) 有 些 场合 需要 改变 一 个 进程 的 根 目 
Ks MATEA (CAP_SYS_CHROOT) 进程 通过 chroot() 系 统 调用 能 够 做 
到 这 一 点 。 








#define _BSD_SOURCE 
#include <unistd.h> 


int chroot(const char *pathname); 


Returns 0 on success, or -1 on error 











chroot() 系 统 调用 将 进程 的 根 目 录 改 为 由 pathname 指 定 的 目录 (如 果 
pathname 是 符号 链接 ， 还 将 对 其 解 引 用 ) 。 目 此 ， 对 所 有 绝对 路 径 名 的 
解释 都 将 以 该 文件 系统 的 这 一 位 置 作为 起 点 。 鉴 于 这 会 将 应 用 程序 限定 
于 文件 系统 的 特定 区 域 ， 有 时 也 将 此 称 为 设立 了 一 个 chroot 监禁 区 。 


SUSV2 包 含 了 对 chroot() 的 定义 (标记 为 LEGACY) ， 但 SUSv3 又 将 
其 删 去 。 无 论 如 何 ，chroot0 还 是 获得 了 大 多 数 UNIX 实 现 的 文 持 。 


借助 于 chroot() 系 统 调用 ，chroot 命 令 可 在 chroot 监 禁区 
中 执行 shell 命 令 。 


而 通过 读 取 Creadlink()) Linux 专 有 /procv/PID/root 符 号 
链接 的 内 容 ， 可 以 获取 任何 进程 的 根 目录 。 





ftp 程 序 就 是 应 用 chrootO 的 典型 实例 之 一 。 作 为 一 种 安全 措施 ， 当 
用 户 匿 名 登录 ftp 时 ，ftp 程 序 将 使 用 chroot() 为 新 进程 设置 根 目录 一 一 一 
个 专门 预 留 给 匿名 登录 用 户 的 目录 。 调 用 chrootO 后 ， 用 户 将 受 困 于 文 











件 系统 中 新 根 目录 下 的 子 树 中 ， 无 法 在 整个 文件 系统 中 信 马 由 续 。 OX 
里 所 依赖 的 事实 是 根 目 录 是 其 自转 的 父 目录 。 也 就 是 说 /.. 是 /的 一 个 链 

接 ， 所 以 改变 目录 到 /后 再 执行 cd .命令 时 ， 用 户 依然 会 待 在 同一 目录 

pao 

















一 些 UNIX 实 现 〈 不 包括 Linux) 允许 多 个 硬 链接 指向 
同一 目录 ， 这 时 就 有 可 能 在 一 个 子 目录 中 创建 指向 其 父 目 
K (或 者 更 高 层级 远 祖 目录 ) 的 硬 链接 。 在 这 种 系统 实现 
中 ， 如 果 存 在 指向 监禁 区 目录 树 之 外 的 硬 链接 ， 那 么 监禁 
区 的 安全 将 受到 威胁 。 而 指 同 监禁 区 之 外 目录 的 符号 链接 
则 不 是 问题 ， 因 为 对 这 些 符 号 链接 的 解释 将 在 进程 新 根 目 
录 的 框架 之 内 进行 ， 所 以 是 无 法 染指 到 chroot 监 禁区 之 外 
的 。 








通常 情况 下 ， 不 是 随便 什么 程序 都 可 以 在 chroot 监 禁区 中 运行 的 ， 
因为 大 多 数 程序 与 共享 库 之 间 采 取 的 是 动态 链接 的 方式 。 因 此 ， 要 么 只 
能 局 限于 运行 静态 链接 程序 ， 要 么 就 在 监禁 区 中 复制 一 套 标 准 的 共享 库 
系统 目录 〈( 比 如， 包括/ib 和 /usrlib〉 (针对 这 一 点 ，14.9.4 节 描述 的 绑 
定 挂 载 特性 就 派 上 了 用 场 ) 。 


chrootO 系 统 调 用 从 未 被 视 为 一 个 完全 安全 的 监禁 机 制 。 首 先 ， 特 
权 级 程序 可 以 在 随后 对 chrootO 的 进一步 调用 中 利用 种 种 手段 而 越狱 成 
功 。 例 如 ， 特 权 级 (CAP_MKNOD) 程序 能 够 使 用 mknod(0 来 创建 一 个 
内 存 设 备 文 件 (类 似 于 /dev/mem) ， 并 通过 该 设备 来 访问 RAM 的 内 
全 到 那 时 ， mW SA 可 能 了 。 通常 ， 最 好 不 要 在 chroot 监 禁区 文件 
系统 内 放置 set-user-ID-root 程 序 。 


即便 是 对 于 无 特权 程序 ， 也 必须 小 心 防范 如 下 几 条 可 能 的 越狱 路 





























。 调用 chroot() 并 未 改变 进程 的 当前 工作 目录 。 因 此 ， 通 常 应 在 调用 


chroot0O 之 前 或 者 之 后 调用 一 次 chdir0 函 数 〈 例 如 ，chrootO 调 用 之 后 
PUT chdir("/")) 。 如 果 没 有 这 么 做 ， 那 么 进程 就 能 够 使 用 相对 路 径 
去 访问 监狱 之 外 的 文件 和 目录 。 (一 些 BSD 的 生生 系统 杜绝 了 这 一 
可 能 性 一 一 如 果 当 前 工作 目录 位 于 新 的 根 目录 树 之 外 ， 那 么 
chroot() 调 用 会 将 其 修改 为 与 根 目 录 一 致 。) 

如 果 进 程 针 对 监禁 区 之 外 的 某 一 目录 持 有 一 打开 文件 摘 述 符 ， 那 么 
结合 fchdir0 和 chrootO 即 可 越狱 成 功 ， 如 下 面 代码 所 示 : 


int fd; 














fd = open("/", 0 RDONLY); 


chroot("/home/mtk" ); /* Jailed */ 
fchdir(fd); 
chroot("."); /* Out of jail */ 


J T BRIER RAY RETE, VARAA $B m Eb ae A SC A ahs 
符 。【〔( 其 他 一 些 UNIX 实 现 提 供 了 fchrootO 系 统 调用 ， 可 用 于 获得 与 上 述 
代码 片段 类 似 的 结果 。) 


。 即使 针对 上 述 可 能 性 采取 了 防范 措施 ， 仍 不 足以 阻止 任意 非特 权 程 
序 〈 即 无 法 控制 其 操作 的 程序 ) 越狱 成 功 。 遭 到 因 禁 的 进程 仍然 能 
够 利用 UNIX 域 套 接 字 来 接受 〈 自 另 一 进程 处 ) 指向 监禁 区 外 目录 
的 文件 描述 符 。 (61.13.3 节 简要 描述 了 进程 间 利 用 套 接 字 来 传递 文 
件 描述 符 的 概念 。) 将 这 一 文件 描述 指定 为 fchdirO 调 用 的 入 参 ， 程 
序 即 可 将 其 当前 工作 目录 置 于 监禁 区 外 ， 之 后 再 通过 相对 路 径 来 随 
意 访 问 文件 和 目录 。 











一 些 BSD 衍 生 系 统 提供 的 jail0 系 统 调用 解决 了 包括 上 
述 问题 在 内 的 不 少 问题 ， 其 所 创建 的 监 花 区 即使 针对 特权 
级 进程 也 是 安全 的 。 


18.13 ”解析 路 径 名 : realpath() 


realpath() 库 函数 对 pathname〔 以 空 字符 结尾 的 字符 串 〉 中 的 所 有 符 
号 链接 一 一 解除 引用 ， 并 解析 其 中 所 有 对 /和 /.. 的 引用 ， 从 而 生成 一 个 
以 空 字符 结尾 的 字符 串 ， 内 含 相 应 的 绝对 路 径 名 。 











#include <stdlib.h> 


char *realpath(const char *pathname, char *resolved_path); 








Returns pointer to resolved pathname on success, or NULL on error 





生成 的 字符 串 将 置 于 resolved_path 指 回 的 缓冲 区 中 ， 该 字符 串 应 当 
是 一 个 字符 数组 ， 长 度 至 少 为 PATH_MAX 个 字 节 。 一 旦 调用 成 功 ， 
realpathO 将 返回 指向 该 字符 串 的 一 枚 指针 。 


glibc 的 realpathO0 实 现 允 许 调用 者 将 resolved_path 参 数 指定 为 空 。 这 
时 ，realpathO 会 为 经 解析 生成 的 路 径 名 分 配 一 个 多 达 PATH_MAX 个 字 
节 的 缓冲 区 ， 并 将 指向 该 缓冲 区 的 指针 作为 结 末 返回 。《〈 调 用 者 必须 自 
行 调 用 free0) 来 释放 该 缓冲 区 。) SUSv3 并 未 将 该 扩展 功能 纳入 规范 ， 但 
SUSv4 对 其 进行 了 定义 。 


程序 清单 18-4 中 的 程序 采用 readlink0 和 realpath0 来 读 取 符 号 链接 的 
人 并 将 该 链接 解析 为 一 个 绝对 路 径 名 。 下 面 是 运行 该 程序 的 一 个 示 
Bil: 





$ pwd Where are we? 
/home/mtk 

$ touch x Make a file 

$ In -sxy and a symbolic link to it 


$ ./view_symlink y 
readlink: y --> x 
realpath: y --> /home/mtk/x 








程序 清单 18-4: 读 取 并 解析 一 个 符号 链接 





dirs_links/view_symlink.c 
#include <sys/stat.h> 
#include <limits.h> /* For definition of PATH MAX */ 
#include "tlpi_hdr.h" 


#define BUF_SIZE PATH MAX 


int 
main(int argc, char *argv[]) 


struct stat statbuf; 
char buf[BUF SIZE]; 
ssize t numBytes; 


if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s pathname\n", argv[0]); 

if (lstat(argv[1], &statbuf) == -1) 
errExit("Istat"); 


if (!S_ISLNK(statbuf.st_mode) ) 
fatal("%s is not a symbolic link", argv[1]); 


numBytes = readlink(argv[1], buf, BUF SIZE - 1); 
if (numBytes == -1) 
errExit("readlink"); 
buf[numBytes] = '\0'; /* Add terminating null byte */ 
printf("readlink: %s --> %s\n", argv[1], buf); 


if (realpath(argv[1], buf) == NULL) 
errExit("realpath") ; 

printf("realpath: %s --> %s\n", argv[1], buf); 

exit(EXIT_SUCCESS) ; 


dirs_links/view_symlink.c 


18.14 人 解 术 路径 名 字符 串 : dirname0 和 
basename() 
dirname0 和 basename0O 函 数 将 一 个 路 径 名 字符 串 分 解 成 目录 和 文件 


名 两 部 分 。《〈 这 些 函 数 执行 的 任务 与 dirname(1) 和 basename(1) 命 令 相 类 
Who ) 





#include <libgen.h> 
char *dirname(char *pathname) ; 
char *basename(char *pathname); 


Both return a pointer to a null-terminated (and possibly 
statically allocated) string 











比如 ， 给 定 路 径 名 为 /home/britta/prog.c，dirname() 将 返 
回 /home/britta， 而 basename() 将 返回 prog.c。 将 dirname() 返 回 的 字符 串 与 
一 斜 线 字符 O) 以 及 basename0 返 回 的 字符 串 拼 接 起 来 ， 将 生成 一 条 完 
整 的 路 径 名 。 


关于 dirname0 和 basename() 的 操作 请 注意 以 下 几 点 。 


。 将 忽略 pathname 中 尾部 的 斜 线 字符 。 
e 如 末 pathname 中 未 包含 斜 线 字 符 ， 那 么 dirname0 将 返回 字符 哩 . 
CH) ， 而 basename() 将 返回 pathname。 

e 如 果 pathname 仪 由 一 个 和 斜 线 字符 组 成 ， 那 么 dirname() 和 basename() 
均 将 返回 字符 串 /。 将 其 应 用 于 上 述 的 拼接 规则 ， 所 创建 的 路 径 名 
字符 串 为 W。 该 路 径 名 属于 有 效 路 径 名 。 因 为 多 个 连续 斜 线 字 符 相 
当 于 单个 斜 线 字符 ， 所 以 路 径 名 /就 相当 于 路 径 名 /。 

e 如 果 pathname 为 空 指针 或 者 空 字符 串 ， 那 么 dimame() 和 basename() 
均 将 返回 字符 串 .〈 点 ) 。【〔 拼 接 这 些 字符 串 将 生成 路 径 名 ./.， 对 等 
于 .， 即 当前 目录 。) 


l ae 示 为 dimame() 和 basename() 针 对 各 种 示例 路 径 名 所 返回 的 
字符 串 。 





表 18-3: dirname() 和 basename() 返 回 的 字符 串 示例 








路 径 名 字符 串 dirname() basename() 





程序 清单 18-5: dirname() 和 basename() 的 应 用 











dirs_links/t_dirbasename.c 
#include <libgen.h> 
#include "tlpi_hdr.h" 
int 
main(int argc, char *argv[]) 
char *t1, *t2; 
int j; 


for (j = 1; j < argc; j++) { 
t1 = strdup(argv[j]); 
if (t1 == NULL) 
errExit("strdup"); 
t2 = strdup(argv[j]); 
if (t2 == NULL) 
errExit("strdup"); 


printf("%s ==> %s + %s\n", argv[j], dirname(t1), basename(t2)); 


free(t1); 
free(t2); 
} 


exit(EXIT_SUCCESS) ; 


dirs_links/t_dirbasename.c 


dirmame() 和 basename() 均 可 修改 pathname 所 指向 的 字符 串 。 因 此 ， 
如 有 果 希 望 保留 原 有 的 路 径 名 字符 串 ， 那 么 就 必须 同 dimame() 和 
basename() 传 递 该 字符 串 的 副本 ， 如 程序 清单 18-5 所 示 。 该 程序 使 用 
strdup()〔 该 函数 调用 了 malloc()〉 来 制作 传递 给 dimame() 和 basename() 的 
字符 串 副本 ， 然 后 再 使 用 free() 将 其 释放 。 


最 后 需要 指出 的 是 ，dirname() 和 basename() 所 返回 的 指针 均 可 指 癌 
。 i 静态 分 配 的 字符 串 ， 对 相同 函数 的 后 续 调用 可 能 会 修改 这 些 字符 串 


18.15 总结 


i-node 中 并 不 包含 文件 的 名 称 。 相 反 ， 对 文件 的 命名 利用 的 是 目录 
条 目 ， 而 目录 则 是 列 出 文件 名 和 i-node 编号 之 间 对 应 关系 的 一 个 表格 。 
也 将 这 些 目 录 条 目 称 作 〈( 人 硬 ) 链接 。 一 个 文件 可 以 有 多 个 链接 ， 这 些 链 
接 之 间 的 地 位 是 平等 的 。 可 使 用 link0 和 unlink0O 来 创建 和 移 除 链 接 ， 对 
文件 的 重 命 名 则 使 用 系统 调用 rename()。 


调用 symlinkO 可 创建 符号 〈 或 者 软 ) 链接 。 符 号 链接 在 某 些 方面 与 
人 硬 链接 相 类 似 ， 其 差异 则 在 于 符号 链接 可 以 跨越 文件 系统 边界 ， 还 可 指 
代目 录 。 符 号 链接 只 是 一 个 内 容 包 含 了 另 一 文件 名 称 的 文件 ， 可 通过 
readlink() 来 获取 该 文件 的 名 称 。 目标) inode 的 链接 计数 中 并 未 包含 
符号 链接 ， 如 果 将 该 链接 所 指 问 的 文件 移 除 ， 那 么 此 链接 将 处 于 甚 空 状 
态 。 一 些 系 统 调用 会 自动 对 符号 链接 进行 解 引 用 〈 下 溯 ) ， 其 余 的 则 不 
会 。 有 时 系统 会 提供 两 种 版 本 的 系统 调用 ， 一 种 会 解 引 用 符号 链接 ， 另 
一 种 则 不 会 ， 例 如 stat(O 和 lstat()。 


创建 目录 使 用 的 是 mkdir()， 移 除 目 录 则 使 用 rmdir()。 而 扫描 一 个 目 
录 的 内 容 则 可 使 用 opendir()、readdir() 以 及 相关 冰 数 。nftwO 函 数 人 允许 程 
A E 














remove() 函 数 可 以 用 来 移 除 一 个 文件 〈 即 一 个 链接 ) 或 者 一 个 空 目 
Ko 


每 个 进程 都 拥有 一 个 根 目录 和 一 个 当前 工作 目录 ， 分 别 作 为 解释 绝 
对 路 径 和 相对 路 径 的 参照 点 。 可 通过 chroot0 和 chdir0 系 统 调用 来 修改 这 
些 属性 。 而 getcewd0) 函 数 则 返回 进程 的 当前 工作 目录 。 


Linux 还 提供 了 一 套 新 的 系统 调用 (如 : openat()) ， 其 行为 与 其 传 
统 同 行 〈 如 : open()) 相 类 似 ， 不 同 之 处 则 在 于 可 利用 新 的 系统 调用 来 
提供 一 个 指 癌 目录 的 文件 描述 符 〈( 而 非 进 程 的 当前 工作 目录 〉， ， 用 于 作 
为 解释 相对 路 径 名 的 参照 点 。 这 将 有 助 于 避免 特定 类 型 的 竞 态 条 件 ， 以 
及 为 每 个 线程 实现 虚拟 工作 目录 。 


realpath0 冰 数 解析 一 个 路 径 名 一 一 解 引 用 所 有 的 符号 链接 ， 并 将 所 











有 的 .和 . .解析 为 相应 目录 一 一 从 而 生成 相应 的 绝对 路 径 名 。dirname0 和 
basename0 函 数 可 用 来 将 路 径 名 分 解 为 目录 和 文件 名 两 部 分 。 





18.16 练习 


18-1. 4.3.2 节 曾 指出 ， 如 果 一 个 文件 正 处 于 执行 状态 ， 那 么 要 将 其 
打开 以 执行 写 操 作 是 不 可 能 的 《〈openO 调 用 返回 -1， 且 将 errno 置 为 


ETXTBSY) 。 然 而 ， 在 shell 中 执行 如 下 操作 却 是 可 能 的 : 
$ cc -0 longrunner longrunner.c 

$ ./longrunner & Leave running in background 

$ vi longrunner.c Make some changes to the source code 


$ cc -o longrunner longrunner.c 


Bua RM ee ih ST 44 AAT CE MAAE? hems: 
在 每 次 编译 后 调用 1s -li 命令 来 租 看 可 执行 文件 的 inode 编 号 。 ) 


18-2. 以 下 代码 中 对 chmod0 的 调用 为 什么 会 失败 ? 


mkdir("test", S IRUSR | S IWUSR | S IXUSR); 
chdir("test"); 

fd = open("myfile", O_RDWR | O CREAT, S IRUSR | S_IWUSR); 
symlink("myfile", "../mylink") ; 

chmod("../mylink", S IRUSR); 





18-3. 实现 realpath()。 
18-4. 修改 程序 清单 18-2 中 的 程序 ， 用 readdir _r() 来 取代 readdir()。 


18-5. 实现 一 个 功能 与 getcwd0 相 当 的 函数 。 提 示 : 要 获得 当前 工 

作 目 录 的 名 称 ， 可 调用 opendir0 和 readdir0) 来 遍历 其 父 目 录 C.. 中 的 各 
个 条 目 ， 碍 找 其 中 与 当前 工作 目录 具有 相同 inode 编 号 及 设备 编号 

《 即 ， 分 别 为 stat0 和 jlstatO 调 用 所 返回 stat 结构 中 的 st_ino 和 st_dev 属 性 ) 
的 一 项 。 如 此 这 般 ， 沿 着 目录 树 层 层 拾级 而 上 《chdir("..")〉 并 进行 扫 
摘 ， 就 能 构建 出 完整 的 目录 路 径 。 当 父 目 录 与 当前 工作 目录 相同 时 《〈 回 
忆 /.. 与 /相同 的 情况 ) ， 就 结束 遍历 。 无 论调 用 该 函数 成 功 与 否 ， 都 应 将 
调用 者 遗 回 其 起 始 目 录 (使 用 open() 和 fchdirO 能 很 方便 地 实现 这 一 功 


ay 
He 























18-6. 使 用 FTW_DEPTH 标 志 来 修改 程序 清单 18-3Cnftw_dir_tree.c) 
中 的 程序 。 注 意 目录 树 过 历 顺 序 的 差异 。 





18-7. 编写 一 程序 ， 使 用 nftw0 来 过 历 目录 树 ， 并 打印 出 树 中 各 类 
文件 〈 普 通 文 件 、 目 录 、 符 号 链接 等 ) 的 总 和 及 百分比 。 


18-8. 实现 nftw()。 (需要 使 用 opendir()、readdir()、closedir() 和 
stat() 等 系统 调用 。) 


18-9. 18.10 节 展示 了 两 种 技术 分别 为 fchdir() 和 chdir()，， 用 于 在 
将 当前 工作 目录 转 到 另 一 位 置 后 ， 再 返回 之 前 的 当前 工作 目录 。 假 设 需 
哪 种 方法 更 为 高 效 ? 原因 何在 ? 请 写 一 段 程序 加 
以 验证 。 








GO 译 者 注 : kernel.org 的 在 线 手 册页 则 为 *result， 译 者 倾向 于 后 者 ， 但 未 
与 作者 沟通 。 请 读者 自行 验证 。 


@) 译 者 注 : 同上 ， 疑 为 *result。 


第 19 半 ”监控 文件 事件 


东 些 应 用 程序 需要 对 文件 或 目录 进行 监控 ， 已 侦 测 其 是 否 发 生 了 特 
定 事 件 。 例 如 ， 当 把 文件 加 入 或 移出 一 目录 时 ， 图 形 化 文件 管理 器 应 能 
判定 此 目录 是 否 在 其 当前 显示 之 列 ， 而 守护 进程 可 能 也 想 要 监控 自己 的 
配置 文件 ， 以 了 解 其 是 否 被 修改 。 


自 内 核 2.6.13 起 ，Linux 开 始 提供 inotify 机 制 ， 以 允许 应 用 程序 监控 
文件 事件 。 本 章 将 介绍 inotify 的 用 法 。 


inotify 机 制 所 取代 的 是 dnotify， 后 者 一 来 较为 陈旧 ， 二 来 仪 具 备 前 
者 的 部 分 功能 。 本 章 会 在 结尾 处 对 dnotify 做 简要 介绍 ， 着 重 突出 inotify 
的 优势 所 在 。 


inotify 和 dnotify 都 是 Linux 专 有 机 制 。《〈 仅 有 少数 其 他 系统 提供 类 似 
机 制 。 比 如 ，BSD 所 提供 的 kqueue API. ) 














有 几 个 函数 库 提供 的 (类 似 ) API， 比 之 inotify 和 
dnotify， 既 更 为 抽象 ， 在 可 移植 性 方面 也 略 胜 一 筹 。 某 些 
应 用 可 能 更 倾 问 于 采用 这 样 的 函数 库 。 而 这 其 中 的 一 些 库 
也 会 调用 inotify 和 dnotify， 前 提 是 要 获得 操作 系统 的 文 持 。 
FAM (文件 变更 监控 http:/oss.sgi.comy/projects/fam/) 和 
Gamin (http:/www.gnome.org/~veillard/gamin/) 便 是 此 类 库 


的 两 个 例子 。 





19.1 概述 
使 用 inotify API 有 以 下 几 个 关键 步 又 。 


1. 应 用 程序 使 用 inotify_initO 来 创建 一 inotify 实 例 ， 该 系统 调用 所 
返回 的 文件 描述 符 用 于 在 后 续 操 作 中 指 代 该 实例 。 


2. 应 用 程序 使 用 inotify_add_watchO 向 inotify 实 例 〈 由 步骤 1 创建 ) 
的 监控 列表 添加 条 目 ， 夭 此 告知 内 核 哪些 文件 是 目 己 的 兴趣 所 在 。 每 个 
监控 项 都 包含 一 个 路 人 径 名 以 及 相关 的 位 掩 码 。 位 掩 人 码 针对 路 径 名 指明 了 
所 要 监控 的 事件 集合 。 作 为 函数 结果 ，inotify_add_watch(O 将 返回 一 监控 
描述 符 ， 用 于 在 后 续 操 作 中 指 代 该 监控 项 。《 系 统 调用 
inotify_rm_watch() 执 行 其 逆向 操作 ， 将 之 前 添加 入 inotify 实 例 的 监控 项 
移 除 。) 


3. 为 获得 事件 通知 ， 应 用 程序 需 针 对 inotify 文 件 描 述 符 执 行 read0) 
操作 。 每 次 对 read0 的 成 功 调用 ， 都 会 返回 一 个 或 多 个 inotify_event 结 
i 其 中 各 目 记 录 了 处 于 inotify 实 例 监控 之 下 的 某 一 路 径 名 所 发 生 的 事 


4 应 用 程序 在 结束 监控 时 会 关闭 inotify 文 件 描述 符 。 这 会 自动 清除 
与 inotify 实 例 相 关 的 所 有 监控 项 。 


inotify 机 制 可 用 于 监控 文件 或 目录 。 当 监控 目录 时 ， 与 路 径 目 身 及 
其 所 含 文件 相关 的 事件 部 会 通知 给 应 用 程序 。 


inotify 监 控 机 制 为 非 递归 。 大 应 用 程序 有 意 监 控 整 个 目录 子 树 内 的 
事件 ， 则 需 对 该 树 中 的 每 个 目录 发 起 inotify_add_watchO) 调 用 。 


可 使 用 select()、poll()、epoll 以 及 由 信号 驱动 的 VO (H Linux 2.6.25 
起 ) 来 监控 inotify 文 件 描述 符 。 只 要 有 事件 可 供 读 取 ， 上 述 API 便 会 将 
inotify 文 件 描述 符 标记 为 可 读 。 关 乎 这 些 编程 接口 的 详细 信息 请 见 第 63 
章 。 




















inotify 机 制 属 可 选 的 Linux 内 核 组 件 ， 可 通过 
CONFIG _INOTIFY 和 CONFIG _INOTIFY_USER 选 项 进行 配 
ie 





19.2 inotify API 
inotify_init() 系 统 调用 可 创建 一 新 的 inotify 实 例 。 





#include <sys/inotify.h> 


int inotify init(void); 





Returns file descriptor on success, or -1 on error 





作为 函数 结果 ，inotify_initO 会 返回 一 个 文件 描述 符 《〈 句 柄 ) ， 用 于 
在 后 续 操 作 中 指 代 此 inotify 实 例 。 


Linux 自 内 核 2.6.27 开 始 支 持 一 个 新 的 、 非 标准 的 系统 
调用 inotify_init1()。 该 系统 调 所 执行 的 任务 与 inotify_init() 
相同 ， 但 提供 了 一 个 额外 的 参数 flag， 用 于 修改 系统 调用 的 
行为 。 该 参数 支持 的 标志 有 二 : IN_CLOEXEC 标 志 会 使 内 
核 针对 新 文件 描述 符 激 活 close-on-exec 标 志 
(FD_CLOEXEC)。 引 入 该 标志 的 原因 正如 4.3.1 节 所 述 open() 
的 O_CLOEXEC 标 志 一 样 。IN_NONBLOCK 标 志 会 导致 内 
核 激 活 底层 打开 文件 描述 的 O NONBLOCK 标 志 ， 如 此 一 
来 ， 未 来 的 读 操作 将 是 非 阻 塞 式 的 ， 省 得 还 要 额外 调用 
fcntl() 来 获得 相同 效果 。 


针对 文件 描述 符 fd 所 指 代 inotify 实 例 的 监控 列表 ， 系 统 调用 
inotify_add_watch() 既 可 以 妃 加 新 的 监控 项 ， 也 可 以 修改 现 有 监控 项 。 
(请 参考 图 19-1。) 








ftinclude <sys/inotify.h> 


int inotify_add_watch(int fd, const char *pathname, uint32_t mask); 


Returns watch descriptor on success, or -1 on error 





inotify 
实例 
监控 描述 符 1 
监控 描述 符 2 
ru en 
监控 描述 符 3 








图 19-1: 一 个 inotify 实 例 及 与 之 相关 的 内 核 数 据 结构 


参数 pathname 标 识 欲 创 建 或 修改 的 监控 项 所 对 应 的 文件 。 调 用 程序 
必须 对 该 文件 具有 读 权 限 〈 调 用 inotify_add_watchO 时 ， 会 对 文件 权限 做 
一 次 性 检查 。 只 要 监控 项 继续 存在 ， 即 便 有 人 更 改 了 文件 权限 ， 使 调用 
程序 个 再 对 文件 具有 读 权 限 ， 调用 程序 依然 会 继续 收 到 文件 的 通知 消 
WM). 














参数 mask 为 一 位 掩 码 ， 针 对 pathname 定 义 了 意欲 监控 的 事件 。 稍 后 
会 论 及 可 在 掩 码 中 指定 的 各 种 位 值 。 


如 果 先 前 未 将 pathname 加 入 fd 的 监控 列表 ， 那 么 inotify_add_watch() 
会 在 列表 中 创建 一 新 的 监控 项 ， 并 返回 一 新 的 、 非 负 监控 描述 得， 用 来 
oe 对 inotify 实 例 来 说 ， 该 监控 描述 符 是 唯一 
Je 


知 先前 已 将 pathname 加 入 fd 的 监控 列表 ， 则 inotify_add_watch(O) 会 修 
改 现 有 pathname 监 控 项 的 掩 码 ， 并 返回 其 监控 描述 符 。《〈 此 描述 符 就 是 
最 初 将 pathname 加 入 该 监控 列表 的 系统 调用 inotify_add_watchO 所 返回 的 
监控 描述 符 。) 下 节 在 讨论 IN_MASK_ADD 标 志 时 会 就 掩 码 的 修改 过 程 
做 进一步 描述 


系统 调用 inotify_rm_watch0O 会 从 文件 描述 符 fd 所 指 代 的 inotify 实 例 
中 ， 删 除 由 wd 所 定义 的 监控 项 。 





#include <sys/inotify.h> 


int inotify_rm_watch(int fd, uint32_t wd); 


Returns 0 on success, or -1 on error 





参数 wd 是 一 监控 描述 符 ， 由 之 前 对 inotify_add_watchO 的 调用 返 
Elo (uint32_t 数 据 类 型 为 一 无 符 写 32 位 整数 。) 


删除 监控 项 会 为 该 监控 描述 符 生 成 IN_IGNORED 事 件 。 稍 后 将 讨论 
该 事件 。 


19.3 inotify 事 件 


使 用 inotify_add watchO 删 除 或 修改 监控 项 时 ， 位 手 码 参数 mask 标 
R TEIA EKZ (pathname) 而 要 监控 的 事件 。 表 19-1 的 “in” 列 列 
出 了 可 在 mask 中 定义 的 事件 位 。 








表 19-1: inotify 事 件 


7 ei 
macas ee 文件 被 访问 Cread()) 

parm fae 
par ph paren 
crose oware e |e | 关闭 以 只 读 方 式 打开 的 文件 

mowe ee 在 受 认 控 目录 内 创建 了 文人 























mome ee 在 受 监控 目录 内 删除 文件 /目录 
rr hh p 
m e 
poss hh 
ee 文人 移出 到 要 失控 目 好 之 外 


IN_MOVED TO e | 将 文件 移入 受 监控 目录 














ae | bra 
oo Je] IN_MOVED_FROM | IN_MOVED_TO 事 件 的 统称 


IN CLOSE IN CLOSE WRITE | IN_CLOSE_NOWRITE 事 件 
的 统称 
IN_DONT_FOLLOW ef 不 对 符号 链接 解 引 用 《〈 始 于 Linux 2.6.15 ) 


IN_MASK_ADD 将 事件 追加 到 pathname 的 当前 监控 掩 码 





or |e | 只 监控 pathname 的 一 个 事件 

om fe pathname 不 为 目录 时 会 失败 〈 始 于 Linux 2.6.15) 
moso | fo 监控 项 为 内 核 或 应 用 程序 所 移 除 

pe h p 
parmar e p 
oo | fo RXT RA SCF R E E R 











对 于 表 19-1 所 列 出 的 绝 大 多 数位 而 言 ， 顾 名 便 可 知 义 。 以 下 是 对 一 
LOFTS FEE o 


。 当 文 件 的 元 数据 (比如 ， 权 限 、 所 有 权 、 和 链接 计数 、 扩 展 属性 、 用 
户 ID 或 组 ID 等 ) 改变 时 ， 会 发 生 IN_ATTRIB 事 件 。 





删除 受 监 控 对 象 〈 即 ， 一 个 文件 或 目录 ) 时 ， 发 生 
IN_DELETE_SELF 事 件 。 当 受 监 控 对 象 是 一 个 目录 ， 并 且 该 目录 所 
发 生 IN_DELETE 事 件 。 

命名 受 监控 对 象 时 ， 发 生 IN_MOVE_SELF 事 件 。 重 命名 受 监 控 
nae 发 生 IN_MOVED_ FROM 和 IN_MOVED _ TO 事 
件 。 其 中 ， 前 一 事件 针对 包含 旧 对 象 名 的 目录 ， 后 一 事件 则 针对 包 
含 新 对 象 名 的 目录 。 
IN DONT FOLLOW、 IN MASK_ADD、IN_ONESHOT 和 
IN_ONLYDIR 位 并 非 对 监控 事件 的 定义 ， 而 是 意 在 控制 
inotify_add_watch() 系 统 调用 的 行为 。 
IN_DONT_FOLLOW 则 规定 ， 若 pathname 为 符号 链接 ， 则 不 对 其 解 
引用 。 其 作用 在 于 令 应 用 程序 可 以 监控 符号 链接 ， 而 非 符号 连接 所 
指 代 的 文件 。 
倘 知 对 已 为 同一 potify 描 述 符 所 监控 的 同一 路 径 名 再 次 执行 
inotify_add_watch() 调 用 ， 那 么 默认 情况 下 会 用 给 定 的 mask 掩 码 来 
蔡 换 访 监控 项 的 当前 掩 码 。 如 果 指 定 了 IN_MASK_ADD， 那 么 则 会 
将 mask 值 与 当前 掩 码 相 或 。 
IN_ONESHOT 人 允许 应 用 只 监控 pathname 的 一 个 事件 。 事 件 发 生 后 ， 
监控 项 会 自动 从 监控 列表 中 消失 。 
只 有 当 pathname 为 目录 时 ，IN_ONLYDIR 才 人 允许 应 用 程序 对 其 进行 
监控 。 如 果 pathname 并 非 目 录 ， 那 么 调用 inotify_add_watch() 失 败 ， 
报错 为 ENOTDIR。 如 要 确保 监控 对 象 为 一 目录 ， 则 使 用 该 标志 可 
以 规避 竞争 条 件 的 发 生 。 














19.4 读 取 inotify 事 件 


将 监控 项 在 监控 列表 中 登记 后 ， 应 用 程序 可 用 read0 从 inotify 文 件 摘 
述 符 中 读 取 事件 ， 以 判定 发 生 了 哪些 事件 。 若 时 至 读 取 时 尚未 发 生 任何 
事件 ，read0 会 阻塞 下 去 ， 直 至 有 事件 产生 《除非 对 该 文件 描述 符 设 置 
了 O_NONBLOCK 状 态 标 志 ， 这 时 知 无 任何 事件 可 谈 ，read0 将 立即 失 
败 ， 并 报错 EAGAIN) 。 


事件 发 生 后 ， 每 次 调用 read0 会 返回 一 个 缓冲 区 ， 内 含 一 个 或 多 个 
如 下 类 型 的 结构 〈 请 见 图 19-2) : 


struct inotify event { 

















int wd; /* Watch descriptor on which event occurred */ 
uint32_t mask; /* Bits describing event that occurred */ 
uint32_t cookie; /* Cookie for related events (for rename()) */ 
uint32 t len; /* Size of ‘name’ field */ 

char name[ ] ; /* Optional null-terminated filename */ 


mask 
cookie 


a oe 以 空 字符 结尾 


以 空 字符 填充 的 可 变 
FPA 


cookie 
len 


name 


read() 的 返回 值 总 计 的 字 节 数 











图 19-2: 包含 3 个 inotify_event 结 构 的 输入 缓冲 区 


字段 wd 指明 发 生 事件 的 是 那个 监控 描述 符 。 该 字段 值 由 之 前 对 
inotify_ add_watchO 的 调用 返回 。 当 应 用 程序 要 FP 监控 同一 inotify 文 件 描述 
符 下 的 多 个 文件 和 目录 时 ， 字 段 wd 就 派 上 用 场 。 应 用 利用 其 所 提供 的 
线索 来 判定 发 生 事件 的 特定 文件 或 目录 。 (要 做 到 这 一 点 ， 应 用 程序 必 

须 维护 专 有 数据 结构 ， 记 录 监 控 描 述 符 与 路 径 名 之 间 的 关系 。) 


mask 字 段 会 返回 描述 该 事件 的 位 手 码 。 由 表 19-1 所 示 的 Out 列 展示 
了 可 出 现 于 mask 中 的 位 范围 。 还 要 注意 下 列 与 特殊 位 相关 的 更 多 细节 。 


° 移 除 除 监控 项 时 ， 会 产生 IN_IGNORED 事 件 。 起 因 可 能 有 两 个 : 其 
， 应 用 程序 使 用 了 inotify_rm _watchO 系 统 调用 显 式 移 除 监控 项 ; 
本 因 受 监控 对 象 被 删除 或 其 所 驻 留 Tipe EIR, 致使 内 
核 隐 式 删 除 监控 项 。 以 IN_ONESHOT 而 建立 的 监控 项 因 事 件 触发 
而 遭 自动 移 除 时 ， 不 会 产生 IN_IGNORED 事 件 。 























° C 那么 除去 其 他 位 以 外 ， 在 mask 中 还 会 设置 
IN_ISDIR 位 。 

。IN_UNMOUNT 事 件 会 通知 应 用 程序 包含 受 监控 对 象 的 文件 系统 已 
遭 炙 载 。 该 事件 发 生 之 后 ， 还 会 产生 包含 IN_IGNORED 置 位 的 附加 


° 19.547 将 介绍 IN_Q_OVERFLOW， 并 讨论 对 排队 inotify 事 件 的 限 
制 |。 


使 用 cookie 字 段 可 将 相关 事件 联系 在 一 起 。 目 前 ， 只 有 在 对 文件 重 
命名 时 才 会 用 到 该 字段 。 当 这 种 情况 发 生 时 ， 系 统 会 针对 待 重 命 名 文件 
所 在 目录 产生 IN_MOVED_FROM 事 件 ， 然 后 ， 还 会 针对 重 命 名 后 文件 
的 所 在 目录 生成 IN_MOVED_TO 事 件 。“〈 若 仅 是 在 同一 目录 内 为 文件 改 
名 ， 系 统 则 会 针对 同一 目录 产生 上 述 两 个 事件 。) 两 个 事件 的 cookie 字 
段 值 相等 ， 故 而 应 用 程序 得 以 将 它们 关联 起 来 。 


Spa 目录 中 有 文件 发 生 事件 时 ， name 字 上 段 返 回 一 个 以 空 字 符 结 
尾 的 字符 串 ， 以 标识 该 文件 。 知 受 监控 对 象 上 自身 有 事件 发 生 ， 则 不 使 用 
name 字 段 ， 将 len 字 段 置 0。 


len 字 段 用 于 表示 实际 分 配给 name 字 段 的 字 节 数 。 在 read0 所 返回 的 
缓冲 区 中 ， 存 储 于 name 内 的 字符 串 结尾 与 下 一 个 inotify_event 结 构 的 开 
始 〈 请 参见 19.2 节 ) 之 间 ， 可 能 会 有 额外 填充 字 节 ， 故 而 lan 字段 不 可 或 
缺 。 单 个 inotify 事 件 的 长 度 是 sizeof(struct inotify_event)+ len. 


如 果 传 递 给 read() 的 缓冲 区 过 小 ， 无 法 容纳 下 一 个 inotify_event 结 
构 ， 那 么 read() 调 用 将 以 失败 告终 ， 并 以 EINVAL 错 误 同 应 用 程序 报告 这 
一 情况 。 在 2.6.21 之 前 版 本 的 内 核 中 ， 这 种 情况 下 read() 将 返回 0。 在 
改 为 报告 EINVAL 错 误 之 后 ， 则 对 编程 错误 的 提示 更 为 清晰 。) 应 用 程 
序 可 再 次 以 更 大 的 缓冲 区 执行 read0 操 作 。 然 而 ， 只 要 确保 缓冲 区 足以 
容纳 至 少 一 个 事件 ， 这 一 问题 将 得 以 完全 规避 : 传 给 read0) 的 缓冲 区 应 
至 少 为 sizeof(struct inotify_event)+ NAME_MAX + 1 字 节 ， 其 中 
NAME_MAX 是 文件 名 的 最 大 长 度 ， 此 外 在 加 上 终止 空 字符 使 用 的 1 个 





























采用 的 绥 冲 区 大 小 如 大 于 最 小 值 ， 则 可 自 单个 read0 中 读 取 多 个 事 
件 ， 效 率 极 高 。 对 inotify 文 件 揪 述 符 所 执行 的 read()， 将 在 已 发 生 事件 数 
量 与 缓冲 区 可 容纳 事件 数量 间 取 最 小 值 并 返回 之 。 


针对 文件 描述 符 fd 调 用 ioctl(fd, FIONREAD, 
&numbytes)， 会 返回 其 所 指 代 的 inotify 实 例 中 的 当前 可 读 字 
节 数 。 


从 inotify 文 件 描述 符 中 读 取 的 事件 形成 了 一 个 有 序 队 列 。 打 个 比 
方 ， 这 样 一 来 ， 对 文件 重 命名 时 ， 便 可 保证 在 IN_MOVED_TO 事 件 之 前 
能 读 取 到 IN_MOVED_FROM 事 件 。 


在 事件 队列 的 末尾 追加 一 个 新 事件 时 ， 如 果 此 新 事件 与 队列 当前 的 
尾部 事件 拥有 相同 的 wd、mask、cookie 和 mask 值 ， 那 么 内 核 会 将 两 者 合 
并 《以 避免 对 新 事件 排队 ) 。 之 所 以 这 么 做 ， 是 因为 很 多 应 用 程序 都 并 
不 关注 同一 事件 的 反复 出 现 ， 而 丢弃 多 余 的 事件 能 降低 内 核 维护 事件 队 
列 所 需 的 内 存 总 量 。 然 而 ， 这 也 意味 着 使 用 inotify 将 无 法 可 靠 判 定 出 周 
期 性 事件 的 发 生 次 数 或 频率 。 


程序 示例 


虽然 在 前 文中 描述 了 inotify API 的 诸多 细节 ， 但 实际 上 ， 该 API 使 用 
起 来 却 颇 为 简单 。 程 序 清 单 19-1 展 示 了 对 inotify 的 运用 。 


程序 清单 19-1: 运用 inotify API 





























inotify/demo_inotify.c 
#include <sys/inotify.h> 
#include <limits.h> 
#include "tlpi hdr.h" 


static void /* Display information from inotify event structure */ 
displayInotifyEvent(struct inotify event *i) 


printf(" wd =%2d; ", i->wd); 
if (i->cookie > 0) 
printf("cookie =%4d; ", i->cookie); 


printf("mask = "); 

if (i->mask & IN_ACCESS) printf("IN_ACCESS "); 

if (i->mask & IN ATTRIB) printf("IN ATTRIB "); 

if (i->mask & IN CLOSE_NOWRITE) printf("IN CLOSE_NOWRITE "); 
if (i->mask & IN CLOSE WRITE) printf("IN CLOSE WRITE "); 


if (i->mask & IN CREATE) printf("IN CREATE "); 

if (i->mask & IN DELETE) printf("IN DELETE "); 

if (i->mask & IN DELETE SELF) printf("IN DELETE SELF "); 
if (i->mask & IN IGNORED) printf("IN IGNORED "); 

if (i->mask & IN ISDIR) printf("IN ISDIR "); 

if (i->mask & IN MODIFY) printf("IN MODIFY "); 


if (i->mask & IN MOVE SELF) printf("IN MOVE SELF "); 
if (i->mask & IN MOVED FROM) — printf("IN MOVED FROM "); 





if (i->mask & IN_MOVED_TO) printf("IN_MOVED_TO "); 
if (i->mask & IN_OPEN) printf("IN OPEN "); 

if (i->mask & IN_Q OVERFLOW) ~ printf("IN_Q OVERFLOW "); 
if (i->mask & IN_UNMOUNT) printf ("IN UNMOUNT "); 


printf("\n"); 


if (i->len > 0) 
printf(" name = %s\n", i->name); 


#define BUF_LEN (10 * (sizeof(struct inotify_event) + NAME_MAX + 1)) 


int 
main(int argc, char *argv[]) 


int inotifyFd, wd, j; 

char buf[BUF LEN]; 

ssize_t numRead; 

char *p; 

struct inotify_event *event; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s pathname... \n", argv[0]); 


inotifyFd = inotify_init(); /* Create inotify instance */ 
if (inotifyFd == -1) 
errExit("inotify_init"); 


for (j = 1; j < argc; j++) { 
wd = inotify_add_watch(inotifyFd, argv[j], IN ALL EVENTS); 
if (wd == -1) 
errExit("inotify_add watch"); 


printf("Watching %s using wd %d\n", argv[j], wd); 


} 
for (;;) { /* Read events forever */ 
numRead = read(inotifyFd, buf, BUF LEN); 
if (numRead == 0) 
fatal("read() from inotify fd returned o!"); 
if (numRead == -1) 
errExit("read"); 
printf("Read %ld bytes from inotify fd\n", (long) numRead); 
/* Process all of the events in buffer returned by read() */ 
for (p = buf; p < buf + numRead; ) { 
event = (struct inotify_event *) p; 
displayInotifyEvent (event) ; 
p t= sizeof(struct inotify_event) + event->len; 
} 


exit(EXIT SUCCESS); 


inotify/demo_inotify.c 


程序 清单 19-1 中 程序 将 执行 以 下 步骤 。 
e 使 用 inotify_init0， 创 建 inotify 文 件 描述 符 GD。 


e 使 用 inotify_add_watch()， 将 程序 命令 行 参数 中 指定 的 每 个 文件 加 入 
监控 项 钙 。 每 个 监控 项 都 将 监控 所 有 可 能 发 生 的 事件 。 
。 执行 无 限 循环 。 
o 从 inotify 描 述 符 读 取 事件 绥 冲 区 (3)。 
o 调用 displayInotifyEvent() 了 水 数 ， 以 显示 上 述 绥 冲 区 中 各 
inotify_event 结 构 的 内 容 @。 


以 下 shell 会 话 演示 了 对 程序 清单 19-1 所 列 程序 的 使 用 。 首 先 ， 在 后 
台 运 行 该 程序 的 实例 ， 对 两 个 目录 进行 监控 。 
$ ./demo_inotify dir1 dir2 & 
[1] 5386 


Watching dir1 using wd 1 
Watching dir2 using wd 2 


然后 ， 执 行 某 些 命令 ， 从 而 在 两 个 目录 中 产生 事件 。 先 使 用 cat(1) 
创建 一 个 文件 : 
$ cat > dir1/aaa 


Read 64 bytes from inotify fd 
wd = 1; mask = IN CREATE 














name = aaa 
wd = 1; mask = IN OPEN 
name = aaa 





由 后 全 程序 所 生成 的 上 述 输出 表明 ，read0 读 取 了 包含 两 个 事件 的 
人 


Hello world 
Read 32 bytes from inotify fd 
wd = 1; mask = IN MODIFY 
name = aaa 
Type Control-D 
Read 32 bytes from inotify fd 
wd = 1; mask = IN CLOSE WRITE 
name = aaa 


接 下 来 ， 将 该 文件 转移 至 为 一 个 受 监控 的 目录 ， 同 时 对 其 重新 命 


名 。 这 会 产生 两 个 事件 ， 一 个 对 应 于 文件 的 源 目录 〈 监 控 描 述 符 1) ， 
为 一 个 对 应 于 文件 的 目标 目录 监控 描述 符 2〉。 





$ mv dir1/aaa dir2/bbb 
Read 64 bytes from inotify fd 
wd = 1; cookie = 548; mask = IN_MOVED_FROM 


name = aaa 
wd = 2; cookie = 548; mask = IN MOVED TO 
name = bbb 


j 以 上 两 个 事件 共 胖 相同 的 cookie 值 ， 人 允许 应 用 程序 将 它们 联系 起 


当 在 其 中 一 个 受 监控 目录 下 创建 子 日 录 时 ， 由 此 产生 的 事件 掩 码 会 
置 IN_ISDIR 位 ， 以 示 该 事件 的 对 象 是 一 目录 。 


$ mkdir dir2/ddd 
Read 32 bytes from inotify fd 
wd = 1; mask = IN_CREATE IN_ISDIR 
name = ddd 


此 处 ， 再 次 提醒 大 家 ，inotify 监 控 是 非 递 归 的 。 如 果 应 用 程序 有 意 
对 新 创建 的 子 目录 进行 监控 ， 则 需 进 一 步 执行 inotify_add_watch(O 系 统 调 
用 ， 并 指明 子 目录 的 路 径 名 。 


最 后 ， 将 其 中 一 个 受 监控 目录 删除 : 


$ rmdir dir1 

Read 32 bytes from inotify fd 
wd = 1; mask = IN DELETE SELF 
wd = 1; mask = IN IGNORED 


系统 会 生成 最 后 一 个 事件 ， 以 通知 应 用 程序 ， 内 核 已 从 监控 列表 中 
删除 该 监控 项 。 











19.5 ”队列 限制 和 /proc 文 件 


对 inotify 事 件 做 排队 处 理 ， 需 要 消耗 内 核 内 存 。 正 因 如 此 ， 内 核 会 
对 inotify 机 制 的 操作 施 以 各 种 限制 。 超 级 用 户 可 配置 /proc/sys/fs/inotify 
路 径 中 的 3 个 文件 来 调整 这 些 限制 : 


max_queued_events 


调用 inotify_init0 时 ， 使 用 该 值 来 为 新 inotify 实 例 队 列 中 的 事件 数量 
设置 上 限 。 一 旦 超出 这 一 上 限 ， 系 统 将 生成 IN_Q_OVERFLOW 事 件 ， 
并 丢弃 多 余 的 事件 。 滋 出 事件 的 wd 字段 值 为 -1。 


max_user_instances 


对 由 每 个 真实 用 户 ID 创建 的 potify 实 例 数 的 限制 值 。 





max_user_watches 
对 由 每 个 真实 用 户 ID 创建 的 监控 项 数量 的 限制 值 。 


这 3 个 文件 的 典型 默认 值 分 别 为 16384、128 和 8192。 





19.6 ”监控 文件 的 日 有 系统 : dnotify 


Linux 还 为 监控 文件 事件 提供 了 男 一 种 机 制 。 该 机 制 名 为 dnotify， 


问世 于 内 核 2.4 厂 本 ， 但 inotify 已 令 其 “落伍 ”。 相 较 于 inotify，dnotify 存 
在 如 下 局 限 性 。 





dnotify 机 制 通过 回应 用 程序 发 送信 号 来 通告 事件 。 使 用 信和 号 作为 通 
告 机 制 ， 会 使 应 用 程序 的 设计 复杂 化 《请 参见 22.12 节 ) 。 这 也 使 
得 在 函数 库 中 使 用 dnotify 变 得 困难 ， 因 为 调用 该 函数 的 程序 可 能 会 
改变 对 通告 信号 的 处 置 (disposition) 。 而 inotify 机 制 则 不 使 用 信 


FZ o 

dnotify 的 监控 单元 为 目录 。 只 要 对 该 目录 下 的 任 一 文件 执行 了 任何 
操作 ， 系 统 都 会 通知 应 用 程序 。 相 形 之 下 ，inotify 的 监控 对 象 则 既 
可 以 是 单个 文件 ， 也 能 是 目录 。 

为 监控 目录 ，dnotify 需 要 应 用 程序 为 该 目录 打开 文件 描述 符 。 使 用 
文件 描述 符 会 导致 两 个 问题 。 其 一 ， 由 于 程序 处 于 运行 中 ， 将 无 法 
纯 载 包 含 此 目录 的 文件 系统 。 其 二 ， 因 为 每 个 目录 都 需要 一 个 文件 
描述 符 ， 所 以 应 用 程序 最 终 可 能 会 消耗 大 量 文件 描述 符 。 而 inotify 
不 使 用 文件 描述 符 ， 故 而 可 以 避免 上 述 问 题 。 

与 inotify 相 比 ， 由 dnotify 提 供 的 与 文件 事件 相关 的 信息 不 够 精确 。 
当 位 于 受 监控 目录 下 的 文件 发 生 改变 时 ，dnotify 只 会 通知 有 事件 发 
生 ， 但 不 会 说 明 事 件 具体 涉及 了 哪个 文件 。 因 此 ， 应 用 程序 必须 通 
过 缓存 目录 内 容 来 进行 判断 。 此 外 ， 针 对 已 发 生 事件 的 类 型 ， 
inotify 所 提供 的 信息 也 比 dnotify 更 详细 。 

在 某 些 情况 下 ，dnotify 不 支持 可 靠 的 文件 事件 通告 机 制 。 


在 fcntl(2) 手 册页 中 对 F_NOTIFY 操 作 的 描述 部 分 ， 以 及 内 核 源码 

















Documentation/dnotify.txt 中 ， 都 可 找到 有 关 dnotify 的 更 多 信息 。 


19.7 总 结 


当 一 组 受 监 控 的 文件 或 目录 有 事件 发 生 (对 文件 的 打开 、 关 闭 、 创 
建 、 删 除 、 修 改 以 及 重 命名 等 操作 ) 时 ，Linux 专 有 的 inotify 机 制 可 让 应 
用 程序 获得 通知 。inotify 机 制 取代 了 较 老 的 dnotify 机 制 。 








19.8 ”练习 


19-1. 编写 一 个 程序 ， 针 对 其 命令 行 参 数 所 指定 的 目录 ， 记 录 所 有 
的 文件 创建 、 删 除 和 改名 操作 。 该 程序 应 能 够 监控 指定 目录 下 所 有 子 目 
录 中 的 事件 。 获 得 所 有 子 目 录 的 列表 需 使 用 nftw()〈 参 见 18.9 节 )〉 . 4 
ans 了 子 目录 时 ， 受 监控 的 子 目录 集合 应 能 保持 同步 





第 20 章 ”信号 : 基本 概念 


本 章 和 接 下 来 的 两 章 将 讨论 信号 。 虽 然 基 本 概念 较为 简单 ， 但 因为 
要 涵盖 大 量 细节 ， 所 以 篇 幅 较 长 。 


本 章 包 括 以 下 主题 。 


。 各 种 不 同 信号 及 其 用 途 。 

内 核 可 能 为 进程 产生 信号 的 环境 ， 以 及 条 一 进程 同 男 一 进程 发 送信 
号 所 使 用 的 系统 调用 。 

进程 在 默认 情况 下 对 信号 的 啊 应 方式 ， 以 及 进程 改变 对 信和 号 啊 应 方 
式 的 手段 ， 特 别 是 借助 于 信和 号 处 理 器 程序 的 手段 ， 即 程序 收 到 信和 号 
时 去 自动 调用 的 函数 ， 由 程序 员 定义 。 

使 用 进程 信号 掩 码 来 阻塞 信号 ， 以 及 等 待 信号 的 相关 概念 。 

如 何 暂 停 进程 的 执行 ， 并 等 竺 信号 的 到 达 。 

















20.1 概念 和 概述 


证 写 是 事件 发 生 时 对 进程 的 通知 机 制 。 有 时 也 称 之 为 软件 中 断 。 信 
号 与 硬件 中 断 的 相似 之 处 在 于 打 断 了 程序 执行 的 正常 流程 ， 大 多 数 情况 
下 ， 无 法 预测 信号 到 达 的 精确 时 间 。 


一 个 〈 具 有 合适 权限 的 ) 进程 能 够 问 男 一 进程 发 送信 号 。 信 号 的 这 
一 用 法 可 作为 一 种 同步 技术 ， 甚 至 是 进程 间 通 信 〈IPC) 的 原始 形式 。 
进程 也 可 以 同上 自身 发 送信 号 。 然 而 ， 发 往 进程 的 诺 多 信号 ， 通 币 都 是 源 
于 内 核 。 引 发 内 核 为 进程 产生 信和 号 的 各 类 事件 如 下 。 


。 便 件 发生 异 常 ， 即 人 硬件 检测 到 一 个 错误 条 件 并 通知 内 核 ， 随 即 再 由 
内 核发 送 相 应 信号 给 相关 进程 。 人 硬件 异常 的 例子 包括 执行 一 条 异常 
J 诸如 ， 被 0 除 ， 或 者 引用 了 无 法 访问 的 内 存 区 

用 户 键入 了 能 够 产生 信和 号 的 终端 特殊 字符 。 其 中 包括 中 断 字 符 〈 通 

贡 是 Control-C)、 芹 停 字 符 〈 通 名 是 Control-Z) 。 

发 生 了 软件 事件 。 例 如 ， 针 对 文件 描述 符 的 输出 变 为 有 效 ， 调 整 了 

终 并 窗口 大 小 ， 定 时 器 到 期 ， 进 程 执行 的 CPU 时 间 超 限 ， 或 者 该 进 

程 的 某 个 子 进程 退出 。 


针对 每 个 信号 ， 都 定义 了 一 个 唯一 的 《小 》 整 数 ， 从 1 开始 顺序 展 
开 。<signal.h> 以 SIGxxxx 形 式 的 符 写 名 对 这 些 整 数 做 了 定义 。 由 于 每 个 
信号 的 实际 编号 随 系统 不 同 而 不 同 ， 所 以 在 程序 中 总 是 使 用 这 些 符 号 
me in 当 用 户 键入 中 断 字 符 时 ， 将 传递 给 进程 SIGINT 信 号 〈 信 和 号 
编号 为 2) 。 


信号 分 为 两 大 类 。 第 一 组 用 于 内 核 向 进程 通知 事件 ， 构 成 所 谓 传统 
或 者 标准 信号 。Linux 中 标准 信号 的 编号 范围 为 1~31。 本 章 将 描述 这 些 
标准 信号 。 另 一 组 信号 由 实时 信号 构成 ， 其 与 标准 信号 的 差异 将 在 22.8 
节 中 描述 。 


信号 因 茶 些 事件 而 产生 。 信 号 产生 后 ， 会 于 稍 后 被 传递 给 菜 一 进 
程 ， 而 进程 也 会 采取 某 些 措施 来 啊 应 信号 。 在 产生 和 到 达 期 间 ， 信 号 处 
于 等 待 (pending) 状态 。 



































通常 ， 一 旦 〈 内 核 ) 接 下 来 要 调度 该 进程 运行 ， 等 待 信号 会 马上 送 
达 ， 或 者 如 果 进 程 正在 运行 ， 则 会 立即 传递 信号 〈 例 如 ， 进 程 向 自身 发 
送信 号 ) 。 然 而 ， 有 时 需要 确保 一 段 代码 不 为 传递 来 的 信号 所 中 断 。 为 
了 做 到 这 一 点 ， 可 以 将 信号 添加 到 进程 的 信号 掩 码 中 一 一 目前 会 阻塞 该 
组 信号 的 到 达 。 如 果 所 产生 的 信号 属于 阻塞 之 列 ， 那 么 信号 将 保持 等 竺 
状态 ， 直 至 稍 后 对 其 解除 阻塞 (从 信号 掩 码 中 移 除 )。 进 程 可 使 用 各 种 
系统 调用 对 其 信号 掩 码 添加 和 移 除 信号 。 


号 到 达 后 ， 进 程 视 具体 信号 执行 如 下 上 默认 操作 之 一 。 


忽略 信号 : 也 就 是 说 ， 内 核 将 信号 丢弃 ， 信 号 对 进程 没有 产生 任何 
影响 (进程 永远 都 不 知道 曾经 出 现 过 该 信号 )。 

Aik CASE) 进程 : 这 有 时 是 指 进程 异常 终 止 ， 而 不 是 进程 因 调 用 
exit() 而 发 生 的 正常 终止 。 

产生 核心 转 储 文件 ， 同 时 进程 终止 : 核心 转 储 文件 包含 对 进程 虚拟 
内 存 的 镜像 ， 可 将 其 加 载 到 调试 器 中 以 检查 进程 终止 时 的 状态 。 
停止 进程 : 暂停 进程 的 执行 。 

于 之 前 暂停 后 再 度 恢 复 进 程 的 执行 。 


除了 根据 特定 信号 而 采取 默认 行为 之 外 ， 程 序 也 能 改变 信号 到 达 时 
的 啊 应 行为 。 也 将 此 称 之 为 对 信号 的 处 置 〈disposition) 设置 。 程 序 可 
以 将 对 信号 的 处 置 设置 为 如 下 之 一 。 


采取 默认 行为 。 这 适用 于 撤销 之 前 对 信号 处 置 的 修改 、 恢 复 其 默认 
处 置 的 场景 。 

。 忽略 信号 。 这 适用 于 默认 行为 为 终止 进程 的 信和 号。 

。 执行 信号 处 理 吉 程序。 


信号 处 理 器 程序 是 由 程序 员 编写 的 函数 ， 用 于 为 响应 传递 来 的 信和 号 
而 执行 适当 任务 。 例 如 ，shell 为 SIGINT 信 号 (由 中 断 字 符 串 Control-C 
产生 ) 提供 了 一 个 处 理 器 程序 ， 令 其 停止 当前 正在 执行 的 工作 ， 并 将 控 
制 返 回 到 (shell 的 〉 主 输入 循环 ， 并 再 次 同 用 户 呈 现 shell 提 示 符 。 通 知 
内 核 应 当 去 调用 某 一 处 理 器 程序 的 行为 ， 通 常 称 之 为 安装 或 者 建立 信号 
处 理 器 程序 。 调 用 信和 号 处 理 器 程序 以 啊 应 传递 来 的 信号 ， 则 称 之 为 信和 号 
CARFE Chandled) ， 或 者 已 捕获 〈caught) 。 


请 注意 ， 无 法 将 信号 处 置 设置 为 终止 进程 或 者 转 储 核心 〈 除 非 这 是 
对 信号 的 默认 处 置 ) 。 效 果 最 为 近似 的 是 为 信号 安装 一 个 处 理 器 程序 ， 
























































并 于 其 中 调用 exitO) 或 者 abort()。abort0 函 数 〈(21.2.2 节 ) 为 进程 产生 一 个 
SIGABRT 信 号 ， 该 信号 将 引发 进程 转 储 核心 文件 并 终止 。 


Linux 特 有 的 /proc/PID/status 文 件 包 含有 各 种 位 掩 码 字 
段 ， 通 过 检查 这 些 掩 码 可 以 确定 进程 对 信号 的 处 理 。 位 掩 
码 以 十 六 进 制 数 形式 显示 ， 最 低 有 效 位 代表 信号 1， 相 临 的 
左边 一 位 代表 信号 2， 以 此 类 推 。 这 些 字段 分 别 为 
SigPnd《〈 基 于 线程 的 等 竺 信号) 、ShdPnd (进程 级 等 待 信 
号 ， 始 于 Linux 2.6) 、SigBlk (阻塞 信 号 ) 、SigIgn (忽略 
aS) 和 SigCgt (捕获 信号 )。 〈33.2 节 阐述 了 多 线程 进程 
对 信和 号 的 处 理 ， 这 将 有 助 于 澄清 SigPnd 与 ShdPnd 之 间 的 差 
异 。) 使 用 ps(1) 命 令 的 各 种 选项 也 能 获得 相同 信息 。 











信号 在 UNIX 实 现 中 出 现 很 早 ， 诞 生 之 后 又 历经 变革 。 在 早期 实现 
中 ， 信 号 在 特定 场景 下 有 可 能 会 丢失 〈 即 ， 没 有 传递 到 目标 进程 ) 。 此 
外 ， 尽 管 系统 提供 了 执行 关键 代码 时 阻塞 信号 传递 的 机 制 ， 但 阻塞 有 时 
也 不 大 可 靠 。4.2BSD 利 用 所 谓 可 靠 信 号 解决 了 这 些 问 题 。 (BSD 在 创新 
上 还 更 进一步 ， 增 加 了 额外 信号 来 文 持 shell 作 业 控 制 ， 请 参考 34.7 
节 。) 


J 








System V 后 来 也 为 信号 增加 了 可 靠 语义 ， 但 采用 的 模型 与 BSD 无 法 
兼容 。 这 一 不 兼容 性 直到 POSIX.1-1990 标 准 出 台 后 才 得 以 解决 。 该 标准 
针对 可 靠 信 号 所 采取 的 规范 主要 基于 BSD 模 型 。 


22.7 节 将 就 可 靠 和 不 可 靠 信 号 的 细节 展开 讨论 ，22.13 节 则 简要 说 明 
了 老 版 BSD 和 System V 的 信号 API。 





20.2 ”信号 类 型 和 默认 行为 


此 前 兽 提 及 ，Linux 对 标准 信号 的 编号 为 1 一 31。 然 而 ，Linux 于 
signal(7) 手 册页 中 列 出 的 信号 名 称 却 超出 了 31 个 。 名 称 超出 的 原因 有 多 
种 。 有 些 名 称 只 是 其 他 名 称 的 同义词 ， 之 所 以 定义 是 为 了 与 其 他 UNIX 
其 他 名 称 虽 然 有 定义 ， 但 却 并 未 使 用 。 以 下 列表 介 


SIGABRT 


当 进 程 调用 abort0) 函 数 (21.2.2 节 ) IN, ASR RIAA © 
默认 情况 下 ， 访 信号 会 终止 进程 ， 并 产生 核心 转 储 文 件 。 这 实现 了 调用 
abort() 的 预期 目标 ， 产 生 核 心 转 储 文件 用 于 调试 。 


SIGALRM 
经 调用 alarm( 〇 或 setitimer(O) 而 设置 的 实时 定时 器 一 旦 到 期 ， 内 核 将 产 


生 该 信号 。 实 时 定时 器 是 根据 挂钟 时 间 进 行 计 时 的 〈 即 人 类 对 逝去 时 间 
的 概念 ) 。 更 多 细节 参见 23.1 节 。 


SIGBUS 


产生 该 信号 〈 总 线 错 误 ，bus error) 即 表 示 发 生 了 某 种 内 存 访问 错 
误 。 如 49.4.3 节 所 述 ， 当 使 用 由 mmapO 所 创建 的 内 存 映 射 时 ， 如 果 试 图 
访问 的 地 址 超出 了 底层 内 存 映射 文件 的 结尾 ， 那 么 将 产生 该 错误 。 
SIGCHLD 
当 父 进程 的 某 一 子 进程 终止 (或 者 因为 调用 了 exit()， 或 者 因为 被 信 
号 杀 死 ) IN, AF) 将 癌 父 进 程 发 送 该 信号 。 当 父 进程 的 某 一 子 进程 
Pee eee 也 可 能 会 癌 父 进程 发 送 该 信号 。 详 情 请 参 
26.371 © 


SIGCLD 











与 SIGCHLD 信 号 同 义 。 


SIGCONT 


将 该 信号 发 送 给 已 停止 的 进程 ， 进 程 将 会 恢复 运行 ( 即 在 之 后 某 个 
时 间 点 重新 获得 调度 ) 。 当 接收 信号 的 进程 当前 不 处 于 停止 状态 时 ， 默 
认 情 况 下 将 忽略 该 信号 。 进 程 可 以 捕获 该 信号 ， 以 便 在 恢复 运行 时 可 以 
执行 某 些 操作 。 关 于 该 信号 的 更 多 细节 请 参考 22.2 节 和 34.7 节 。 


SIGEMT 


UNIX 系 统 通 常用 该 言 写 来 标识 个 依赖 于 实现 的 硬件 错误 。Linux 
系统 仅 在 Sun SPARC 实 现 中 使 用 了 访 信 号 。 后 缀 EMT 源 自 仿真 器 陷阱 
(emulator trap) ，Digital PDP-11 的 汇编 程序 助 记 符 之 一 。 














SIGFPE 


该 信号 因 特 定 类 型 的 算术 错误 而 产生 ， 比 如 除 以 0。 后 级 FPE 是 浮 
点 异常 的 缩写 ， 不 过 整 型 算术 错误 也 能 产生 该 信号 。 该 信号 于 何 时 产生 
的 精确 细节 取决 于 硬件 架构 和 对 CPU 控 制 寄 存 器 的 设置 。 例 如 ， 在 x86- 
32 架 构 中 ， 整 数 除 以 0 总 是 产生 SIGFPE 信 号 ， 但 是 对 浮 点 数 除 以 0 的 处 
理 则 取决 于 是 否 启 用 了 FE_DIVBYZERO 异常 。 如 果 启 用 了 该 异常 (使 
用 feenableexcept(0)) ， 那 么 浮 点 数 除 以 0 也 将 产生 SIGFPE 信 号 ， 奋 则 ， 
将 为 操作 数 产 生 符合 IEEE 标 准 的 结果 无穷 大 的 浮 点 表示 形式 ) 。 更 多 
信息 请 参考 fenv(3) 手 册页 和 <fenv.h> 文 件 。 


SIGHUP 


当 终端 断 开 〈 挂 机 ) 时 ， 将 发 送 该 信号 给 终端 控制 进程 。34.6 节 将 
描述 控制 进程 的 概念 以 及 产生 SIGHUP 信 和 号 的 各 种 环境 。SIGHUP 信 和 号 
还 可 用 于 守护 进程 〈 比 如 ，init、httpd 和 inetd) 。 许 多 守护 进程 会 在 收 
到 SIGHUP 信 号 时 重新 进行 初始 化 并 重读 配置 文件 。 借 助 于 显 式 执行 kil 
命令 或 者 运行 同等 功效 的 程序 或 脚本 ， 系 统管 理 员 可 向 守护 进程 手工 发 
送 SIGHUP 信 号 来 触发 这 些 行为 。 


SIGILL 


如 果 进 程 试 图 执行 非法 〔 即 格式 不 正确 〉 的 机 器 语言 指令 ， 系 统 将 
向 进程 发 送 该 信和 号。 


SIGINFO 


在 Linux 中 ， 该 信号 名 与 SIGPWR 信 号 名 同 义 。 在 BSD 系 统 中 ， 键 入 
Control-T 可 产生 SIGINFO 信 号 ， 用 于 获取 前 台 进 程 组 的 状态 信息 。 














SIGINT 


当 用 户 键入 终端 中 断 字 符 (通常 为 Control-C》 时 ， 终 端 驱 动 程序 将 
发 送 该 信号 给 前 台 进 程 组 。 该 信号 的 默认 行为 是 终止 进程 。 
SIGIO 

利用 fcntl0 系 统 调用 ， 即 可 于 特定 类 型 〈 诸 如 终端 和 套 接 字 ) 的 打 
开 文件 描述 符 发 生 IO 事 件 时 产生 该 信号 。63.3 节 将 就 此 特性 做 进一步 说 
明 。 


SIGIOT 

在 Linux 中 ， 该 信号 名 与 SIGABRT 信 号 同 义 。 在 其 他 一 些 UNIX 实 现 
中 ， 该 信号 表示 发 生 了 由 实现 定义 的 硬件 错误 。 
SIGKILL 

此 信号 为 “ 必 杀 (sure kill) ”信号 ， 处 理 器 程序 无 法 将 其 阻塞、 忽略 
或 者 捕获 ， 故 而 “一 击 必 杀 ”， 总 能 终止 进程 。 
SIGLOST 

Linux 中 存在 该 信号 名 ， 但 并 未 加 以 使 用 。 在 其 他 一 些 UNIX 实 现 
中 ， 如 果 远 端 NFS 服 务 器 在 朋 溃 之 后 重新 恢复 ， 而 NFS 客 户 端 却 未 能 重 
新 获得 由 本 地 进程 所 持 有 的 锁 ， 那 么 NFS 客 户 端 将 向 这 些 进程 发 送 此 信 
号 。 (NFS 规 范 并 未 对 该 特性 进行 标准 化 。) 
SIGPIPE 

当 某 一 进程 试图 向 管道 、FIFO 或 套 接 字 写 入 信息 时 ， 如 果 这 些 设备 
并 无 相应 的 阅读 进程 ， 那 么 系统 将 产生 该 信号 。 之 所 以 如 此 ， 通 常 是 因 
为 阅读 进程 已 经 关闭 了 其 作为 IPC 通 道 的 文件 描述 符 。 更 多 细节 请 参考 
44/275 « 

















SIGPOLL 
该 信号 从 System V 派 生 而 来 ， 与 Linux 中 的 SIGIO 信 号 同 义 。 


SIGPROF 


由 setitimer() 调 用 (参见 23.1 节 〉 所 设置 的 性 能 分 析 定 时 器 刚 一 过 
期 ， 内 核 就 将 产生 该 信号 。 性 能 分 析 定 时 颖 用 于 记录 进程 所 使 用 的 CPU 
时 间 。 与 虚拟 定时 器 不 同 (参见 下 面 的 SIGVTALRM 信 号 ) ， 性 能 分 析 
定时 器 在 对 CPU 时 间 计 数 时 会 将 用 户 态 与 内 核 态 都 包含 在 内 。 


SIGPWR 


re MS. SAR SAC AE TL CUPS) 时 ， 可 以 设 
置 守 护 进 程 来 监控 电源 发 生 故 障 时 备用 电池 的 剩余 电量 。 如 有 果 电池 电量 
行将 耗 尽 〈 长 时 间 停 电 之 后 ) ， 那 么 监控 进程 会 将 该 信号 发 往 init 进 
程 ， 而 后 者 则 将 其 解读 为 快速 、 有 序 关 闭 系 统 的 一 个 请 求 。 


SIGQUIT 


当 用 户 在 键盘 上 键入 退出 字符 OM% Contro- 时 ， 该 信号 将 发 
往 前 台 进 程 组 。 默 认 情 况 下 ， 该 信号 终止 进程 ， 并 生成 可 用 于 调试 的 核 
心 转 储 文件 。 进 程 如 果 陷 入 无 限 循 环 ， 或 者 不 再 响应 时 ， 使 用 SIGQUIT 
信号 就 很 合适 。 键 入 Control\， 再 调用 gdb 调 试 器 加 载 刚才 生成 的 核心 转 
储 文 件 ， 接 着 用 backtrace 命 令 来 获取 堆栈 跟踪 信息 ， 就 能 发 现 正在 执行 
的 是 程序 的 哪 部 分 代码 。 ([Matloff, 2008] 描 述 了 gdb 的 用 法 。) 


SIGSEGV 


这 一 信号 非常 第 见 ， 当 应 用 程序 对 内 存 的 引用 无 效 时 ， 就 会 产生 该 
言 号 。 引 起 对 内 存 无 效 引用 的 原因 很 多 ， 可 能 是 因为 要 引用 的 页 不 存在 
〈 例 如， 该 页 位 于 扒 和 栈 之 间 的 未 映射 区 域 ) ， 或 者 进程 试图 更 新 只 读 
内 存 〈 比 如 ， 程 序 文 本 段 或 者 标记 为 只 读 的 一 块 映射 内 存 区 域 ) 中 某 一 
位 置 的 内 容 ， 又 或 者 进程 企图 在 用 户 态 (参见 2.1 节 〉 去 访问 内 核 的 部 
分 内 存 。C 语 言 中 引发 这 些 事件 的 往往 是 解 引 用 的 指针 里 包含 了 错误 地 
址 《例如 ， 未 初始 化 的 指针 ) ， 或 者 传递 了 一 个 无 效 参 数 供 函数 调用 。 
该 信号 的 命名 源 于 术语 “ 段 违例 ”。 


SIGSTKFLT 


signal(7) 手 册页 中 将 其 记载 为 “ 协 处 理 器 栈 错 误 ”，Linux 对 该 信号 作 
了 定义 ， 但 并 未 加 以 使 用 。 


SIGSTOP 


这 是 一 个 必 停 (sure stop) 信号 ， 人 处 理 器 程序 无 法 将 其 阻 寨 、 忽 略 
































或 者 捕获 ， 故 而 总 是 能 停止 进程 。 
SIGSYS 


如 果 进 程 发 起 的 系统 调用 有 误 ， 那 么 将 产生 该 信号 。 这 意味 着 系统 
将 进程 执行 的 指令 视 为 一 个 系统 调用 陷阱 〈trap) ， 但 相关 的 系统 调用 
编号 却 是 无 效 的 (参见 3.1 节 ) 。 


SIGTERM 


这 是 用 来 终止 进程 的 标准 信号 ， 也 是 kill 和 killall 命 令 所 发 送 的 默认 
信号 。 用 户 有 时 会 使 用 kill-KILIL 或 者 kill-9 显 式 向 进程 发 送 SIGKILL 信 
号 。 然 而 ， 这 一 做 法 通常 是 错误 的 。 精 心 设计 的 应 用 程序 应 当 为 
SIGTERM 信 号 设置 处 理 器 程序 ， 以 便于 其 能 够 预先 清除 临时 文件 和 释 
放 其 他 资源 ， 从 而 全 身 而 退 。 发 送 SIGKILL 信 号 可 以 杀 掉 某 个 进程 ， 从 
而 绕 开 了 SIGTERM 信 号 的 处 理 器 程序 。 因 此 ， 总 是 应 该 首先 尝试 使 用 
SIGTERM 信 号 来 终止 进程 ， 而 把 SIGKILL 信 号 作为 最 后 手段 ， 去 对 付 
那些 不 响应 SIGTERM 信 号 的 失控 进程 。 


SIGTRAP 


该 H SAD RSC SUT 点 调试 功能 以 及 strace(1) 命 令 ( 附 录 A) 所 执行 
的 跟踪 系统 调用 功能 。 更 多 信息 参见 ptrace(2) 手 册页 。 


SIGTSTP 


这 是 作业 控制 的 停止 信号 ， 当 用 户 在 键盘 上 输入 挂 起 字符 (通常 是 
Control-Z) 时 ， 将 发 送 该 信号 给 前 台 进 程 组 ， 使 其 停止 运行 。 第 34 章 详 
细 描 述 了 进程 组 (作业 〉 和 作业 控制 ， 以 及 程序 应 在 何 时 以 及 如 何 去 处 
理 该 信号 。 该 信号 名 源 上 自 “ 终 端 停止 (terminal stop) ”的 术语 。 


SIGTTIN 


EEA E iillshell PISITIN, Ara AUER NA Ze EST read FE 
Le 出 驱动 程序 则 将 向 该 进程 组 发 送 此 信号 。 该 信号 默认 将 停止 进 
E 


SIGTTOU 


该 信号 的 目的 与 SIGTTIN 信 和 号 类 似 ， 但 所 针对 的 是 后 台 作 业 的 终 疹 




















输出 。 在 作业 控制 shel 下 运行 时 ， 如 果 对 终端 启用 了 TOSTOP (终端 输 
出 停止 ) 选项 〈 可 能 是 通过 stty tostop 命 令 ) ， 而 某 一 后 台 进 程 组 试图 对 
终端 进行 writeO 操 作 (参见 34.7.1 节 〉 ， 那 么 终端 驱动 程序 将 向 该 进程 
组 发 送 SIGTTOU 信 和 号。 该 信号 默认 将 停止 进程 。 


SIGUNUSED 


顾名思义 ， 该 信号 没有 使 用 。 在 Linux 2.4 及 其 后 续 版 本 中 ， 该 信 
号 名 在 很 多 架构 中 与 SIGSYS 信 号 同 义 。 换 言 之 ， 尽 管 信 号 名 还 保持 辐 
后 兼容 ， 但 信号 编写 在 这 些 染 构 中 不 再 处 于 未 使 用 状态 。 


SIGURG 


系统 发 送 该 信号 给 一 个 进程 ， 表 示 套 接 字 上 存在 带 外 《也 称 作 紧 
急 ) 数据 (参见 61.13.1 节 )。 

















SIGUSRI1 


该 信号 和 SIGUSR2 信 号 供 程序 员 自 定义 使 用 。 内 核 绝 不 会 为 进程 产 
生 这 些 信号 。 进 程 可 以 使 用 这 些 信号 来 相互 通知 事件 的 发 生 ， 或 是 役 此 
同步 。 在 早期 的 UNIX 实 现 中 ， 这 是 可 供应 用 随意 使 用 的 仅 有 的 两 个 信 
号 。《 实 际 上 ， 进 程 间 可 以 相互 发 送 任何 信号 ， 但 如 果 内 核 也 为 进程 产 
生 了 同类 信号 ， 这 两 种 情况 就 有 可 能 产生 混 消 。) 现代 UNIX 实 现 则 提 
供 了 很 多 实时 信和 号， 也 可 用 于 程序 员 自 定义 的 目的 (参见 22.8 市 )。 


SIGUSR2 











参见 对 SIGUSR1 信 号 的 描述 。 
SIGVTALRM 


调用 setitimer()( 参 见 23.1 节 ) 设置 的 虚拟 定时 器 刚 一 到 期 ， 内 核 就 
会 产生 该 信号 。 虚 拟定 时 器 计 录 的 是 进程 在 用 户 态 所 使 用 的 CPU 时 间 。 
SIGWINCH 

在 窗口 环境 中 ， 当 终端 窗口 尺寸 发 生变 化 时 《如 62.9 节 所 述 ， 要 么 
是 由 于 用 户 手 动 调整 了 大 小 ， 要 么 是 因为 程序 调用 ioctO 对 大 小 做 了 调 
整 ) ， 会 向 前 台 进 程 组 发 送 该 信号 。 借 助 于 为 该 信号 安装 的 处 理 器 程 
序 ， 诸 如 vi 和 1less 之 类 的 程序 会 在 窗口 尺寸 调整 后 重新 绘制 输出 。 











SIGXCPU 


当 进 程 的 CPU 时 间 超 出 对 应 的 资源 限制 时 (参见 36.3 节 对 
RLIMIT_CPU 的 描述 ) ， 将 发 送 此 信号 给 进程 。 


SIGXFSZ 


如 果 进 程 因 试图 增 大 文件 〈 调 用 write0) 或 truncate0 ) 而 突破 对 进程 
文件 大 小 的 资源 限制 (参见 36.3 节 对 RLIMIT_FSIZE 的 描述 ) 时 ， 那 么 
将 发 送 此 信号 给 进程 。 


表 20-1 总 结 了 Linux 下 与 信和 号 相关 的 一 系列 信息 。 关 于 此 表 ， 请 注 
意 以 下 几 点 。 


。 信和 与 编写 列 所 示 为 在 不 同人 硬件 染 构 下 对 信号 的 编写。 除非 男 有 说 
明 ， 信 号 在 所 有 架构 中 编号 相同 。 信 号 编号 在 架构 上 的 差异 会 在 括 
写 中 予以 说 明 ， 所 涉及 的 架构 包括 Sun SPARC、SPARC64 (S) 
HP/Compaq/Digital Alpha (A). MIPS (M) 和 HP PA-RISC (P)。 此 列 
中 的 undef 表 示 此 符号 在 所 示 架 构 中 未 定义 。 

SUSv3 列 则 表示 SUSv3 是 否定 义 了 该 信号 。 

默认 列 显示 了 信和 号 的 默认 行为 。term 表 示 信 号 终止 进程 ，core 表 示 
进程 产生 核心 转 储 文件 并 退出 ，ignore 表 示 忽 略 该 信号 ，stop 表 示 
信号 停止 了 进程 ，cont 表 示 信 和 号 恢复 了 一 个 已 停止 的 进程 。 




















某 些 前 面 列 出 的 信号 并 未 见 诸 于 表 20-1， 如 
SIGCLD (SIGCHLD 信号 的 同义词 ) 、SIGINFO (未 使 
FA) 、SIGIOT (SIGABRT 信 号 的 同义词 ， ~ SIGLOST (R 
使 用 ) 和 SIGUNUSED (在 许多 架构 中 是 SIGSYS 信 号 的 同 
nl 








表 20-1: Linux 信 号 








名 OM 信 号 值 fi 述 SUSv3 | 默认 


7 (SAMP=10) 


17 (SA=20, MP=18) 


18 (SA=19, M=25, P=26) 


undef (SAMP=7) 


27 (M=29, P=21) 


























实时 定时 器 过 





内 存 访问 错误 


终止 或 者 停止 子 进 各 
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om 


SIGPWR 


SIGWINCH 


30 (SA=29, MP=19) 


Pp F 


16 (SAM=undef, P=36) 


19 (SA=17, M=23, P=24) 


31 (SAMP=12) 
l 


20 (SA=18, M=24, P=25) 


21 (M=26, P=27) 


22 (M=27, P=28) 


23 (SA=16, M=21, P=29) 


10 (SA=30, MP=16) 


12 (SA=31, MP=17) 


26 (M=28, P=20) 


28 (M=20, P=23) 




















无 效 的 内 存 引用 














MARIRE R 








确保 停止 


无 效 的 系统 调用 



































套 接 字 上 的 紧急 数据 























成 自 定义 信号 1 

















j 户 自 定 义 信和 号 2 


























虚拟 定时 器 过 其 


终端 窗口 尺寸 发 生变 化 





term 
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ignore 








SIGXFSZ 突破 对 文件 大 小 的 限制 








针对 表 20-1 中 茶 些 信号 的 默认 行为 ， 要 注意 以 下 几 点 。 


在 Linux 2.2 中 ， 信 号 SIGXCPU、SIGXFSZ、SIGSYS 和 SIGBUS 的 
默认 行为 是 终止 进程 ， 但 不 会 产生 核心 转 储 文件 。 自 内 核 2.4 以 
后 ，Linux 实 现 满 足 了 SUSv3 的 要 求 ， 这 些 信和 号 不 但 会 引发 进程 终 
止 ， 也 将 生成 核心 转 储 文件 。 在 其 他 几 个 UNIX 实 现 中 ， 对 信和 号 
SIGXCPU 和 SIGXFSZ 的 处 理 方式 与 Linux 2.2 相 同 。 
ee 对 SIGPWR 信 号 的 默认 行为 通常 是 将 其 名 
We 。 

几 个 UNIX 实 现 (特别 是 BSD 衍 生 系统 ) 默认 情况 下 将 忽略 SIGIO 信 
号 。 

虽然 SIGEMT 信 号 尚未 获得 任何 标准 的 接纳 ， 但 却 得 到 大 多 数 
UNIX 实 现 的 支持 。 然 而 ， 在 其 他 实现 中 ， 该 信号 通常 会 导致 进程 
终止 并 产生 核心 转 储 文件 。 

SUSv1 将 SIGURG 信 号 的 默认 行为 定义 为 终止 进程 ， 这 也 是 一 些 较 
的 默认 做 法 。 而 SUSv2 则 采用 了 现行 规范 〈 将 其 包 
Hg) 











20.3 ”改变 信号 处 置 : signal() 


UNIX 系 统 提供 了 两 种 方法 来 改变 信和 号 处 置 : signal() 和 sigaction()。 
本 节 描 述 的 signalO0 系 统 调 用 ， 是 设置 信号 处 置 的 原始 API， 所 提供 的 接 
口 比 sigaction0) 简 单 。 另 一 方面 ，sigaction0 提 供 了 signalO 所 不 具备 的 功 
能 。 进 一 步 而 言 ，signal0 的 行为 在 不 同 UNIX 实 现 间 存在 差异 〈22.7 
节 ) ， 这 也 意味 着 对 可 移植 性 有 所 追求 的 程序 绝 不 能 使 用 此 调用 来 建立 
言 写 处 理 占 函数 。 故 此 ，sigaction() 是 建立 信号 处 理 右 的 首选 API (强力 
推荐 ) 。 自 20.13 节 介绍 了 sigactionO 调 用 的 用 法 之 后 ， 本 书 示例 将 一 律 
采用 该 调用 来 建立 信号 处 理 右 程序 。 

















signal0 函 数 虽然 记录 在 Linux 手 册页 的 第 2 部 分 ， 但 实 
际 却 被 实现 为 一 个 基于 sigaction0 系 统 调用 的 glibc 库 函数 。 





#include <signal.h> 


void ( *signal(int sig, void (*handler)(int)) ) (int); 


Returns previous signal disposition on success, or SIG_ERR on error 











这 里 需要 对 signal() 函 数 的 原型 做 一 些 解 释 。 第 一 个 参数 sig， 标 识 
希望 修改 处 置 的 信号 编写 ， 第 二 个 参数 handler， 则 标识 信号 抵达 时 所 调 
用 函数 的 地 址 。 该 函数 无 返回 值 (void) ， 并 接收 一 个 整 型 参数 。 
此 ， 信 号 处 理 器 函数 一 般 具 有 以 下 形式 : 


void 
handler(int sig) 








/* Code for the handler */ 
} 


20.4 节 将 描述 处 理 器 函数 中 sig 参 数 的 目的 。 
signal() 的 返回 值 是 之 前 的 信号 处 置 。 像 handler 参 数 一 样 ， 这 是 一 枚 


指针 ， 所 指向 的 是 带 有 一 个 整 型 参数 旦 无 返回 值 的 函数 。 换 言 之 ， 编 写 
st 号 建立 一 个 处 理 器 函数 ， 然 后 再 将 信号 处 置 重 
其 Hi: 


void (*oldHandler}(int}; 





oldHandler = signal(SIGINT, newHandler); 
if (oldHandler == SIG ERR) 
errExit ("signal"); 


/* Do something else here. During this time, if SIGINT is 
delivered, newHandler will be used to handle the signal. */ 


if (signal(SIGINT, oldHandler) == SIG_ERR) 
errExit ("signal"); 


使 用 signal0， 将 无 法 在 不 改变 信号 处 置 的 同时 ， 还 能 
获取 到 当前 的 信号 处 置 。 要 想 做 到 这 一 点 ， 必 须 使 用 


sigaction()。 





针对 信号 处 理 器 函数 指针 做 如 下 类 型 定义 ， 将 有 助 于 理解 signal0 的 


人 人、 


typedef void (*sighandler t)(int); 


signalO 原 型 可 以 改写 成 如 下 形式 : 


sighandler_t signal{int sig, sighandler_t handler); 


如 果 定 义 了 _GNU_SOURCE 特 性 测试 宏 ， 那 么 glibc 将 
在 <signal.h> 头 文件 中 暴露 非 标准 的 sighandler t 数 据 类 型 。 





在 为 signal0 指 定 handler 参 数 时 ， 可 以 以 如 下 值 来 代 蔡 函数 地 址 ; 


SIG_DFL 


将 信号 处 置 重 置 为 默认 值 (220-1) . HAP HZ ifsignal( AFA 
所 改变 的 信号 处 置 还 原 。 
SIG_IGN 

忽略 该 信号 。 如 果 信 号 专 为 此 进程 而 生 ， 那 么 内 核 会 默默 将 其 于 
弃 。 进 程 甚至 从 未 知道 曾经 产生 了 该 信号 。 

调用 signal0 成 功 将 返回 先前 的 信号 处 置 ， 有 可 能 是 先前 安装 的 处 理 


器 函数 地 址 ， 也 可 能 是 常量 SIG_DEFL 和 SIG_IGN 之 一 。 如 果 调 用 失败 ， 
signal() 将 返回 SIG_ERR.。 

















20.4 信号 处 理 需 人 简介 


言 号 处 理 器 程序 〈 也 称 为 信号 捕捉 器 ) 是 当 指 定 信 号 传递 给 进程 时 
将 会 调用 的 一 个 函数 。 本 节 描 述 了 信号 处 理 器 的 基本 原理 ， 而 第 21 章 将 
继续 做 详细 介绍 。 

调用 信号 处 理 器 程序 ， 可 能 会 随时 打 断 主 程序 流程 ， 内 核 代表 进程 
来 调用 处 理 器 程序 ， 当 处 理 器 返回 时 ， 主 程序 会 在 处 理 器 打上 断 的 位 置 恢 
复 执行 。 这 一 工作 序列 可 用 图 20-1 来 加 以 说 明 。 


主 程序 

















程序 开始 


肉 核 代 表 进 程 调用 信号 处 理 器 程序 
fet Sb ERAS 


mpm | RT ee ! 
D O 3) 
à ` Y 执行 信号 处 理 
指令 mil | N ! 器 程序 的 代码 
SR | 
The 
程序 从 中 断 点 “St. 返回 





i 
i] 


恢复 执行 

















图 20-1: 信号 到 达 并 执行 处 理 器 程序 


”虽然 信号 处 理 器 程序 几乎 可 以 为 所 欲 为 ， 但 一 般 而 言 ， 设 计 应 力求 
简单 。21.1 节 将 对 这 一 点 展开 论述 。 


程序 清单 20-1: 为 SIGINT 信 号 安装 一 个 处 理 器 程序 






































signals/ouch.c 


#include <signal.h> 
#include "tlpi_hdr.h" 


static void 
sigHandler(int sig) 


printf("Ouch!\n"); /* UNSAFE (see Section 21.1.2) */ 
} 
int 
main(int argc, char *argv[]) 

int j; 

if (signal(SIGINT, sigHandler) == SIG ERR) 


errExit("signal"); 


for (j = 0; ; j++) { 
printf("%d\n", j); 
sleep(3); /* Loop slowly... */ 
} 
} 


signals/ouch.c 

程序 清单 20-1 所 示 为 一 个 简单 的 信号 处 理 器 函数 ， 由 主 程序 为 
SIGINT 信 号 而 建立 。 当 键入 中 断 字 符 (通常 为 Control-C〉 时 ， 终 端 驱 

动 程序 将 产生 该 信号 。 处 理 器 只 是 简单 打印 一 条 消 轧 ， 随 即 返 回 。 


主 程序 会 持续 循环 。 每 次 迭代 ， 程 序 都 将 递增 计数 器 值 并 将 其 打印 
出 来 ， 然 后 休眠 几 秒 钟 。 (为 了 按 这 种 方式 休眠 ， 程 序 使 用 了 sleep0 函 
数 ， 该 函数 会 令 调用 者 处 于 暂停 状态 ， 持 续 时 间 则 由 指定 的 秒 数 决 定 。 
该 函数 将 在 23.4.1 节 中 进行 描述 。) 


运行 程序 清单 20-1 中 程序 的 结果 如 下 : 


$ ./ouch 





0 Main program loops, displaying successive integers 
Type Control-C 

Ouch! Signal handler is executed, and returns 

1 Control has returned to main program 

2 

Type Control again 

Ouch! 

3 

Type Control-\ (the terminal quit character) 

Quit (core dumped) 





内 核 在 调用 信和 号 处 理 吉 程序 时 ， 会 将 引发 调用 的 信和 号 编号 作为 一 个 
整 型 参数 传递 给 处 理 器 函数 。 束 是 程序 清单 20-1 中 处 理 絮 函数 的 sig 参 
BO 。 如 采信 号 处 理 需 程序 只 捕获 一 种 类 型 的 信号 ， 那 么 这 个 参数 几乎 
无 用 。 然 而 ， 如 果 安 装 相 同 的 处 理 嚣 来 捕获 不 同类 型 的 信号 ， 那 么 就 可 
以 利用 此 参数 来 判定 引发 对 处 理 器 调用 的 是 何 种 信和 号。 


程序 清单 20-2 中 程序 展示 了 这 一 思路 ， 为 SIGINT 和 SIGQUIT 信 号 建 
并 了 同一 处 理 器 程序 。〈 当 键入 终端 退出 字符 时 ， 通 和 常 为 Control-\， 终 
端 驱 动 程序 将 产生 SIGQUIT 信 号 。) 处 理 器 程序 代码 通过 检查 sig 参 数 来 
区 分 这 两 种 信号 ， 并 为 每 种 信号 采取 不 同 措 施 。main() 函 数 则 使 用 
pause() 函 数 〈( 参 见 20.14 节 的 接 述 ) 来 阻塞 进程 ， 直 至 捕获 到 信和 号。 


如 下 shell 会 话 日 志 演 示 了 对 该 程序 的 使 用 : 


$ ./intquit 

Type Control-G 

Caught SIGINT (1) 

Type Control again 

Caught SIGINT (2) 

and again 

Caught SIGINT (3) 

Type Control-\ 

Caught SIGQUIT - that's all folks! 


程序 清单 20-1 和 程序 清单 20-2 都 在 信号 处 理 器 程序 中 使 用 了 printfO 
函数 来 显示 消息 。 现 实 世界 的 应 用 程序 一 般 绝 不 会 在 信号 处 理 器 程序 中 
使 用 stdio 函 数 ，21.1.2 节 将 就 其 原因 进行 讨论 。 然 而 ， 本 书 各 种 示例 仍 
2 中 调用 printfO 函 数 ， 作 为 观察 处 理 器 程序 调用 的 
一 相间 Lo 















































程序 清单 20-2: KWAA EE S E E — Sch E A BA BC 








signals/intquit.c 


#include <signal.h> 
#include "tlpi_hdr.h" 


static void 
sigHandler(int sig) 


static int count = 0; 


/* UNSAFE: This handler uses non-async-signal-safe functions 
(printf(), exit(); see Section 21.1.2) */ 


if (sig == SIGINT) { 


count++; 
printf("Caught SIGINT (%d)\n", count); 
return; /* Resume execution at point of interruption */ 


} 


/* Must be SIGQUIT - print a message and terminate the process */ 


printf("Caught SIGQUIT - that's all folks!\n"); 
exit(EXIT_ SUCCESS); 
} 


int 
main(int argc, char *argv[]) 
/* Establish same handler for SIGINT and SIGQUIT */ 
if (signal(SIGINT, sigHandler) == SIG ERR) 
errExit("signal"); 
if (signal(SIGQUIT, sigHandler) == SIG ERR) 


errExit("signal"); 


for (53) /* Loop forever, waiting for signals */ 
pause(); /* Block until a signal is caught */ 


signals/intquit.c 





20.5 ”发 送信 号 : kill() 


与 shell 的 ki 命令 相 类 似 ， 一 个 进程 能 够 使 用 kill0 系 统 调用 向 另 一 
进程 发 送信 号 。 (之 所 以 选择 kill 作 为 术语 ， 是 因为 早期 UNIX 实 现 中 大 
多 数 信 号 的 默认 行为 是 终止 进程 。) 





#include <signal.h> 


int kill(pid_t pid, int sig); 


Returns 0 on success, or -1 on error 











pid 参 数 标识 一 个 或 多 个 目标 进程 ， 而 sig 则 指定 了 要 发 送 的 信号 。 
如 何 解 释 pid， 要 视 以 下 4 种 情况 而 定 。 


。 如 果 pid 大 于 0， 那 么 会 发 送信 号 给 由 pid 指 定 的 进程 。 

。 如 果 pid 等 于 0， 那 么 会 发 送信 号 给 与 调用 进程 同 组 的 每 个 进程 ， 包 
括 调用 进程 自身 。 (SUSvV3 声 明 ， 除 去 “一 组 未 予 明确 的 系统 进 
星 "2 之 外 ， 应 将 信号 发 送 给 同一 进程 组 中 的 所 有 进程 ， 且 这 一 排除 
条 件 同样 适用 于 余下 的 两 种 情况 。) 

如 果 pid 小 于 -1， 那 么 会 同 组 ID 等 于 该 pid 绝 对 值 的 进程 组 内 所 有 下 
属 进程 发 送信 号 。 向 一 个 进程 组 的 所 有 进程 发 送信 号 在 shell 作业 
控制 中 有 特殊 用 途 (参见 34.7 节 ) 。 

如 果 pid 等 于 -1， 那 么 信号 的 发 送 范围 是 : 调用 进程 有 权 将 信号 发 
往 的 每 个 目标 进程 ， 除 去 init (进程 ID 为 1) 和 调用 进程 自身 。 如 果 
特权 级 进程 发 起 这 一 调用 ， 那 么 会 发 送信 号 给 系统 中 的 所 有 进程 ， 
上 述 两 个 进程 除外 。 显 而 易 见 ， 有 时 也 将 这 种 信号 发 送 方式 称 之 为 
广播 信号 。 (SUSv3 并 未 要 求 将 调用 进程 排除 在 信号 的 接收 范围 之 
外 ，Linux 此 处 所 遵循 的 是 BSD 系 统 的 语义 。) 


如 果 并 无 进程 与 指定 的 pid 相 匹配 ， 那 么 kill0 调 用 失败 ， 同 时 将 
errno 置 为 ESRCH (〈“ 查 无 此 进程 >) o 


进程 要 发 送信 号 给 另 一 进程 ， 还 需要 适当 的 权限 ， 其 权限 规则 如 
下 。 











。 特权 级 CCAP_KILL) 进程 可 以 同 任 何 进程 发 送信 号 。 


e 以 root 用 户 和 组 运行 的 init 进 程 〈( 进 程 写 为 1) ， 是 一 种 特例 ， 仅 能 

接收 已 安装 了 处 理 器 函数 的 信号 。 这 可 以 防止 系统 管理 员 意 外 杀 死 
init 进 程 这 一 系统 运作 的 基石 。 

如 图 20-2 所 示 ， 如 果 发 送 者 的 实际 或 有 效用 户 ID 匹配 于 接受 者 的 实 
际 用 户 ID 或 者 保存 设置 用 户 ID(saved set-user-id)， 那 么 非特 权 进 程 
也 可 以 癌 男 一 进程 友 送 信号 。 利 用 这 一 规则 ， 用 户 可 以 向 由 他 们 启 
动 的 set-user-ID 程 序 发 送信 号 ， 而 无 需 考 虑 目标 进程 有 效用 户 ID 的 

当前 设置 。 将 目标 进程 有 效用 户 ID 排除 在 检查 范围 之 外 ， 这 一 举措 
的 辅助 作用 在 于 防止 用 户 某 甲 回 用 户 某 乙 的 进程 发 送信 号 ， 而 该 进 
程 正在 执行 的 set-user-ID 程 序 义 属于 用 户 某 甲 。 (SUSv3 要 求 强 制 

执行 图 20-2 所 示 的 规则 ， 但 如 Kill(2) 手 册页 所 述 ，Linux 内 核 在 2.0 版 
本 之 前 所 遵循 的 规则 略 有 不 同 。) 











发 送 进程 接收 进程 


有 效用 户 ID 有 效用 户 ID 


saved set-user-ID saved set-user-ID 











一 p 表示 如 果 ID 匹 配 ， 那 么 发 送 者 
有 权 向 接收 者 发 送信 息 号 





图 20-2: 非特 权 进 程 发 送信 号 所 需 的 权限 


SIGCONT 信 号 需要 特殊 处 理 。 无 论 对 用 户 ID 的 检查 结果 如 何 ， 非 

特权 进程 可 以 向 同一 会 话 中 的 任何 其 他 进程 发 送 这 一 信号 。 利 用 这 
一 规则 ， 运 行 作 业 控 制 的 shell 可 以 重启 已 停止 的 作业 (进程 组 )， 

即使 作业 进程 已 经 修改 了 它们 的 用 户 IPD。“ 亦 即 ， 使 用 9.7 节 所 述 

系统 调用 来 改变 其 凭据 ， 进 而 成 为 特权 级 进程 。) 

如 果 进 程 无 权 发 送信 号 给 所 请 求 的 pid， 那 么 kilO 调 用 将 失败 ， 且 

将 ermo 置 为 EPERM。 知 pid 所 指 为 一 系列 进程 〈 即 pid 是 负 值 ) 时 ， 只 要 
可 以 向 其 中 之 一 发 送信 号 ， 则 kill0 调 用 成 功 。 


程序 清单 20-3 中 展示 了 kill0 的 用 法 。 





20.6 检查 进程 的 存在 


kill() 系 统 调用 还 有 男 一 重 功 用 。 若 将 参数 sig 指 定 为 0( 即 所 谓 空 信 
号 ) ， 则 无 信号 发 送 。 相 反 ，kill0 仅 会 去 执行 错误 检查 ， 查 看 是 否 可 以 
问 目 标 进 程 发 送信 号 。 从 另 一 角度 来 看 ， 这 意味 着 ， 可 以 使 用 空 信号 来 
检测 具有 特定 进程 了 的 进程 是 否 存在 。 若 发 送 空 信 号 失败 ， 且 errno 为 
ESRCH， 则 表明 目标 进程 不 存在 。 如 果 调 用 失败 ， 且 ermo 为 
EPERM (表示 进程 存在 ， 但 无 权 同 目标 进程 发 送信 号 ) 或 者 调用 成 功 
(有 权 向 进程 发 送信 号 ) ， 那 么 就 表示 进程 存在 。 


验证 一 个 特定 进程 卫 的 存在 并 不 能 保证 特定 程序 仍 在 运行 。 因 为 内 
核 会 随 着 进程 的 生 灭 而 循环 使 用 进程 ID 。 而 一 段 时 间 之 后 ， 同 一 进程 ID 
所 指 芍 怕 是 男 一 进程 了 。 此 外 ， 特 定 进 程 ID 可 能 存在 ， 但 是 一 个 伪 己 
( 亦 即 ， 进 程 已 死 ， 但 其 父 进 程 尚 未 执行 wait() 来 获取 其 终止 状态 ， 如 
26.2 FTIR) o 


还 可 使 用 各 种 其 他 技术 来 检查 某 一 特定 进程 是 否 正在 运行 ， 其 中 包 
括 如 下 技术 。 


。 wait() 系 统 调用 : 第 26 章 将 描述 这 些 调 用 。 这 些 调 用 仅 用 于 监控 调 
用 者 的 子 进程 。 

言 号 量 和 排他 文件 锁 : 如 果 进 程 持 续 持 有 某 一 信号 量 或 文件 锁 ， 并 
且 一 直 处 于 被 监控 状态 ， 那 么 如 能 获取 到 信和 号 量 或 锁 时 ， 即 表明 该 
和 
Yh o 

诸如 管道 和 FIFO 之 类 的 IPC 通 道 : 可 对 监控 目标 进程 进行 设置 ， 仿 
其 在 自身 生命 周期 内 持 有 对 通道 进行 写 操 作 的 打开 文件 描述 符 。 同 
时 ， 令 监控 进程 持 有 和 针对 通道 进行 读 操作 的 打开 文件 描述 符 ， 且 当 
通道 写 入 端 关 闭 时 “遭遇 文件 结束 符 〉， 即 可 获知 监控 目标 进程 已 
经 终止 。 监 控 进 程 对 此 情况 的 判定 ， 既 可 借助 于 对 自身 文件 描述 符 
的 读 取 ， 也 可 采用 第 63 章 所 述 的 描述 符 监控 技术 之 一 。 

/proc/PID 接 口 : 例如 ， 如 果 进 程 ID 为 12345 的 进程 存在 ， 那 么 目 
录 /proc/12345 将 存在 ， 可 以 发 起 诸如 stat0 之 类 的 调用 来 进行 检查 。 


除去 最 后 一 项 之 外 ， 循 环 使 用 进程 ID 不 会 影响 上 述 所 有 技术 。 



























































程序 清单 20-3 展 示 了 kil0 的 用 法 。 该 程序 接受 两 个 命令 行 参数 ， 分 
别 为 信号 编号 和 进程 ID， 并 使 用 kill0 将 该 信号 发 送 给 指定 进程 。 如 采 指 
定 了 信号 0〈 空 信号 ) ， 那 么 程序 将 报告 目标 进程 是 否 存 在 。 





20.7 ”发 送信 号 的 其 他 方式 : raiseO 和 killpg( 


有 时 ， 进 程 需要 向 自身 发 送信 号 〈34.7.3 节 就 有 此 一 例 ) 。raise0) 函 
数 就 执行 了 这 一 任务 。 








#include <signal.h> 


int raise(int sig); 








Returns 0 on success, or nonzero on error 





在 单线 程 程序 中 ， 调 用 raise0 相 当 于 对 kilO0 的 如 下 调用 : 
kill(getpid(), sig); 
文 持 线程 的 系统 会 将 raise(sig) 实 现 为 : 


pthread kill(pthread self(), sig) 


33.2.3 节 摘 述 了 pthread_kill0 函 数 ， 但 目前 仅 需 了 解 一 点 就 已 足够 ， 
该 实现 意味 着 将 信号 传递 给 调用 raise() 的 特定 线程 。 相 比 之 下 ， 
kill(getpid(), sig) 调 用 会 发 送 一 个 信号 给 调用 进程 ， 并 可 将 该 信号 传递 给 
该 进程 的 任 一 线程 。 

















raise() 函 数 起 源 于 C89。C 语 言 标准 不 包含 诸如 进程 ID 
之 类 的 操作 系统 细 扩 ，raise() 函 数 之 所 以 得 以 定义 ， 是 因为 
该 函数 不 需要 引用 进程 ID。 


当 进 程 使 用 raise() 〈 或 者 kilO0) 向 自身 发 送信 号 时 ， 信 号 将 立即 传 
递 〈 即 ， 在 raise0 返 回调 用 者 之 前 ) 。 


注意 ，raise() 出 错 将 返回 非 0 值 (不 一 定 为 -1) 。 调 用 raise0 唯 一 可 
能 发 生 的 错误 为 EINVAL， 即 sig 无 效 。 因 此 ， 在 任何 指定 了 某 一 








SIGxxxx 和 常量 的 位 置 ， 都 未 检查 该 函数 的 返回 状态 。 
程序 清单 20-3: 使 用 kill0 系 统 调用 





signals/t kill.c 


#include <signal.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


int s, sig; 


if (argc != 3 || stremp(argv[1], "--help") == 0) 
usageErr("%s sig-num pid\n", argv[0]); 


sig = getInt(argv[2], 0, “sig-num"); 


s = kill(getLong(argv[1], 0, "pid"), sig); 


if (sig != 0) { 
if (s == -1) 
errExit("kill"); 
} else { /* Null signal: process existence check */ 
if (s == 0) { 
printf("Process exists and we can send it a signal\n"); 
} else { 


if (errno == EPERM) 
printf("Process exists, but we don't have 
“permission to send it a signal\n"); 
else if (errno == ESRCH) 
printf("Process does not exist\n"); 
else 
errExit("kill"); 


} 


exit (EXIT_SUCCESS) ; 


signals/t_kill.c 


killpg0 函 数 向 某 一 进程 组 的 所 有 成 员 发 送 一 个 信号 。 





#include <signal.h> 


int killpg(pid t perp, int sig); 


Returns 0 on success, Or -l on error 











killpgO 调 用 相当 于 对 kil0 的 如 下 调用 : 
kill(-pgrp, sig); 


如 果 指 定 pgrp 的 值 为 0， 那 么 会 向 调用 者 所 属 进 程 组 的 所 有 进程 发 
送 此 信号 。SUSv3 对 此 未 作 规 范 ， 但 大 多 数 UNIX 实 现 对 该 情况 的 处 理 
方式 与 Linux 相 同 。 





20.8 ”显示 信号 描述 


每 个 信号 都 有 一 串 与 之 相关 的 可 打印 说 明 。 这 些 描述 位 于 数组 


sys_siglist 中 。 例 如 ， 可 以 用 sys_siglist[ SIGPIPE] 来 获取 对 SIGPIPE 信 号 


CET IF) 的 摘 述 。 然 而 ， 较 之 于 直接 引用 sys_siglist 数 组 ， 还 是 推荐 
使 用 strsignal0) 函 数 。 





#define BSD SOURCE 
#tinclude <signal.h> 


extern const char *const sys siglist[]; 


#define GNU SOURCE 
#include <string.h> 


char *strsignal(int sig); 





Returns pointer to signal description string 








strsignal() 函 数 对 sig 参 数 进行 边界 检查 ， 然 后 返回 一 枚 指针 ， 指 同 
针对 该 信号 的 可 打印 描述 字符 串 ， 或 者 是 当 信号 编号 无 效 时 指向 错误 字 
符 串 。〔 在 其 他 一 些 UNIX 实 现 中 ，strsignal(0) 函 数 会 在 sig 无 效 时 返回 空 








值 。) 


除去 边界 检查 之 外 ，strsignal(0) 函 数 较 之 于 直接 引用 sys_siglist 数 组 
的 男 一 优势 是 对 本 地 (locale) 设置 敏感 10.4) ， 所 以 显示 信号 描述 


时 会 使 用 本 地 语言 。 
程序 清单 20-4 中 所 示 为 使 用 strsignal0 的 例子 之 一 。 
psignal0 函 数 《〈 在 标准 错误 设备 上 ) 所 示 为 msg 参 数 所 给 定 的 


串 ， 后 面 跟 有 一 个 冒号 ， 随 后 是 对 应 于 sig 的 信号 描述 。 和 strsignal0 一 


样 ，psignalO 函 数 也 对 本 地 设置 敏感 。 





#include <signal.h> 





void psignal(int sig, const char *msg); 





尽管 SUSv3 并 未 将 psignal()、strsignal() 和 sys_siglist 纳 入 标准 ， 但 还 


是 有 许多 UNIX 实 现 文 持 它 们 。《〈SUSv4 中 加 入 了 对 psignal0 和 strsignal() 
的 规范 。) 


20.9 fa ste 


许多 信号 相关 的 系统 调用 都 需要 能 表示 一 组 不 同 的 信号 。 例 如 ， 
sigaction0 和 sigprocmask0O 人 允许 程序 指定 一 组 将 由 进程 阻塞 的 信号 ， 而 
sigpendingO 则 返回 一 组 目前 正在 等 待 送 达 给 一 进程 的 信号 。《〈 稍 后 将 描 
述 这 些 系统 调用 。 ) 


多 个 信号 可 使 用 一 个 称 之 为 信号 集 的 数据 结构 来 表示 ， 其 系统 数据 
SUSv3 规 定 了 一 系列 函数 来 操纵 信号 集 ， 现 在 将 描述 这 





像 在 大 多 数 UNIX 实 现 中 一 样 ，sigset_t 数 据 类 型 在 
Linux 中 是 一 个 位 掩 码 。 然 而 ，SUSv3 对 此 并 无 要 求 。 使 用 
其 他 一 些 类 型 的 结构 来 表示 信号 集 也 是 有 可 能 的 。SUSv3 
仅 要 求 可 对 sigset_t 类 型 赋值 即 可 。 因 此 ， 必 须 使 用 某 些 标 
量 类 型 〈 比 如 一 个 整数 ) 或 者 一 个 C 语 言 结 构 〈 也 许 包含 了 
一 个 整 型 数组 ) 来 实现 该 类 型 。 





sigemptyset() 函 数 初始 化 一 个 未 包含 任何 成 员 的 信号 集 。sigfillset() 
函数 则 初始 化 一 个 信号 集 ， 使 其 包含 所 有 信号 〈 包 括 所 有 实时 信号) 。 





#include <signal.h> 


int sigemptyset(sigset t *set); 
int sigfillset(sigset_t *set); 








Both return 0 on success, or -1 on error 





必须 使 用 sigemptyset0) 或 者 sigfillset0 来 初始 化 信号 集 。 这 是 因为 C 
语言 不 会 对 自动 变量 进行 初始 化 ， 并 且 ， 借 助 于 将 静态 变量 初始 化 为 0 
的 机 制 来 表示 衬 信 号 集 的 作法 在 可 移植 性 上 存在 问题 ， 因 为 有 可 能 使 用 








位 掩 个 之 外 的 吉 构 来 实现 信号 集 。 (出 于 同一 原因 ， eae 
空 而 使 用 memset(3) 函 数 将 其 内 容 清 零 的 做 法 也 不 正确 。 


言 号 集 初始 化 后 ， 可 以 分 别 使 用 sigaddset0 和 sigdelset() K 2 [a] — ^A 
集合 中 添加 或 者 移 除 单个 信号 。 





#include <signal.h> 


int sigaddset(sigset + *set, int sig); 
int sigdelset(sigset_t *set, int sig); 


Both return 0 on success, or -1 on error 














在 sigaddset() 和 sigdelset() 中 ，sig 参 数 均 表示 信号 编号 。 
sigismember0O 函 数 用 来 测试 信号 sig 是 个 是 信号 集 set 的 成 员 。 














#include <signal.h> 


int sigismember(const sigset_t *set, int sig); 








Returns 1 if sig is a member of set, otherwise 0 





a 那么 Sigismember0O 函 数 将 返回 1 (true) , 
售 则 返回 0 〈false) 。 


as GNU C 库 还 实现 了 3 个 非 标 准 函 数 ， 是 对 上 述 信 号 集 标准 函数 的 补 





#define _GNU_SOURCE 
#include “signal.h> 


int sigandset(sigset_t *set, sigset_t *left, sigset_t *right); 
int sigorset(sigset_t *dest, sigset_t *left, sigset_t *right); 
Both return 0 on success, or -1 on error 


int sigisemptyset(const sigset t *set); 





Returns 1 if sig is empty, otherwise 0 





这 些 函 数 执行 了 如 下 任务 。 


e sigandset() 将 left 集 和 right 集 的 交集 置 于 dest 集 。 
。 sigorset() 将 left 集 和 right 集 的 并 集 置 于 dest 集 。 
。 后 Set 集 内 未 包含 信号， 则 sigisemptysetO 返 回 true。 


示例 程序 


程序 清单 20-4 所 示 为 使 用 本 市 介绍 的 函数 来 编写 的 函数 ， 供 本 书后 
续 各 程序 调用 。 第 一 个 函数 printSigset() 显 示 了 指定 信号 集 的 成 员 信 号 。 
该 函数 使 用 了 定义 于 <signal.h> 文 件 中 的 NSIG 第 量 ， 其 值 等 于 信号 最 大 
编号 加 1。 当 获取 信号 集成 员 时 ， 会 在 测试 所 有 信和 号 编号 的 循环 中 将 该 
值 作 为 循环 上 限 。 








虽然 SUSv3 并 未 定义 NSIG， 但 是 大 多 数 UNIX 实 现 都 支 
持 这 一 常量 。 只 不 过 ， 要 想 使 其 可 见 ， 可 能 需要 使 用 特定 
于 实现 的 编译 嚣 选项。 例如， 在 Linux 中 ， 就 必须 定义 如 下 
功能 测试 宏 之 一 : BSD_SOURCE、_SVID_SOURCE 或 者 
_GNU_SOURCE. 








All FA printSigset() ei, printSigMask()#printPendingSigs() RK BU 5!) 
FAP ANE 18 SEEM 4 eR AS SS PAP BOR 
分 别 使 用 了 sigprocmask() 和 sigpending() 系 统 调 用 。sigprocmask() 和 
sigpending() 系 统 调用 将 分 别 在 20.10 节 和 20.11 节 中 予以 描述 。 


程序 清单 20-4: 显示 信号 集 的 函数 





























signals/signal functions.c 
#define _GNU_SOURCE 
#include <string.h> 
#include <signal.h> 
#include "signal functions .h” /* Declares functions defined here */ 
#include “tlpi hdr.h" 


/* NOTE: All of the following functions employ fprintf(), which 
is not async-signal-safe (see Section 21.1.2). As such, these 


functions are also not async-signal-safe (i.e., beware of 
indiscriminately calling them from signal handlers). */ 


void /* Print list of signals within a signal set */ 
printSigset(FILE *of, const char *prefix, const sigset t *sigset) 


int sig, cnt; 

cnt = 0; 

for (sig = 1; sig < NSIG; sig++) { 
if (sigismember(sigset, sig)) { 


cnt++; 
fprintf(of, "%s%d (%s)\n", prefix, sig, strsignal(sig)); 


} 
if (cnt == 0) 
fprintf(of, "%s<empty signal set>\n", prefix); 
} 


int /* Print mask of blocked signals for this process */ 
printSigMask(FILE *of, const char *msg) 


sigset_t currMask; 


if (msg != NULL) 
fprintf(of, "%s", msg); 


if (sigprocmask(SIG BLOCK, NULL, &currMask) == -1) 
return -1; 


printSigset(of, "\t\t", &currMask); 


return 0; 


} 


int /* Print signals currently pending for this process */ 
printPendingSigs(FILE *of, const char *msg) 


sigset_t pendingSigs; 


if (msg != NULL) 
fprintf(of, "%s", msg); 


if (sigpending(&pendingSigs) == -1) 
return -1; 


printSigset(of, "\t\t", &pendingSigs); 
return 0; 


signals/signal_functions.c 


20.10 ”信号 掩 码 〈 阻 塞 信号 传递 ) 


内 核 会 为 每 个 进程 维护 一 个 信号 掩 码 ， 即 一 组 信号 ， 并 将 阻塞 其 针 
对 该 进程 的 传道。 如 果 将 遭 阻塞 的 信号 发 送 给 某 进 程 ， 那 么 对 该 信号 的 
传递 将 延 后 ， 直 至 从 进程 信号 掩 码 中 移 除 该 信号 ， 从 而 解除 阻塞 为 止 。 
(由 33.2.1 节 可 知 ， 信 号 掩 码 实际 属于 线程 属性 ， 在 多 线程 进程 中 ， 
个 线程 都 可 使 用 pthread_sigmaskO 函 数 来 独立 检查 和 修改 其 信号 捧 
码 。) 


回信 号 掩 码 中 添加 一 个 信号 ， 有 如 下 儿 种 方式 。 


。 当 调 用 信和 号 处 理 吉 程序 时 ， 可 将 引发 调用 的 信号 自动 添加 到 信和 号 拓 
人 码 中 。 是 奋发 生 这 一 情况 ， 要 视 sigaction() 函 数 在 安装 信号 处 理 器 
程序 时 所 使 用 的 标志 而 定 。 

e 使 用 sigaction() 函 数 建立 信号 处 理 器 程序 时 ， 可 以 指定 一 组 额外 信 
号 ， 当 调用 该 处 理 器 程序 时 会 将 其 阻塞 。 

e 使 用 sigprocmask() 系 统 调 用 ， 随 时 可 以 显 式 同 信号 掩 码 中 添加 或 移 


除 信号 。 


对 前 两 种 情况 的 讨论 将 推迟 到 20.13 节 对 sigaction0 函 数 的 介绍 之 
后 ， 现 在 先 来 讨论 sigprocmask() 函 数 。 











#include <signal.h> 


int sigprocmask(int how, const sigset 七 *sel, sigset_t *oldset); 


Returns 0 on success, Or -1 on error 

















使 用 sigprocmask0) 函 数 既 可 修改 进程 的 信号 掩 码 ， 又 可 获取 现 有 掩 
人 码 ， 或 者 两 重 功 效 兼 具 。how 参 数 指定 了 sigprocmask() 函 数 想 给 信号 掩 
人 码 带 来 的 变化 。 


SIG_BLOCK 


将 set 指 向 信号 集 内 的 指定 信号 添加 到 信号 掩 码 中 。 换 言 之 ， 将 信号 
掩 码 设置 为 其 当前 值 和 set 的 并 集 。 


SIG_UNBLOCK 


将 set 指 癌 信 号 集中 的 信号 从 信号 掩 码 中 移 除 。 即 使 要 解除 阻 赛 的 信 
号 当前 并 未 处 于 阻塞 状 态 ， 也 不 会 返回 错误 。 


SIG_SETMASK 
将 set 指 癌 的 信号 集 赋 给 信号 掩 码 。 


上 述 各 种 情况 下 ， 知 oldset 参 数 不 为 空 ， 则 其 指 同一 个 sigset_t 纺 构 
缓冲 区 ， 用 于 返回 之 前 的 信号 手 码 。 


如 果 想 获取 信号 掩 码 而 又 对 其 不 作 改 动 ， 那 么 可 将 set 参 数 指定 为 
空 ， 这 时 将 忽略 how 人 参数。 


要 想 暂 时 阻止 信号 的 传递 ， 可 以 使 用 程序 清单 20-5 中 所 示 的 一 系列 
ee 然后 再 将 信号 担 码 重 置 为 先前 的 状态 以 解除 对 信和 号 的 
ME o 




















程序 清单 20-5: 暂时 阻塞 信号 传递 











sigset_t blockSet, prevMask; 
/* Initialize a signal set to contain SIGINT */ 


sigemptyset (&blockSet) ; 
sigaddset(&blockSet, SIGINT); 


/* Block SIGINT, save previous signal mask */ 


if (sigprocmask(SIG BLOCK, &blockSet, &prevMask) == -1) 
errExit("sigprocmask1"); 


/* ... Code that should not be interrupted by SIGINT ... */ 
/* Restore previous signal mask, unblocking SIGINT */ 


if (sigprocmask(SIG SETMASK, &prevMask, NULL) == -1) 
errExit("sigprocmask2"); 








SUSv3 规 定 ， 如 果 有 任何 等 竺 信号 因 对 sigprocmaskO 的 调用 而 解除 
了 锁定 ， 那 么 在 此 调用 返回 前 至 少 会 传递 一 个 信号 。 换 言 之 ， 如 果 解 除 
了 对 某 个 等 待 信号 的 锁定 ， 那 么 会 立刻 将 该 信号 传递 给 进程 。 


系统 将 忽略 试图 阻塞 SIGKILL 和 SIGSTOP 信 和 号 的 请 求 。 如 果 试 图 阻 
塞 这 些 信号 ，sigprocmask0O 函 数 既 不 会 子 以 关注 ， 也 不 会 产生 错误 。 这 
5 意味 着 ， 可 以 使 用 如 下 代码 来 阻塞 除 SIGKILL 和 SIGSTOP 之 外 的 所 有 信 
E 
sigfillset(&blockSet); 


if (sigprocmask(SIG BLOCK, &blockSet, NULL) == -1) 
errExit("sigprocmask"); 





20.11 处 于 等 待 状态 的 信号 


如 果 某 进程 接受 了 一 个 该 进程 正在 阻塞 的 信号 ， 那 么 会 将 该 信号 填 
加 到 进程 的 等 待 信号 集中 。 当 《〈 且 如 果 ) 之 后 解除 了 对 该 信号 的 锁定 
时 ， 会 随 之 将 信号 传递 给 此 进程 。 为 了 确定 进程 中 处 于 等 待 状态 的 是 哪 
些 信和 号， 可 以 使 用 sigpending()。 














#include <signal.h> 


int sigpending(sigset_t *set); 








Returns 0 on success, or -1 on error 





sigpendingO 系 统 调用 为 调用 进程 返回 处 于 等 竺 状态 的 信号 集 ， 并 将 
其 置 于 set 指向 的 Sigset_t 结 构 中 。 随 后 可 以 使 用 20.9 节 描述 的 
sigismember() 函 数 来 检查 set。 


如 果 修 改 了 对 等 待 信号 的 处 置 ， 那 么 当 后 来 解除 对 信号 的 锁定 时 ， 
将 根据 新 的 处 置 来 处 理 信号 。 这 项 技术 虽然 不 经 党 使用， 但 还 是 存在 一 
个 应 用 场景 ， 即 将 对 信号 的 处 置 置 为 SIG_IGN， 或 者 SIG_DFL (如 果 信 
号 的 默认 行为 是 忽略 ) ， 从 而 阻止 传递 处 于 等 待 状态 的 信号 。 因 此 ， 会 
将 信号 从 进程 的 等 竺 信号 集中 移 除 ， 从 而 不 传递 该 信号 。 








20.12 不 对 信号 进行 排队 人 处理 


等 待 信号 集 只 是 一 个 掩 码 ， 仪 表明 一 个 信号 是 否 发 生 ， 而 未 表明 其 
发 生 的 次 数 。 换 言 之 ， 如 果 同 一 信号 在 阻塞 状态 下 产生 多 次 ， 那 么 会 将 
该 信号 记录 在 等 待 信号 集中 ， 并 在 稍 后 仅 传递 一 次 。“【 标 准 信号 和 实时 
Pee 在 于 ， 如 22.8 节 所 述 ， 对 实时 信号 进行 了 排队 处 
理 。) 


程序 清单 20-6 和 程序 清单 20-7 显 示 了 两 个 程序 ， 可 用 于 观察 未 作 排 
队 处 理 的 信和 号。 清单 20-6 的 程序 可 接受 多 达 四 个 命令 行 参数 ， 如 下 所 
ZN: 























$ ./sig_sender PID num-sigs sig-num [sig-num-2] 


第 一 个 参数 是 程序 发 送信 号 的 目标 进程 ID。 第 二 个 参数 则 指定 发 送 
给 目标 进程 的 信号 数量 。 第 三 个 参数 指定 发 往 目 标 进程 的 信号 编号 。 如 
打 还 提供 了 一 个 信号 编号 作为 第 四 个 参数 ， 那 么 当 程 序 发 送 完 之 前 参数 
所 指定 的 信号 之 后 ， 将 发 送 该 信号 的 一 个 实例 。 在 如 下 shell 会 话 示 例 
a a 
写 的 目的 将 在 稍 后 揭晓 。 















































程序 清单 20-6: 发 送 多 个 信号 

















signals/sig sender.c 
#include <signal.h> 


#include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 


int numSigs, sig, j; 
pid t pid; 


if (argc < 4 || strcmp(argv[1], "--help") == 0) 
usageErr("%s pid num-sigs sig-num [sig-num-2]\n", argv[0]); 


pid = getLong(argv[1], 0, "PID"); 
numSigs = getInt(argv[2], GN GT 0, “num-sigs"); 
sig = getInt(argv[3], 0, "sig-num"); 


/* Send signals to receiver */ 


printf("%s: sending signal %d to process %ld %d times\n", 
argv[0], sig, (long) pid, numSigs); 


for (j = 0; j < numSigs; j++) 
if (kill(pid, sig) == -1) 
errExit("kill"); 


/* If a fourth command-line argument was specified, send that signal */ 


if (argc > 4) 
if (kill(pid, getInt(argv[4], 0, "sig-num-2")) == -1) 
errExit("kill"); 


printf("%s: exiting\n", argv[0]); 
exit(EXIT SUCCESS); 


signals/sig sender.c 


程序 清单 20-7 中 程序 则 被 设计 为 去 捕获 程序 清单 20-6 程 序 所 发 送 的 
信号 并 汇总 其 统计 数据 。 该 程序 执行 了 以 下 步骤 。 


o 该 程序 建 记 了 单个 处 理 器 程序 来 捕获 所 有 信号 。 【捕获 SIGKILL 和 
SIGSTOP 信 号 是 不 可 能 的 ， 不 过 将 忽略 在 尝试 为 这 些 信号 建立 处 理 
器 时 所 发 生 的 错误 。) 对 于 大 多 数 类 型 的 信号 ， 处 理 器 程序 只 是 简 
单 地 使 用 一 个 数组 来 对 信号 计数 。 如 果 收 到 的 信号 为 SIGINT， 那 
么 处 理 器 程序 将 对 标志 (gotSigint〉 置 位 ， 从 而 使 程序 退出 主 循环 

(下 面 所 描述 的 while 循 坏 ) 。 (至 于 volatile 修 饰 符 以 及 声明 
gotSigint 变 量 的 sig_atomic t 数 据 类 型 ， 将 在 21.1.3 节 中 解释 其 用 
Re) 

。 如 有 条 提供 有 一 个 命令 行 参 数 给 程序 ， 那 么 程序 对 所 有 信和 号 的 阻 终 秒 
数 将 由 该 参数 指定 ， 并 且 在 解除 阻塞 之 前 会 显示 待 处理 的 信号 集 ， 
从 而 使 用 户 在 进程 执行 下 面 的 步骤 前 向 其 发 送信 号 。 

。 程序 执行 while 循 环 以 消耗 CPU 时 间 ， 直 至 将 gotSigint 标 志 置 位 。 

20.14 节 和 22.9 节 描述 了 pause0 和 sigsuspend0 的 用 法 ， 二 者 在 等 待 
信号 到 来 期 间 对 CPU 的 使 用 方式 都 颇 为 高 效 。) 

e 退出 while 循 环 后 ， 程 序 显 示 对 所 有 接收 信号 的 计数 。 


首先 使 用 这 两 个 程序 来 展示 的 是 遭 阻 塞 的 信号 无 论 产 生 了 多 少 次 ， 














a 
aTe 


$ ./sig_receiver 15 & Receiver blocks signals for 15 secs 
[1] 5368 
./sig receiver: PID is 5368 


./sig receiver: sleeping for 15 seconds 
$ ./sig sender 5368 1000000 10 2 Send SIGUSR1 signals, pius a SIGINT 


./sig sender: sending signal 10 to process 5368 1000000 times 
./sig sender: exiting 
./sig receiver: pending signals are: 
2 (Interrupt) 
10 (User defined signal 1) 
./sig receiver: signal 10 caught 1 time 
[1]+ Done -/Sig receiver 15 


发 送 程序 的 命令 行 参数 指定 了 SIGUSR1 和 SIGINT 信 号 ， 其 在 
Linux/x86 中 的 编号 分 别 为 10 和 2。 


从 以 上 输出 可 知 ， 即 使 一 个 信号 发 送 了 一 百 万 次 ， 但 仅 会 传递 一 次 
给 接收 者 。 


即使 进程 没有 阻塞 信号 ， 其 所 收 到 的 信号 也 可 能 比 发 送 给 它 的 要 少 
得 多 。 如 宁 信 和 号 发 送 速度 如 此 之 快 ， 以 全 于 在 内 核 考虑 将 执行 权 调度 给 
接收 进程 之 前 ， 这 些 信 号 就 已 经 到 达 ， 这 时 就 会 发 生 上 述 情况 ， 从 而 导 
致 多 次 发 送 的 信号 在 进程 等 竺 信号 集中 只 记录 了 一 次 。 如 采 不 带 任 何 命 
令 行 参 数 来 执行 程序 清单 20-7 中 程序 〈 因 此， 进程 没有 阻 窗 信和 号， 也 没 
有 睡眠 ) ， 那 么 将 看 到 如 下 情况: 


$ ./sig receiver & 

[1] 5393 

./sig receiver: PID is 5393 

$ ./sig sender 5393 1000000 10 2 

./sig sender: sending signal 10 to process 5393 1000000 times 
./sig sender: exiting 

./sig receiver: signal 10 caught 52 times 

[1]+ Done ./sig receiver 


FET AGS AUR SZ, PEARES ARK. 捕获 信 
号 的 精确 数目 每 每 不 同 ， 这 取决 于 内 核 调 度 算 法 变 约莫 测 的 决策 结 
Ao ) 之 所 以 如 此 ， 原 因 在 于 ， 发 送 程序 会 在 每 次 获得 调度 而 运行 时 发 
送 多 个 信号 给 接收 者 。 然 而 ， 当 接收 进程 得 以 运行 时 ， 传 递 来 的 信号 只 
有 一 个 ， 因 为 只 会 将 这 些 信 号 中 的 一 个 标记 为 等 待 状态 。 
























































程序 清单 20-7: 捕获 信号 并 对 其 计数 





Signals/sig receiver.c 
#define GNU SOURCE 
#include <signal.h> 


#include "signal_functions.h" /* Declaration of printSigset() */ 
#include “tlpi_hdr.h" 


static int sigCnt[NSIG]; /* Counts deliveries of each signal */ 
static volatile sig atomic t gotSigint = 0; 
/* Set nonzero if SIGINT is delivered */ 


static void 
@ handler(int sig) 
{ 


if (sig == SIGINT) 
gotSigint = 1; 
else 
sigCnt[sig]++; 
} 


int 
main(int argc, char *argv[]) 
{ 
int n, numSecs; 
sigset_t pendingMask, blockingMask, emptyMask; 


printf("%s: PID is %ld\n", argv[o], (long) getpid()); 


for (n = 1; n < NSIG; n++) /* Same handler for all signals */ 
(void) signal(n, handler); /* Ignore errors */ 


/* If a sleep time was specified, temporarily block all signals, 
sleep (while another process sends us signals), and then 
display the mask of pending signals and unblock all signals */ 


if (argc > 1) { 
numSecs = getInt(argv[1], GN_GT_O, NULL); 


sigfillset (&blockingMask) ; 
if (sigprocmask(SIG_SETMASK, &blockingMask, NULL) == -1) 
errExit("sigprocmask"); 


printf("%s: sleeping for %d seconds\n", argv[0], numSecs); 
sleep(numSecs); 


if (sigpending(&pendingMask) == -1) 
errExit("sigpending"); 


printf("%s: pending signals are: \n", argv[0]); 
printSigset(stdout, "\t\t", &pendingMask) ; 


sigemptyset (&emptyMask) ; /* Unblock all signals */ 
if (sigprocmask(SIG SETMASK, &emptyMask, NULL) == -1) 
errExit("sigprocmask”); 
} 
while (!gotSigint) /* Loop until SIGINT caught */ 
continue; 
for (n = 1; n < NSIG; n++) /* Display number of signals received */ 


if (sigCnt[n] != 0) 
printf("%s: signal %d caught %d time%s\n", argv[0], n, 
sigCnt[n], (sigCnt[n] == 1) ? "" < "s"); 


exit(EXIT SUCCESS); 


signals/sig_receiver.c 


20.13 ”改变 信号 处 置 : sigaction () 


除去 signal0 之 外 ，sigaction0 系 统 调用 是 设置 信号 处 置 的 另 一 选 
择 。 虽 然 sigaction0) 的 用 法 比 之 signal0 更 为 复杂 ， 但 作为 回报 ， 也 更 有 具 
灵活 性 。 尤 其 是 ，sigaction0) 人 允许 在 获取 信号 处 置 的 同时 无 需 将 其 改 
变 ， 并 且 ， 还 可 设置 各 种 属性 对 调用 信号 处 理 器 程序 时 的 行为 施 以 更 加 
精准 的 控制 。 此 外 ， 如 22.7 节 所 述 ， 在 建 并 信号 处 理 器 程序 时 ， 
sigaction(0) 较 之 signal0 函 数 可 移植 性 更 佳 。 














#include <signal.h> 


int sigaction(int sig, const struct sigaction *act, struct sigaction *oldact) ; 


Returns 0 on success, or -1 on error 














sig 参 数 标识 想 要 获取 或 改变 的 信号 编号 。 该 参数 可 以 是 除去 
SIGKILL 和 SIGSTOP 之 外 的 任何 信号。 


act 参 数 是 一 枚 指针 ， 指 加 描述 信号 新 处 置 的 数据 结构 。 如 有 果 仪 对 信 
号 的 现 有 处 置 感 兴 趣 ， 那 么 可 将 该 参数 指定 为 NULL。oldact 参 数 是 指向 
同一 结构 类 型 的 指针 ， 用 来 返回 之 前 信号 处 置 的 相关 信息 。 如 果 无 意 获 
取 此 类 信息 ， 那 么 可 将 该 参数 指定 为 NULL。act 和 oldact 所 指 问 的 结构 
类 型 如 下 所 示 : 


struct sigaction { 
void  (*sa handler)(int); /* Address of handler */ 


sigset t sa mask; /* Signals blocked during handler 
invocation */ 

int sa_flags; /* Flags controlling handler invocation */ 

void (*sa restorer)(void); /* Not for application use */ 


sigaction 结 构 实际 要 比 此 处 所 展示 的 更 为 复杂 ， 更 多 细 
节 请 参见 21.4 节 。 


sa_handler 字 上 段 对 应 于 signal() 的 handler 参 数 。 其 所 指定 的 值 为 信号 
处 理 器 函数 的 地 址 ， 亦 或 是 常量 SIG_IGN、SIG_DFL 之 一 。 仪 当 
sa_handler 是 信号 处 理 程 序 的 地 址 时 ， 亦 即 sa_handler 的 取 值 在 SIG_IGN 
和 SIG_DFL 之 外 ， 才 会 对 sa_mask 和 sa_flags 字 段 〈 稍 后 讨论 ) 加 以 处 
理 。 余 下 的 字段 sa_restorer， 则 不 适用 于 应 用 程序 〈SUSv3 未 予 规 
六 





sa_restorer 字 上 段 仅 供 内 部 使 用 ， 用 以 确保 当 信号 处 理 器 
程序 完成 后 ， 会 去 调用 专用 的 sigreturn() 系 统 调用 ， 借 此 来 
恢复 进程 的 执行 上 下 文 ， 以 便于 进程 从 信号 处 理 占 中 断 的 
位 置 继续 执行 。 这 一 用 法 的 实例 可 见 诸 于 glibc 源 文件 
sysdeps/unix/sysv/linux/i386/ sigaction.c 中 。 





sa_mask 字 上 段 定义 了 一 组 信号 ， 在 调用 由 sa_handler 所 定义 的 处 理 嚣 
程序 时 将 阻塞 该 组 信号 。 当 调用 信和 号 处 理 器 程序 时 ， 会 在 调用 信和 号 处 理 
器 之 前 ， 将 该 组 信号 中 当前 未 处 于 进程 掩 码 之 列 的 任何 信号 自动 添加 到 
进程 掩 码 中 。 这 些 信号 将 保留 在 进程 掩 码 中 ， 直 至 信号 处 理 器 函数 返 
回 ， 届 时 将 自动 删除 这 些 信号 。 利 用 sa_mask 字 段 可 指定 一 组 信号 ， 不 
允许 它们 中 断 此 处 理 器 程序 的 执行 。 此 外 ， 引 发 对 处 理 器 程序 调用 的 信 
号 将 自动 添加 到 进程 信号 掩 码 中 。 这 意味 着 ， 当 正在 执行 处 理 器 程序 
时 ， 如 果 同 一 个 信号 实例 第 二 次 抵达 ， 信 号 处 理 器 程序 将 不 会 递归 中 断 
自己 。 由 于 不 会 对 遭 阻 塞 的 信号 进行 排队 处 理 ， 如 果 在 处 理 器 程序 执行 
站 
次 性 的 。 


sa_flags 字 段 是 一 个 位 掩 码 ， 指 定 用 于 控制 信和 号 处 理 过 程 的 各 种 选 
项 。 该 字段 包含 的 位 如 下 可 以 相 或 (|) ) 。 


SA_NOCLDSTOP 


各 Sig 为 SIGCHLD 信 号 ， 则 当 因 接受 一 信号 而 停止 或 恢复 某 一 子 进 
程 时 ， 将 不 会 产生 此 信和 号。 参见 26.3.2 节 。 




















SA_NOCLDWAIT 


(48 F Linux 2.6) 若 sig 为 SIGCHLD 信 号 ， 则 当 子 进程 终止 时 不 会 
将 其 转化 为 僵尸 。 更 多 细节 参见 26.3.3 市 。 


SA_NODEFER 

捕获 该 信号 时 ， 不 会 在 执行 处 理 器 程序 时 将 该 信号 自动 添加 到 进程 
掩 码 中 。SA_NOMASK 历 史上 曾 是 SA_NODEFER 的 代名词 。 之 所 以 建 
议 使 用 后 者 ， 是 因为 SUSv3 将 其 纳入 规范 。 


SA_ONSTACK 


针对 此 信号 调用 处 理 器 函数 时 ， 使 用 了 由 sigaltstackO 安 装 的 备 选 
栈 。 参 见 21.3 节 。 








SA_RESETHAND 


当 捕 获 该 信号 时 ， 会 在 调用 处 理 器 函数 之 前 将 信号 处 置 重 置 为 默认 
值 “ 即 SIG_DFL) 默认 情况 下 ， 信 号 处 理 器 函数 保持 建立 状态 ， 直 至 
进一步 调用 sigaction0 将 其 显 式 解 除 。) SA_ONESHOT 历 史上 曾 是 
SA_RESETHAND 的 代名词 ， 之 所 以 建议 使 用 后 者 ， 是 因为 SUSv3 将 其 
纳入 规范 。 


SA_RESTART 
自动 重 局 由 信号 处 理 喜 程序 中 断 的 系统 调用 。 人 参见 21.5 太 。 


SA_SIGINFO 


Del AA fea “SS a PG is TPS, SE GER S RTA S ANR 
入 信息 。 对 该 标志 的 描述 参见 21.4 节 。 


SUSv3 定 义 了 上 述 所 有 选项 。 
程序 清单 21-1 展 现 了 对 sigaction() 的 使 用 。 


























20.14 ”等 待 信号 : pause() 


调用 pause0) 将 暂停 进程 的 执行 ， 直 至 信号 处 理 器 函数 中 断 该 调用 为 
止 《 或 者 直至 一 个 未 处 理 信号 终止 进程 为 止 ) 。 





ftinclude <unistd.h> 


int pause(void); 








Always returns -1 with errno set to EINTR 





处 理 信号 时 ，pause() 遭 到 中 断 ， 并 总 是 返回 -1， 并 将 errno 置 为 
EINTR. (21.5 节 描述 了 关于 EINTR 错 误 的 更 多 信息 。) 


程序 清单 20-2 提 供 了 应 用 pause() 的 一 例子 。 


在 22.9 节 、22.10 市 及 22.11 节 中 ， 可 以 看 到 程序 等 得 信号 时 暂停 执 
行 的 各 种 其 他 方式 。 





20.15 Ma 


言 号 是 及 生 东 种 事件 的 通知 机 制 ， 可 以 由 内 核 、 兄 一 进程 或 进程 自 
onan 存在 一 系列 的 标准 信号 类 型 ， 每 种 都 有 唯一 的 编号 和 目 











信号 传递 通常 是 异步 行为 ， 这 意味 痢 信 号 中 断 进 程 执行 的 位 置 是 不 
可 预测 的 。 有 时 《比如 ， 硬 件 产生 的 信号 ) ， 信 号 也 可 同步 传递 ， 这 意 
味 着 在 程序 执行 的 茶 一 点 可 以 预期 并 重 现 信号 的 传递 。 


默认 情况 下 ， 要 么 忽略 信号 ， 要 么 终止 进程 《生成 或 者 不 生成 核心 
转 储 文件 ) ， 要 么 停止 一 个 正在 运行 的 进程 ， 要 么 重启 一 个 已 停止 的 进 
程 。 特 定 的 默认 行为 取决 于 信号 类 型 。 此 外 ， 程 序 可 以 使 用 signal0 或 者 
sigaction() 来 显 式 忽 略 一 个 信和 号， 或 者 建立 一 个 由 程序 员 自 定义 的 信和 号 
处 理 器 程序 ， 以 供 信号 到 达 时 调用 。 出 于 可 移植 性 考虑 ， 最 好 使 用 
sigaction() 来 建立 信号 处 理 器 函数 。 


一 个 (具有 适当 权限 的 ) 进程 可 以 使 用 kil0 癌 男 一 进程 发 送信 号 。 
发 送 空 信号 0) 是 判定 特定 进程 ID 是 人 否 在 用 的 方式 之 一 。 


每 个 进程 都 具有 一 个 信号 掩 码 ， 代 表 当 前 传递 但 到 阻 窗 的 一 组 信 
写 。 使 用 sigprocmaskO 可 从 信号 掩 码 中 添加 或 者 移 除 信和 号。 


如 果 接 收 的 信号 当前 遭 到 阻塞 ， 那 么 该 信号 将 保持 等 待 状态 ， 直 至 
解除 对 其 阻塞 。 系 统 不 会 对 标准 信号 进行 排队 处 理 ， 也 融 是 说 ， 将 信号 
标记 为 等 竺 状态 《〈 以 及 后 续 的 传递 ) 只 会 发 生 一 次 。 进 程 能 够 使 用 
来 获取 等 竺 信号 集 《〈 用 以 描述 多 个 不 同 信 号 的 数据 
结构 ) o 


与 signal() 相 比 ，sigaction() 系 统 调用 在 设置 信号 处 置 方面 提供 了 更 
多 控制 ， 且 更 具 灵 活性 。 首 先 ， 可 以 指定 一 组 调用 处 理 器 函数 时 将 阻塞 
的 额外 信和 号。 此外， 可 以 使 用 各 种 标志 来 控制 调用 信号 处 理 器 时 所 发 生 
的 行为 。 例 如 ， 启 用 某 些 标志 即 可 选择 旧 有 的 不 可 靠 信 号 语义 (不 阻 容 
ane 的 信号 ， 在 调用 信号 处 理 器 之 前 就 将 信号 处 置 重 置 为 默 
WE) à 


























借助 于 pause0， 进 程 可 暂停 执行 ， 直 至 信和 号 到 达 为 止 。 
更 多 信息 


[Bovet & Cesati, 2005] 和 [Maxwell, 1999] 提 供 了 Linux 信 号 实现 的 背 
景 资料 。[Goodheart & Cox, 1994] 详 细 说 明了 System VAAN aS ASE 
现 。GNU CHUR FA ERMD: http:/www.gnu.org/) 包含 了 对 
信号 的 全 面 描述 。 


20.16 练习 


20-1. 如 20.3 节 所 指 ， 比 之 signal0，sigaction0) 函 数 在 建立 信号 处 理 
器 时 可 移植 性 更 佳 。 请 用 sigaction0) 蔡 换 程 序 清单 20-7 程 序 
(sig_receiver.c) 中 对 signal0 的 调用 。 


20-2. 编写 一 程序 来 展示 当 将 对 等 待人 
程序 绝 不 会 看 到 (捕获 ) 信号 。 


20-3. 编写 一 程序 ， 以 sigaction() 来 建立 信号 处 理 器 函数 ， 请 验证 
SA_RESETHAND 和 SA_NODEFER 标 志 的 效果 。 


号 的 处 置 改 为 SIG_IGN 时 ， 


ll 


20-4. 请 用 sigaction() 调 用 来 实现 siginterrupt()。 





(D 译 者 注 : 即 后 人 台 进 程 组 。 


@O) 译 者 注 : 参考 APUEv2， 其 实 就 是 由 系统 实现 决定 的 意思 ， 再 次 二 视 
SUS 的 学 究 笔 法 。 


第 21 章 ”信号 : 信号 处 理 器 函数 


承接 上 一 章 ， 本 章 将 继续 介绍 信号 。 本 章 的 描述 重点 是 信和 号 处 理 器 
函数 Chandler) ， 同 时 会 拓展 20.4 节 所 发 起 的 讨论 。 本 章 涵 新 主题 如 
下 。 





。 如 何 设计 信号 处 理 器 函数 ， 其 中 对 可 重 入 性 以 及 异步 信号 安全 函数 
的 探讨 必 不 可 少 。 

人 
lI 

。 利 用 备 选 栈 处 理 信 和 号 。 

。 借助 于 带 有 SA_SIGINFO 标 志 的 sigaction0 函 数 ， 处 理 器 函数 能 够 获 
取 引 发 其 调用 信号 的 更 多 详细 信息 。 

o 信号 处 理 器 函数 如 何 中 断 处 于 阻塞 状态 的 系统 调用 ， 以 及 如 何 重启 
该 系统 调用 。 


21.1 设计 信号 处 理 器 函数 


一 般 而 言 ， 将 信号 处 理 需 函数 设计 得 越 简 单 越 好 。 其 中 的 一 个 重要 
原因 束 在 于 ， 这 将 降低 引发 苋 搜 条 件 的 风险 。 下 面 是 针对 信和 与 处 理 占 函 
数 的 两 种 币 见 设计 。 


e 信号 处 理 器 函数 设置 全 局 性 标志 变量 并 退出 。 主 程序 对 此 标志 进行 
周期 性 检查 ， 一 旦 置 位 随即 采取 相应 动作 。“〈 主 程序 若 因 监控 一 个 
或 多 个 文件 描述 符 的 MO 状态 而 无 法 进行 这 种 周期 性 检查 时 ， 则 可 
令 信 号 处 理 器 函数 向 一 专用 管道 写 入 一 个 字 节 的 数据 ， 同 时 将 该 管 
道 的 读 取 端 置 于 主 程序 所 监控 的 文件 描述 符 范 围 之 内 。63.5.2 节 展 
示 了 这 一 技术 的 运用 。) 

。 信号 处 理 器 函数 执行 某 种 类 型 的 清理 动作 ， 接 着 终止 进程 或 者 使 用 
(21.2.1 节 ) 将 栈 解 开 并 将 控制 返回 到 主 程序 中 的 预定 
MHo 


后 续 各 市 将 会 探讨 这 些 设计 理念 ， 以 及 信号 处 理 器 函数 设计 中 的 其 
他 一 些 重要 概念 。 


21.1.1 再 论 信 吕 的 非 队列 化 处 理 


20.10 市 已 然 提 及 ， 在 执行 茶 信 号 的 处 理 喜 函数 时 会 阻塞 同类 信和 号 
的 传递 《除非 在 调用 sigaction0 时 指定 了 SA_NODEFER 标 志 ) 。 如 果 在 
执行 处 理 喜 函数 时 《再 次 ) 产生 同类 信和 号， 那么 会 将 该 信号 标记 为 等 街 
状态 并 在 处 理 器 函数 返回 之 后 再 行 传递 。 前 一 章 还 曾 指出 ， 不 会 对 信号 
进行 排队 处 理 。 在 处 理 器 函数 执行 期 间 ， 如 果 多 次 产生 同类 信号 ， 那 和 
仍然 会 将 其 标记 为 等 待 状态 ， 但 稍 后 只 会 传递 一 次 。 


信号 的 这 种 “失踪 ”方式 无 疑 将 影响 对 信号 处 理 器 函数 的 设计 。 首 
先 ， 无 法 对 信和 号 的 产生 次 数 进行 可 靠 计 数 。 其 次 ， 在 为 信号 处 理 器 函数 
编码 时 可 能 需要 考虑 处 理 同类 信号 多 次 产生 的 情况 。26.3.1 节 在 讨论 
SIGCHLD 信 号 时 会 有 相关 示例 。 

21.1.2 ”可 重 入 函数 和 有 异步 信号 安全 函数 


在 信号 处 理 器 函数 中 ， 并 非 所 有 系统 调用 以 及 库 函 数 均 可 予以 安全 
































调用 。 要 了 解 来 龙 去 脉 ， 就 需要 解释 一 下 以 下 两 种 概念 : 可 重 入 
(reentrant) AA SZ 〈async-signal-safe) 函数 。 


可 重 入 和 非 可 重 入 函数 


要 解释 可 重 入 函数 为 何 物 ， 首 先 需 要 区 分 单线 程 程序 和 多 线程 程 
序 。 典 型 UNIX 程 序 都 具有 一 条 执行 线程 ， 贯 穿 程 序 始 终 ，CPU 围 绕 单 
条 执行 逻辑 来 处 理 指 令 。 而 对 于 多 线程 程序 而 言 ， 同 一 进程 却 存在 多 条 
独立 、 并 发 的 执行 逻辑 流 。 


第 29 章 将 会 展示 如 何 显 式 创建 一 个 包含 多 条 执行 线程 的 程序 。 不 
过 ， 多 执行 线程 的 概念 与 使 用 了 信和 号 处 理 器 函数 的 程序 也 有 关联 。 因 为 
信号 处 理 喜 函数 可 能 会 在 任 一 时 点 有 异步 中 断 程序 的 执行 ， 从 而 在 同一 个 
进程 中 实际 形成 了 两 条 〈 即 主 程序 和 信和 号 处 理 需 图 数 ) 独立 《虽然 不 是 
FR) 的 执行 线程 。 

如 果 同 一 个 进程 的 多 条 线程 可 以 同时 安全 地 调用 某 一 函数 ， 那 么 该 
函数 就 是 可 重 入 的 。 此 处 ,“ 安 全 ”意味 着 ， 无 论 其 他 线程 调用 该 函数 的 
执行 状态 如 何 ， 函 数 均 可 产生 预期 结 








SUSv3 对 可 重 入 函数 的 定义 是 : 函数 由 两 条 或 多 条 线 
程 调 用 时 ， 即 便 是 交叉 执行 ， 其 效果 也 与 各 线程 以 未 定义 
负 顺 序 依次 调用 时 一 致 。 











更 新 全 局 变量 或 静态 数据 结构 的 函数 可 能 是 不 可 重 入 的 。《〈 只 用 到 
本 地 变量 的 函数 肯定 是 可 重 入 的 。) 如 果 对 函数 的 两 个 调用 《例如 : 分 
别 由 两 条 执行 线程 发 起 ) 同时 试图 更 新 则 一 全 局 变量 或 数据 类 型 ， 那 么 
二 者 很 可 能 会 相互 干扰 并 产生 不 正确 的 结果 。 例 如 ， 假 设 茶 线程 正在 为 
一 链表 数据 结构 添加 一 个 新 的 链表 项 ， 而 为 一 线程 也 正 试图 更 新 同一 链 
表 。 由 于 为 链表 添加 新 项 涉及 对 多 枚 指针 的 更 新 ， 一 旦 为 一 线程 中 断 这 
些 步 又 并 修改 了 相同 的 指针 ， 结 果 就 会 产生 混乱 。 


在 C 语 言 标准 函数 库 中 ， 这 种 可 能 性 非 第 普遍 。 例 如 ，7.1.3 市 所 提 














及 的 malloc() 和 free() 束 维护 有 一 个 针对 已 释放 内 存 块 的 链表 ， 用 于 从 堆 
中 重新 分 配 内 存 。 如 果 主 程序 在 调用 malloc() 期 间 为 一 个 同样 调用 
malloc() 的 信号 处 理 器 函数 所 中 断 ， 那 么 该 链表 可 能 会 遭 到 破坏 。 因 
此 ，mallocO 函 数 族 以 及 使 用 它们 的 其 他 库 函 数 都 是 不 可 重 入 的 。 


还 有 一 些 函数 库 之 所 以 不 可 重 入 ， 是 因为 它们 使 用 了 经 静态 分 配 的 
内 存 来 返回 信息 。 此 类 函数 《本 书 其 他 地 方 也 有 论 及 ) 的 例子 包括 
crypt()、getpwnam()、gethostbyname() 以 及 getservbyname()。 如 果 信 号 处 
理 器 用 到 了 这 类 孙 数 ， 那 么 将 会 和 覆盖 主 程序 中 上 次 调用 同一 函数 所 返回 
的 信息 《反之 亦 然 〉。 


将 静态 数据 结构 用 于 内 部 记 账 的 函数 也 是 不 可 重 入 的 。 其 中 最 明显 
的 例子 就 是 stdio 函 数 库 成 员 (printf()、scanf0) 等 ) ， 它 们 会 为 缓冲 区 IO 
更 新 内 部 数据 结构 。 所 以 ， 如 果 在 信号 处 理 器 函数 中 调用 了 printf()， 而 
主 程序 又 在 调用 printf0 或 其 他 stdio 函 数 期 间 遭 到 了 处 理 器 函数 的 中 断 ， 
那么 有 时 就 会 看 到 奇怪 的 输出 ， 甚 至 导致 程序 朋 溃 或 者 数据 的 损坏 。 

即使 并 未 使 用 不 可 重 入 的 库 函 数 ， 可 重 入 问题 依然 不 容 忽 视 。 如 果 
言 号 处 理 器 函数 和 主 程序 都 要 更 新 由 程序 员 自 定义 的 全 局 性 数据 结构 ， 
那么 对 于 主 程序 而 言 ， 这 种 信号 处 理 器 函数 就 是 不 可 重 入 的 。 


如 果 函 数 是 不 可 重 入 的 ， 那 么 其 手册 页 通常 会 或 明 或 瞳 地 给 出 提 
示 。 对 于 其 中 那些 使 用 或 返回 静态 分 配 变量 的 函数 ， 需 要 特别 留意 。 


示例 程序 


程序 清单 21-1 展 示 了 函数 crypt() (8.5 节 ) 不 可 重 入 的 本 来 面目 。 该 
程序 接受 两 个 字符 串 作 为 命令 行 参数 ， 执 行 步 又 如 下 。 

1. 调用 crypt(O) 加 和 密 第 1 个 命令 行 参数 中 的 字符 串 ， 并 使 用 strdup() 将 
结果 复制 到 独立 缓冲 区 中 。 


2. 为 SIGINT 信 号 〈 按 下 Ctrl-C 产 生 ) 创建 处 理 器 函数 。 处 理 器 函 
数 调用 cryptO 加 密 第 2 个 命令 行 参数 所 提供 的 字符 串 。 


3. 进入 无 限 for 循 环 ， 使 用 cryptO0 加 密 第 1 个 命令 行 参 数 中 的 字符 
串 ， 并 检查 其 返回 字符 串 与 第 1 步 保 存 的 结果 是 人 否 一 致 。 























在 不 产生 信号 的 情况 下 ， 第 3 步 中 的 检查 结果 将 总 是 匹配 。 然 而 ， 
一 旦 收 到 SIGINT 信 号 ， 而 主 程序 又 恰 在 for 循 环 内 的 cryptO 调 用 之 后 ， 字 
符 串 的 匹配 检查 之 前 遭 到 信号 处 理 器 函数 的 中 断 ， 这 时 就 会 发 生字 符 串 
不 匹配 的 情况 。 程 序 运 行 结果 如 下 : 


$ ./non_reentrant abc def 

Repeatedly type Control-C to generate SIGINT 

Mismatch on call 109871 (mismatch=1 handled=1) 
Mismatch on call 128061 (mismatch=2 handled=2) 
Many lines of output removed 

Mismatch on call 727935 (mismatch=149 handled=156) 
Mismatch on call 729547 (mismatch=150 handled=157) 
Type Control-\ to generate SIGQUIT 

Quit (core dumped) 


由 对 上 述 输出 mismatch 和 handled 值 的 比较 可 知 ， 在 大 多 数 情 况 下 ， 
处 理 器 函数 会 在 main0) 中 的 cryptO 调 用 与 字符 串 比 较 之 间 去 覆盖 静态 分 
配 的 缓冲 区 。 


























程序 清单 21-1: 在 main0 以 及 信号 处 理 函 数 中 调用 不 可 重 入 的 函数 











signals/nonreentrant.c 


#define XOPEN SOURCE 600 
#include <unistd.h> 
#include <signal.h> 
#include <string.h> 
#include "tlpi hdr.h" 


static char *str2; /* Set from argv[2] */ 
static int handled = 0; /* Counts number of calls to handler */ 


static void 
handler{int sig) 


crypt(str2, "xx"); 
handled++; 


int 
main(int argc, char *argv[]) 


char *cr1; 
int callNum, mismatch; 
struct sigaction sa; 


if (argc != 3) 
usageErr("%s str1 str2\n", argv[0]); 


str2 = argv[2]; /* Make argv[2] available to handler */ 
cri = strdup(crypt(argv[1], "xx")); /* Copy statically allocated string 
to another buffer */ 
if (cr1 == NULL) 
errExit("strdup"); 


sigemptyset(&sa.sa_mask); 

sa.sa flags = 0; 

sa.sa_handler = handler; 

if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction"); 


/* Repeatedly call crypt{) using argv[1]. If interrupted by a 
signal handler, then the static storage returned by crypt() 
will be overwritten by the results of encrypting argv[2], and 
strcmp() will detect a mismatch with the value in ‘cri’. */ 


for (callNum = 1, mismatch = 0; ; callNumt+) { 
if (strcmp(crypt(argv[1], "xx"), cr1) != 0) { 
mismatch++; 
printf("Mismatch on call %d (mismatch=%d handled=%d) \n", 
callNum, mismatch, handled); 


signals/nonreentrant.c 
标准 的 异步 信号 安全 函数 


异步 信号 安全 的 函数 是 指 当 从 信号 处 理 器 函数 调用 时 ， 可 以 保证 其 
实现 是 安全 的 。 如 果菜 一 国 数 是 可 重 入 的 ， 又 或 者 信号 处 理 需 函数 无 法 
将 其 中 断 时 ， 束 称 该 函数 是 异步 信号 安全 的 。 


表 21-1 所 列 为 各 种 标准 要 求实 现 为 异步 信号 安全 的 函数 。 其 中 ， 名 
称 后 未 跟 v2 或 v3 字符 串 的 函数 是 由 POSIX.1-1990 规 定 为 异步 信号 安全 
的 。 带 有 v2 标记 的 函数 由 susv2 加 入 ， 带 有 v3 标记 的 则 由 susv3 加 入 。 个 
别 UNIX 实 现 可 能 会 将 其 他 某 些 函数 实现 为 异步 信号 安全 的 ， 但 所 有 符 














合 标准 的 UNIX 实 现 都 必须 保证 至 少 表 中 这 些 函 数 是 异步 信号 安全 的 
《假设 由 实现 来 提供 这 些 函 数 ，Linux 并 未 实现 所 有 这 些 函 数 ) 。 


SUSv4 对 表 21-1 做 了 如 下 修改 。 


。 移 除 如 下 函数 : fpathconf()、pathconf() 和 sysconf()。 

。 添加 如 下 函数 : execl(). execv(). faccessat(). fchmodat(). 
fchownat()、fexecve()、fstatat()、futimens()、linkat()、mkdirat()、 
mkfifoat()、mknod()、mknodat()、openat()、readlinkat()、 
renameat()、symlinkat()、unlinkat()、utimensat() 和 和 utimes()。 





表 21-1: POSIX.1-1990、SUSv2 和 SUSv3 规 定 为 异步 信号 安全 的 函数 





dup2() recv() (v3) tcgetpgrp() 


oem lm | | 
am lo | | 


SUSv3 强 调 ， 表 21-1 之 外 的 所 有 函数 对 于 信和 号 而 言 都 是 不 安全 的 ， 
但 同时 指出 ， 仅 当 信 号 处 理 器 函数 中 断 了 不 安全 函数 的 执行 ， 且 处 理 器 
函数 自身 也 调用 了 这 个 不 安全 函数 时 ， 该 函数 才 是 不 安全 的 。 换 言 之 ， 
编写 信号 处 理 器 函数 有 如 下 两 种 选择 。 


E a 

和 函数 。 

。 当主 程序 执行 不 安全 函数 或 是 去 操作 信和 号 处 理 器 函数 也 可 能 更 新 的 
SBN, BASES SINE o 


第 2 种 方法 的 问题 是 ， 在 一 个 复杂 程序 中 ， 要 想 确 保 主 程序 对 不 安 
全 函数 的 调用 不 为 信号 处 理 器 图 数 所 中 断 ， 这 有 些 困难 。 出 于 这 一 原 
a a 0s 


























如 果 使 用 同一 处 理 器 函数 来 处 理 多 个 不 同 信号 ， 或 者 
在 调用 sigaction0 时 设置 了 SA_NODEFER 标 志 ， 那 么 处 理 器 
函数 就 有 可 能 中 断 自己 。 因 此 ， 处 理 器 函数 如 果 更 新 了 全 
jy (AS) 变量 ， 即 便 主 程序 不 使 用 这 些 变量 ， 那 么 它 
们 依然 可 能 是 不 可 重 入 的 。 





言 号 处 理 器 函数 内 部 对 errno 的 使 用 


由 于 可 能 会 更 新 errmo， 调 用 表 21-1 中 国 数 依然 会 导致 信号 处 理 器 函 
数 不 可 重 入 ， 因 为 它们 可 能 会 履 盖 之 前 由 主 程序 调用 函数 时 所 设置 的 
errno 值 。 有 一 种 变通 方法 ， 即 当 信 号 处 理 器 函数 使 用 了 表 21-1 所 列 函 数 
时 ， 可 在 其 入 口 处 保存 errno 值 ， 并 在 其 出 口 处 恢复 errno 的 旧 有 值 ， 请 
看 下 面 的 例子 : 


void 
handler(int sig) 





int savedErrno; 
savedErrno = errno; 
/* Now we can execute a function that might modify errno */ 


errno = savedErrno; 


} 
在 本 书 示例 程序 中 使 用 不 安全 函数 


虽然 printfO 不 是 异步 信号 安全 的 函数 ， 但 却 频 频 现 身 于 本 书 各 种 示 
例 的 信号 处 理 器 函数 中 。 之 所 以 如 此 ， 是 因为 在 展示 对 信和 号 处 理 器 的 调 
用 ， 以 及 显示 处 理 堪 相关 变量 的 内 容 时 ，PprintfO 都 不 失 为 一 种 简明 而 又 
便捷 的 方式 。 出 于 类 似 原 因 ， 在 信号 处 理 器 函数 中 偶尔 也 会 用 到 其 他 一 
些 不 安全 函数 ， 包 括 其 他 的 stdio 函 数 以 及 strsignal(0)。 


真正 的 应 用 程序 应 当 避 免 在 信号 处 理 右 函数 中 调用 非 寞 步 信号 安全 
的 函数 。 为 了 明确 这 一 点 ， 每 当 示例 的 信号 处 理 器 调用 这 些 函 数 时 ， 代 
码 注释 中 都 会 注 明 这 一 用 法 是 不 安全 的 。 














printf("Some message\n"); /* UNSAFE */ 
21.1.3 全 局 变量 和 sig_atomic t 数 据 类 型 


尽管 存在 可 重 入 问题 ， 有 时 仍 需要 在 主 程序 和 信号 处 理 器 函数 之 间 
共 至 全 局 变量 。 信 和 刁 处 理 占 函数 可 能 会 随时 修改 全 局 变量 一 一 只 要 主 程 
序 能 够 正确 处 理 这 种 可 能 性 ， 共 至 全 局 变量 就 是 安全 的 。 例 如 ， 一 种 常 
见 的 设计 是 ， 信 号 处 理 器 函数 只 做 一 件 事 情 ， 设 置 全 局 标志 。 主 程序 则 
会 周期 性 地 检查 这 一 标志 ， 并 采取 相应 动作 来 啊 应 信号 传递 《同时 清除 
标志 ) 。 当 信和 号 处 理 器 函数 以 此 方式 来 访问 全 局 变量 时 ， 应 该 总 是 在 声 
明 变 量 时 使 用 volatile 关 键 字 ， 从 而 防止 编译 占 将 其 优化 到 寄存 器 中 。 


对 全 局 变量 的 读 写 可 能 不 止 一 条 机 器 指令 ， 而 信号 处 理 器 函数 就 可 
能 会 在 这 些 指令 序列 之 间 将 主 程序 中 断 (也 将 此 类 变量 访问 称 为 非 原 子 
HAE) 。 因 此 ，C 语 言 标准 以 及 SUSvV3 定 义 了 一 种 整 型 数据 类 型 
sig_atomic_t， 意 在 保证 读 写 操作 的 原子 性 。 因 此 ， 所 有 在 主 程序 与 信号 
处 理 器 函数 之 间 共 享 的 全 局 变量 都 应 声明 如 下 : 


volatile sig atomic_t flag; 
程序 清单 22-5 提 供 了 使 用 sig_atomic t 数 据 类 型 的 一 个 例子 。 


注意 ，C 语 言 的 递增 C+) 和 递减 〈--) 操作 符 并 不 在 sig_atomic_t 
所 提供 的 保障 范围 之 内 。 这 些 操作 在 某 些 硬件 架构 上 可 能 不 是 原子 操作 
《更 多 细节 请 参考 30.1 节 ) 。 在 使 用 sig_atomic_t 变 量 时 唯一 所 能 做 的 就 
是 在 信号 处 理 占 中 进行 设置 ， 在 主 程序 中 进行 检查 (反之 亦 可 )。 


C99 和 SUSv3 规 定 ， 实 现 应 当 ( 在 <stdint.h> 中 ) 定义 两 个 常量 
SIG_ATOMIC_MIN 和 SIG_ATOMIC_MAX， 用 于 规定 可 赋 给 
sig_atomic_t 类 型 的 值 范围 。 标 准 要 求 ， 如 果 将 sig_atomic_t 表 示 为 有 符 
号 值 ， 其 范围 至 少 应 该 在 -127 一 127 之 间 ， 如 果 作 为 无 符号 值 ， 则 应 该 
在 0 一 255 之 间 。 在 Linux 中 ， 这 两 个 常量 分 别 等 于 有 符号 32 位 整 型 数 的 
负 、 正 极限 值 。 




































































21.2 ”终止 信号 处 理 器 函数 的 其 他 方法 


目前 为 止 所 看 到 的 信号 处 理 器 函数 都 是 以 返回 主 程序 而 终结 。 不 
过 ， 只 是 简单 地 从 信和 写 处 理 器 函数 中 返回 并 不 能 满足 需要 ， 有 时 候 其 至 
没什么 用 处 。《〈22.4 节 在 讨论 硬件 产生 的 信号 时 会 举 出 这 方面 的 例 
FÌ 
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意 ， 不 要 使 用 exit(0) 来 终止 信号 处 理 器 函数 ， 因 为 它 不 在 表 21-1 所 列 
的 安全 函数 中 。 之 所 以 不 安全 ， 是 因为 如 25.1 节 所 述 ， 该 函数 会 在 
调用 _exit0 之 前 刷新 stdio 的 缓冲 区 。 

° 0 ( 即 ， 信 号 的 默认 动作 是 终止 进 
T) 


。 从 信号 处 理 器 函数 中 执行 非 本 地 跳 转 。 
。 使 用 abort0 函 数 终止 进程 ， 并 产生 核心 转 储 。 


以 下 各 节 将 会 对 最 后 两 点 做 深入 讨论 。 
21.2.1 在 信号 处 理 器 函数 中 执行 非 本 地 跳 转 


6.8 节 曾 论 及 使 用 setimp0 和 longjmp0 来 执行 非 本 地 跳 转 ， 以 便 从 一 
个 函数 跳 转 至 该 函数 的 某 个 调用 者 。 在 信号 处 理 器 函数 中 也 可 以 使 用 这 
种 技术 。 这 也 是 因 硬 件 异 常 〈 例 如 内 存 访 问 错误 ) 而 导致 信号 传递 之 后 
的 一 条 恢复 途径 ， 人 允许 将 信号 捕获 并 把 控制 返回 到 程序 中 某 个 特定 位 
置 。 例 如 ， 一 旦 收 到 SIGINT 信 号 (通常 由 键入 Ctrl-C 产 生 ) ，shell 执 行 
二 个 非 本 地 跳 转 ， 将 控制 返回 到 主 输入 循环 中 《以 便 读 取 下 一 条 命 
>) 。 


x 











然而 ， 使 用 标准 longjmp0 函 数 从 处 理 器 函数 中 退出 存在 一 个 问题 。 
之 前 曾经 提 及 ， 在 进入 信号 处 理 器 函数 时 ， 内 核 会 自动 将 引发 调用 的 信 
号 以 及 由 act.sa_mask 所 指定 的 任意 信号 添加 到 进程 的 信号 掩 码 中 ， 并 在 
处 理 器 函数 正 各 返回 时 再 将 它们 从 掩 码 中 清除 。 


如 果 使 用 longjmp0) 来 退出 信号 处 理 絮 函数 ， 那 么 信号 掩 码 会 发 生 什 


么 情况 呢 ? 这 取决 于 特定 UNIX 实 现 的 血统 。 在 System V 一 脉 中 ， 
longjmp0 不 会 将 信号 撼 码 恢复 ， 亦 即 在 离开 处 理 器 函数 时 不 会 对 遭 阻 塞 
的 信号 解除 阻塞 。Linux 遵 循 System V 的 这 一 特性 。〔( 这 通常 并 非 所 希 
望 的 行为 ， 因 为 引发 对 信号 处 理 器 调用 的 信号 仍 将 保持 阻塞 状态 。) 在 
源 于 BSD 一 脉 的 实现 中 ，setjmp() 将 信号 掩 码 保存 在 其 env 参 数 中 ， 而 信 
号 掩 码 的 保存 值 由 longjmp0) 恢 复 。 (继承 自 BSD 的 实现 还 提供 另外 两 个 
拥有 System V 语 义 的 函数 : _setjmpO 和 _longjmp()。) 换言之 ， 使 用 
longjmp() 来 退出 信号 处 理 器 函数 将 有 损 于 程序 的 可 移植 性 。 














如 果 编 译 程序 时 定义 了 _BSD_SOURCE 特 性 检测 宏 ， 
那么 (glibc 的 ) setjmp0) 将 遵循 BSD 语 义 。 


鉴于 两 大 UNIX 流 派 之 间 的 差异 ，POSIX.1-1990 选 择 不 对 setjmp() 和 
longjmp() 的 信号 掩 码 处 理 进行 规范 ， 而 是 定义 了 一 对 新 函数 : 
Om op 针对 执行 非 本 地 跳 转 时 的 信号 掩 码 进行 显 式 
Zo 











#include <setjmp.h> 


int sigsetjmp(sigjmp buf env, int savesigs); 


Returns 0 on initial call, nonzero on return via siglongjmp() 








void siglongjmp(sigjmp buf env, int val); 





函数 sigsetjimpO0 和 siglongjmpO 的 操作 与 setmp0 和 longjmp0O 类 似 。 唯 
一 的 区 别 是 参数 env 的 类 型 不 同 〈 是 sigjmp_buf 而 不 是 jimp_buf) ， 并 且 
sigsetjmp() 多 出 一 个 参数 savesigs。 如 果 指 定 savesigs 为 非 0， 那 么 会 将 调 
用 sigsetimpO 时 进程 的 当前 信号 掩 码 保存 于 env 中 ， 之 后 通过 指定 相同 
env 参 数 的 siglongjmp0) 调 用 进行 恢复 。 如 果 savesigs 为 0， 则 不 会 保存 和 
恢复 进程 的 信号 掩 码 。 


函数 longjmpO0 和 siglongjmpO 都 不 在 表 21-1 所 列 异 步 信 号 安全 函数 的 
范围 之 内 。 因 为 与 在 信号 处 理 器 中 调用 这 些 函 数 一 样 ， 在 执行 非 本 地 跳 
转 之 后 去 调用 任何 非 异 步 信 号 安全 的 函数 也 需要 冒 同 样 的 风险 。 此 外 ， 











如 果 信 和 号 处 理 器 函数 中 断 了 正在 更 新 数据 结构 的 主 程序 ， 那 么 执行 非 本 
地 跳 转 退出 处 理 器 函数 后 ， 这 种 不 完整 的 更 新 动作 很 可 能 会 将 数据 结构 
置 于 不 一 致 状态 。 规 避 这 一 问题 的 一 种 技术 是 在 程序 对 敏感 数据 进行 更 
新 时 ， 借 助 于 sigprocmask0) 临 时 将 信号 阻塞 起 来 。 


示例 程序 


程序 清单 21-2 展示 了 两 种 类 型 的 非 本 地 跳 转 在 处 理 信号 掩 码 上 的 
差异 。 该 程序 为 SIGINT 创 建 处 理 器 函数 ， 并 人 允许 选择 setjmp(O+longjmpO) 
组 合 或 者 sigsetjmp()+siglongjmp0 〇 组合 的 方式 来 退出 信号 人 处理 器 函数 ， 
具体 采用 何 种 函数 组 合 则 取决 于 程序 编译 时 是 否 对 宏 USE_SIGSETJMP 
进行 了 定义 。 程 序 会 分 别 在 进入 信号 处 理 器 函数 时 ， 以 及 非 本 地 跳 转 将 
控制 从 信号 处 理 器 交还 给 主 程 序 后 ， 显 示 信 号 掩 码 的 当前 设置 。 


如 果 利 用 longjmp0 〇 来 退出 信号 处 理 器 函数 ， 其 结果 如 下 : 


$ make -s sigmask_longjmp Default compilation causes setjmp() to be used 
$ ./sigmask_longjmp 
Signal mask at startup: 
<empty signal set> 
Calling setjmp() 
Type Conirol-C to generate SIGINT 
Received signal 2 (Interrupt), signal mask is: 
2 (Interrupt) 
After jump from handler, signal mask is: 
2 (Interrupt) 
(At this point, typing Control-C again has no effect, since SIGINT is blocked) 
Type Control-\ to kill the program 
Quit 























HAE ean a RY AD, eS A A dt R 2 Vel FJlongjmp()-Z Ja AY fa Sat 
FC GEA Ab at PRIN REE — BL 


上 述 shell 会 话 中 构建 程序 所 使 用 的 makefile 由 随 本 书 发 
布 的 源码 提供 。 选 项 -s 告 知 make 程 序 不 要 显示 正在 执行 的 
命令 。 使 用 该 选项 意 在 避免 对 会 话 日 志 的 显示 产生 干扰 。 
([Mecklenbug, 2005] 对 GNU make 程 序 做 了 说 明 。) 














如 果 编 译 同一 源 文件 来 创建 利用 siglongjmp0 退 出 信号 处 理 器 函数 的 
程序 ， 则 结果 如 下 : 


$ make -s sigmask siglongjmp Compiles using ce -DUSE_SIGSETJMP 
$ ./sigmask_siglongjmp x 
Signal mask at startup: 
<empty signal set> 
Calling sigsetjmp() 
Type Control 
Received signal 2 (Interrupt), signal mask is: 
2 (Interrupt) 
After jump from handler, signal mask is: 
<empty signal set> 


在 这 里 ， 没 有 将 SIGINT 信 号 阻塞 ， 因 为 siglongjmpO 恢 复 了 原来 的 
言 号 掩 码 。 接 着 ， 再 次 按 下 Ctrl-C， 会 再 次 调用 该 信号 处 理 器 函数 。 


Type Control-C 

Received signal 2 (Interrupt), signal mask is: 
2 (Interrupt) 

After jump from handler, signal mask is: 
<empty signal set> 

Type Control to kill the program 

Quit 


由 上 述 输出 可 知 ，siglongjmp0 将 信号 掩 码 恢复 到 调用 sigsetjmpO 时 
的 值 “ 即 一 个 空 信号 集 ) 。 


程序 清单 21-2 还 展示 了 信号 处 理 器 函数 执行 非 本 地 跳 转 时 的 一 种 实 
用 技术 。 信 号 随时 可 能 产生 ， 所 以 有 可 能 发 生 于 segsetjmp() (或 
setimp()) 设置 跳 转 目标 之 前 。 为 杜绝 这 种 可 能 (这 将 导致 处 理 器 函数 
使 用 未 初始 化 的 env 绥 冲 区 来 执行 非 本 地 跳 转 ， ， 程 序 启用 了 守卫 变量 
canJump， 来 表征 env 绥 冲 区 的 初始 化 与 否 。 如 果 canJump 不 为 真 
(false) ， 处 理 器 函数 将 不 执行 跳 转 而 直接 返回 。 另 一 种 方法 是 调整 程 
序 代 码 ， 在 创建 信号 处 理 器 函数 之 前 去 调用 sigsetjimp(O 〈 或 setimpO) 。 
不 过 对 于 复杂 的 程序 而 言 ， 敬 求 这 样 的 步 又 执行 顺序 可 能 会 有 困难 ， 而 
使 用 守卫 变量 也 许 会 更 简单 一 些 。 


注意 ， 在 编写 程序 清单 21-2 程 序 时 使 用 检 fdef 是 使 其 编码 风格 符合 
标准 的 最 简单 的 手段 。 特 别 是 当 无 法 用 下 面 的 运行 时 检查 代码 来 取代 











H#ifdefhy 。 


if (useSiglongjmp) 

s = sigsetjmp(senv, 1); 
else 

s = setjmp(env); 
if (s == 0) 


这 一 做 法 有 违规 范 ， 
setjmp() 和 sigsetjmp()。 


为 SUSv3 不 允许 在 赋值 语句 (6. 




















8 市 ) 中 调用 





程序 清单 21-2: 在 信号 处 理 器 函数 








FP 执行 非 本 地 跳 转 


signals/sigmask_longjmp.c 
#define _GNU SOURCE /* Get strsignal() declaration from <string.h> */ 
#include <string.h> 
#include <setjmp.h> 
#include <signal.h> 
#include “signal_functions.h" /* Declaration of printSigMask() */ 
#include "tlpi_hdr.h" 


static volatile sig atomic t canJump = 0; 
/* Set to 1 once "env" buffer has been 
initialized by [sig]setjmp() */ 
#ifdef USE SIGSETIMP 
static sigjmp buf senv; 
#else 
static jmp_buf env; 
#tendif 


static void 
handler(int sig) 
{ 
/* UNSAFE: This handler uses non-async-signal-safe functions 
(printf(), strsignal(), printSigMask(); see Section 21.1.2) */ 


printf("Received signal %d (%s), signal mask is:\n", sig, 
strsignal(sig)); 
printSigMask(stdout, NULL); 


if (!canJump) { 
printf("'env' buffer not yet set, doing a simple return\n"); 
return; 


} 


#ifdef USE SIGSETIMP 
siglongjmp(senv, 1); 
Helse 
longjmp(env, 1); 
#endif 
} 


Int 
main(int argc, char *argv[]) 


struct sigaction sa; 
printSigMask(stdout, “Signal mask at startup:\n"); 


sigemptyset(&sa.sa_ mask); 

Sa.sa_flags = 0; 

sa.sa_handler = handler; 

if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction"); 


#ifdef USE SIGSETIMP 
printf("Calling sigsetjmp()\n"); 
if (sigsetjmp(senv, 1) == 0) 
#else 
printf("Calling setjmp()\n"); 
if (setjmp(env) == 0) 


#tendif 
canJump = 1; /* Executed after [sig]setjmp{) */ 
else /* Executed after [sig]longjmp() */ 
printSigMask(stdout, "After jump from handler, signal mask is:\n" ); 
for (33) /* Wait for signals until killed */ 
pause(); 


signals/sigmask_longjmp.c 
21.2.2 sf RZ IEGEFZ: abort() 
函数 abortO0 终 止 其 调用 进程 ， 并 生成 核心 转 储 。 





#include <stdlib.h> 


void abort(void); 











函数 abort0) 通 过 产生 SIGABRT 信 号 来 终止 调用 进程 。 对 SIGABRT 
的 默认 动作 是 产生 核心 转 储 文件 并 终止 进程 。 调 试 器 可 以 利用 核心 转 储 
文件 来 检测 调用 abort0 时 的 程序 状态 。 


SUSv3 要 求 ， 无 论 阻 塞 或 者 包 略 SIGABRT 信 号 ，abortO 调 用 均 不 受 
影响 。 同 时 规定 ， 除 非 进程 捕获 SIGABRT 信 号 后 信号 处 理 器 函数 尚未 
返回 ， 否 则 abort() 必 须 终止 进程 。 后 一 句 话 值得 三 思 。21.2 节 所 描述 的 





言 写 处 理 器 函数 终止 方法 中 ， 与 此 相关 的 就 是 使 用 非 本 地 跳 转 退出 处 理 
器 函数 。 这 一 做 法 将 抵消 abort0 的 效果 。 人 否则 ，abort0 将 总 是 终止 进 
程 。 在 大 多 数 实现 中 ， 终 止 时 可 确保 发 生 如 下 事件 : 大 进程 在 发 出 一 次 
SIGABRT 信 号 后 仍 未 终止 〈 即 ， 处 理 器 捕获 信号 并 返回 ， 以 便 恢 复 执 
fFabort()) ， 则 abortO 会 将 对 SIGABRT 信 号 的 处 理 重 置 为 SIG_DEFL， 并 
再 度 发 出 SIGABRT 信 号 ， 从 而 确保 将 进程 杀 死 。 


如 果 abort0 成 功 终止 了 进程 ， 那 么 还 将 刷新 stdio 流 并 将 其 关闭 。 
程序 清单 3-3 在 错误 处 理 函 数 中 提供 了 使 用 abort0 的 一 个 例子 。 





21.3 在 备 选 栈 中 处 理 信 号 : sigaltstack() 


在 调用 信号 处 理 器 函数 时 ， 内 核 通 常会 在 进程 栈 中 为 其 创建 一 帧 。 
不 过 ， 如 果 进 程 对 栈 的 扩展 突破 了 对 栈 大 小 的 限制 时 ， 这 种 做 法 就 不 大 
可 行 了 。 例 如 ， 栈 的 增长 过 大 ， 以 至 于 会 触及 到 一 片 映射 内 存 (48.5 
节 ) 或 者 向 上 增长 的 堆 ， 又 或 者 栈 的 大 小 已 经 直通 
RLIMIT_STACK (36.3 节 ) 资源 限制 ， 这 些 都 会 造成 这 种 情况 的 发 生 。 

当 进 程 对 栈 的 扩展 试图 突破 其 上 限时 ， 内 核 将 为 该 进程 产生 
SIGSEGV 信 和 号。 不 过 ， 因 为 栈 空 间 已 然 耗 尽 ， 内 核 也 就 无 法 为 进程 已 
经 安装 的 SIGSEGV 处 理 器 函数 创建 栈 帧 。 结 果 是 ， 处 理 器 函数 得 不 到 
调用 ， 而 进程 也 就 终止 了 〈SIGSEGV 的 默认 动作 ) 。 


如 果 希 望 在 这 种 情况 下 确保 对 SIGSEGV 信 和 号 处 理 器 函数 的 调用 ， 
就 需要 做 如 下 工作 。 


1. 分配 一 英和 被 称 为 “ 备 选 信号 栈 ” 的 内 存 区 域 ， 作 为 信号 处 理 需 函 
数 的 栈 帧 。 


2. 调用 sigaltstack()， 告 之 内 核 该 备 选 信号 栈 的 存在 。 


3. 在 创建 信号 处 理 器 函数 时 指定 SA_ONSTACK 标 志 ， 亦 即 通 知 内 
核 在 备 选 栈 上 为 处 理 器 函数 创建 栈 帧 。 


利用 系统 调用 sigaltstack0， 既 可 以 创建 一 个 备 选 信号 栈 ， 也 可 以 将 
已 创 建 备 选 信号 栈 的 相关 信息 返回 。 








#include <signal.h> 


int sigaltstack(Const stack_t *sigsfack, stack_t *old_sigstack); 


Returns 0 on success, or -1 on error 











参数 sigstack 所 指向 的 数据 结构 描述 了 新 备 选 信号 栈 的 位 置 及 属 
性 。 参 数 old_sigstack 指 向 的 结构 则 用 于 返回 上 一 备 选 信号 栈 的 相关 信息 
(如 果 存 在 ) 。 两 个 参数 之 一 均 可 为 NULL。 例 如 ， 将 参数 sigstack 设 为 
NULL 可 以 发 现 现 有 备 选 信号 栈 ， 并 且 不 用 将 其 改变 。 不 为 NULL 时 ， 


这 些 参数 所 指向 的 数据 结构 类 型 如 下 : 


typedef struct { 


void *ss_sp; /* Starting address of alternate stack */ 
int ss flags; /* Flags: SS ONSTACK, SS DISABLE */ 
size_t ss size; /* Size of alternate stack */ 

} stack t; 


字段 ss_sp 和 ss_size 分 别 指定 了 备 选 信号 栈 的 位 置 和 大 小 。 在 实际 使 
用 信号 栈 时 ， 内 核 会 将 ss_sp 值 目 动 对 齐 为 与 硬件 架 构 相 适宜 的 地 址 边 


界 。 


备 选 信号 栈 通 常 既 可 以 静态 分 配 ， 也 可 以 在 堆 上 动态 分 配 。SUSv3 
规定 将 常量 SIGSTKSZ 作 为 划分 备 选 栈 大 小 的 典型 值 ， 而 将 
MINSSIGSTKSZ 作 为 调用 信号 处 理 器 函数 所 需 的 最 小 值 。 在 Linux/x86- 
32 系 统 上 ， 分 别 将 这 两 个 值 定义 为 8192 和 2048。 


内 核 不 会 重新 划分 备 选 栈 的 大 小 。 如 果 栈 溢出 了 分 配给 它 的 空间 ， 
就 会 产生 混乱 〈 例 如 ， 写 变量 超出 了 对 栈 的 限制 ) 。 这 通常 不 是 一 个 问 
题 ， 因 为 一 般 情况 下 会 利用 备 选 栈 来 处 理 标准 栈 液 出 的 特殊 情况 ， 常 常 
只 在 这 个 栈 上 分 配 为 数 不 多 的 几 帧 。SIGSEGV 处 理 器 函数 的 工作 不 是 
在 执行 清理 动作 后 终止 进程 ， 就 是 使 用 非 本 地 跳 转 解 开标 准 栈 。 


ss_flags 可 以 包含 如 下 值 之 一 : 
SS_ONSTACK 


如 果 在 获取 已 创建 备 选 信号 栈 的 当前 信息 时 该 标志 已 然 置 位 ， 融 表 
明 进 程 正在 备 选 信号 栈 上 执行 。 当 进程 已 经 在 备 选 信号 栈 上 运行 时 ， 试 
图 调用 sigaltstack0) 来 创建 一 个 新 的 备 选 信号 栈 将 会 产生 一 个 错误 
(EPERM ) 


SS_DISABLE 


在 old_sigstack 中 返回 ， 表 示 当 前 不 存在 已 创建 的 备 选 信号 栈 。 如 宋 
在 sigstack 中 指定 ， 则 会 禁用 当前 已 创建 的 备 选 信号 栈 。 


程序 清单 21-3 演 示 了 备 选 信号 栈 的 创建 和 使 用 。 在 创建 一 个 新 的 备 
选 信号 栈 以 及 SIGSEGV 的 信和 号 处 理 器 函数 之 后 ， 程 序 将 调用 一 个 无 限 
递归 函数 ， 这 会 导致 栈 汶 出 ， 同 时 系统 会 向 进程 发 送 SIGSEGV 信 和 号 。 


运行 该 程序 的 结果 如 下 。 


$ ulimit -s unlimited 

$ ./t_sigaltstack 

Top of standard stack is near Oxbffff6b8 
Alternate stack is at 0x804a948-0x804c fff 
Call 1 - top of stack near Oxbffob3ac 
Call 2 - top of stack near Oxbfe1714c 
Many intervening lines of output removed 

Call 2144 - top of stack near 0x4034120c 
Call 2145 - top of stack near 0x4024cfac 
Caught signal 11 (Segmentation fault) 
Top of handler stack near 0x804c860 


在 这 一 shell 会 话 中 ， 命 令 ulimit 负 责 贡 移 除 shell 之 前 可 外 
RLIMIT_STACK 资 源 限制 。 36.3 节 会 解释 这 种 资源 限制 。 





设置 的 任何 





程序 清单 21-3: 使 用 sigaltstack() 





signals/t_sigaltstack.c 


#define _GNU_SOURCE /* Get strsignal() declaration from <string.h> */ 
#include <string.h> 

#include <signal.h> 

#include "tlpi_hdr.h" 


static void 
sigsegvHandler(int sig) 


int x; 


/* UNSAFE: This handler uses non-async-signal-safe functions 
(printf(), strsignal(), fflush(); see Section 21.1.2) */ 


printf("Caught signal %d (%s)\n", sig, strsignal(sig)); 
printf("Top of handler stack near %10p\n", (void *) &x); 


fflush(NULL); 
_exit(EXIT_FAILURE); /* Can't return after SIGSEGV */ 
} 
static void /* A recursive function that overflows the stack */ 
overflowStack(int callNum) 
{ 
char a[100000] ; /* Make this stack frame large */ 
printf("Call %4d - top of stack near %10p\n", callNum, &a[0]); 
overflowStack(callNum+1) ; 
} 
int 
main(int argc, char *argv[]) 
{ 


stack t sigstack; 
struct sigaction sa; 
int j; 


printf{"Top of standard stack is near %10p\n", (void *) 8&j); 
/* Allocate alternate stack and inform kernel of its existence */ 
sigstack.ss sp = malloc(SIGSTKSZ) ; 


if (sigstack.ss sp == NULL) 
errExit("malloc"); 


sigstack.ss size = SIGSTKSZ; 
sigstack.ss flags = 0; 
if (sigaltstack(&sigstack, NULL) == -1) 
errExit("sigaltstack"); 
printf("Alternate stack is at “*10p-4p\n", 
sigstack.ss_sp, (char *) sbrk(0) - 1); 


sa.sa_handler = sigsegvHandler; /* Establish handler for SIGSEGV */ 
sigemptyset(&sa.sa_mask); 
sa.sa_flags = SA_ONSTACK; /* Handler uses alternate stack */ 
if (sigaction(SIGSEGV, &sa, NULL) == -1) 

errExit("sigaction") ; 


overflowStack(1); 


signals/t_sigaltstack.c 


21.4 SA_SIGINFO 标 志 


如 果 在 使 用 sigaction0 创 建 处 理 器 函数 时 设置 了 SA_SIGINFO 标 志 ， 
那么 在 收 到 信和 号 时 处 理 器 函数 可 以 获取 该 信号 的 一 些 附 加 信息 。 为 获取 
这 一 信息 ， 需 要 将 处 理 器 函数 声明 如 下 : 


void handler(int sig, siginfo_t *siginfo, void *ucontext); 


如 同 标准 信和 号 处 理 器 函数 一 样 ， 第 1 个 参数 sig 表 示 信 号 编号 。 第 2 个 
参数 siginfo 是 用 于 提供 信号 附加 信息 的 一 个 结构 。 该 结构 会 与 最 后 一 个 
参数 ucontext 一 起 ， 在 下 面 做 详细 说 明 。 


因为 上 述 信 号 处 理 器 函数 的 原型 不 同 于 标准 处 理 嚣 函数， 依照 C 语 
言 的 类 型 规则 ， 将 无 法 利用 sigaction 结 构 的 sa_handler 字 上 段 来 指定 处 理 器 
函数 地 址 。 此 时 需要 使 用 另 一 个 字段 : sa_sigaction。 换 言 之 ，sigaction 
结构 比 20.13 节 上 所 展示 的 要 稍微 复杂 一 些 。 其 完整 定义 如 下 : 


struct sigaction { 
union { 
void (*sa_handler) (int); 
void (*sa_sigaction)(int, siginfo t *, void *); 
} __sigaction_handler; 
Sigset_t sa mask; 
int sa flags; 
void (*sa_restorer) (void); 




















}; 


/* Following defines make the union fields look like simple fields 
in the parent structure */ 


#define sa handler _ sigaction_handler.sa_handler 
#define sa_sigaction _ sigaction_handler.sa_sigaction 


结构 sigaction 使 用 联合 体 来 合并 sa_sigaction 和 sa_handler。 (大 部 分 
其 他 UNIX 实 现 也 采用 相同 的 方式 。) 之 所 以 使 用 联合 体 ， 是 因为 对 
sigaction() 的 特定 调用 只 会 用 到 其 中 的 一 个 字段 。〔( 不 过 ， 如 果 天 真 地 
认为 可 以 彼此 独立 地 设置 sa_handler 和 sa_sigaction， 就 有 可 能 导致 一 些 
奇怪 的 bug。 可 能 的 原因 是 在 为 不 同 的 信号 创建 处 理 器 函数 时 ， 多 次 对 
sigaction() 的 调用 复 用 了 同一 个 sigaction 结 构 。) 


这 里 是 使 用 SA_SIGINFO 创 建 信号 人 处理 器 函数 的 一 个 例子 : 


struct sigaction act; 

sigemptyset(&act.sa mask); 
act.sa_sigaction = handler; 
act.sa flags = SA SIGINFO; 


if (sigaction(SIGINT, &act, NULL) == -1) 
errExit ("sigaction"); 


至 于 使 用 SA_SIGINFO 标 志 的 完整 例子 ， 请 参考 程序 清单 22-3 和 程 
序 清单 23-5。 


结构 siginfo_t 


在 以 SA_SIGINFO 标 志 创 建 的 信号 处 理 器 函数 中 ， 结 构 siginfo_t 是 
其 第 2 个 参数 ， 格 式 如 下 : 


typedef struct { 








int si signo; /* Signal number */ 
int si code; /* Signal code */ 
int si trapno; /* Trap number for hardware-generated signal 


(unused on most architectures) */ 
union sigval si_value; /* Accompanying data from sigqueue() */ 


pid t si pid; /* Process ID of sending process */ 
uidt  si_uid; /* Real user ID of sender */ 
int si errno; /* Error number (generally unused) */ 
void *si addr; /* Address that generated signal 
(hardware-generated signals only) */ 
int si_overrun; /* Overrun count (Linux 2.6, POSIX timers) */ 
int si_timerid; /* (Kernel-internal) Timer ID 
(Linux 2.6, POSIX timers) */ 
long si_band; /* Band event (SIGPOLL/SIGIO) */ 
int si fd; /* File descriptor (SIGPOLL/SIGIO) */ 
int si status; /* Exit status or signal (SIGCHLD) */ 
clock t si utime; /* User CPU time (SIGCHLD) */ 
clock t si stime; /* System CPU time (SIGCHLD) */ 


} siginfo_t; 


要 获取 <signal.h> 对 siginfo_t 的 声明 ， 必 须 将 特性 测试 宏 
_POSIX_C_SOURCE 的 值 定义 为 大 于 或 等 于 199309。 


如 同 大 部 分 UNIX 实 现 一 样 ， 在 Linux 系 统 中 ，siginfo_t 结 构 的 很 多 
字段 都 是 联合 体 ， 因 为 对 每 个 信号 而 言 ， 并 非 所 有 字段 都 有 必要 。 (2 











考 <bits/siginfo.h> 中 的 细节 。 ) 
一 旦 进入 信号 处 理 器 函数 ， 对 结构 siginfo_t 中 字段 的 设置 如 下 。 


si_signo 


需要 为 所 有 信号 设置 。 内 含 引 发 处 理 占 函数 调用 的 信号 编写 
处 理 器 函数 sig 参 数 的 值 相 同 。 


si_code 


需要 为 所 有 信号 设置 。 如 表 21-2 所 示 ， 所 含 代码 提供 了 关于 信号 来 
源 的 深入 信息 。 


si_value 


该 字段 包含 调用 sigqueue0 发 送信 号 时 的 伴随 数据 。22.8.1 节 将 讨论 


sigqueue(). 





与 











si_pid 


ies 对 于 经 由 kill0 或 sigqueue0 发 送 的 信号 ， 该 字段 保存 了 发 送 进程 的 
进程 ID。 


si_uid 


对 于 经 由 kill0 或 sigqueue0) 发 送 的 信号 ， 该 字段 保存 了 发 送 进程 的 
真实 用 户 ID。 系 统 之 所 以 提供 真实 用 户 ID， 是 因为 其 信息 量 比 之 有 效用 
户 ID 更 为 丰富。 回忆 20.5 节 所 述 关 于 信和 号 发 送 的 权限 规则 ， 如 果 有 效用 
户 ID 授予 发 送 者 发 送信 号 的 权力 ， 那 么 发 送 方 的 用 户 ID 必须 要 么 为 
0 特权 级 用 户 ，， 要 人 么 与 接收 进程 的 真实 用 户 ID 或 者 保存 设置 用 户 
ID (saved set-user-ID) 相 同 。 这 时 ， 接 收 者 了 解 发 送 者 的 真实 用 户 ID 束 
很 有 用 ， 因 为 它 有 可 能 不 同 于 有 效用 户 ID《〈 例 如 ， 如 果 发 送 者 是 一 个 
set-user-ID 程 序 ) 。 








si_errno 


如 果 将 该 字段 置 为 非 0 值 ， 则 其 所 包含 为 一 错误 号 (类 似 errno》， 
标志 信号 的 产生 原因 。Linux 通 常 不 使 用 该 字段 。 


si_addr 








仅 针 对 由 硬件 产生 的 SIGBUG、SIGSEGV、SIGILL 和 SIGFPE 信 和 号 
设置 该 字段 。 对 于 SIGBUS 和 SIGSEGV 而 言 ， 该 字段 内 含 引 发 无 效 内 存 
引用 的 地 址 。 对 于 SIGILL 和 SIGFPE 信 号 ， 则 包含 导致 信号 产生 的 程序 
BS HOHE. 


以 下 各 字段 均 属 非 标准 的 Linux 扩 展 ， 仪 当 POSIX 定 时 器 (23.670 ) 
到 期 而 产生 信号 传递 时 设置 : 


si_timerid 
内 含 供 内 核 内 部 使 用 的 ID， 用 以 标识 定时 器 。 
设置 该 字段 为 定时 器 的 溢出 次 数 。 
仅 当 收 到 SIGIO 信 号 (63.353) 时 ， 才 会 设置 下 面 两 个 字段 。 


si_band 


该 字段 包含 与 /0O 事 件 相 关 的 “ 带 事 件 ” 值 。 (直到 glibc 2.3.2, 
si_band 的 类 型 都 是 int 型 。) 


si_fd 


该 字段 包含 与 1O 事 件 相 关 的 文件 摘 述 符 编 号 。SUSV3 并 未 定义 这 一 
字段 ， 不 过 许多 其 他 实现 都 子 以 了 文 持 。 


仅 当 收 到 SIGCHLD 信 和 号 〈26.3 节 ) 时 ， 才 会 对 以 下 各 字段 进行 设 




















si_status 


该 字段 包含 子 进 程 的 退出 状态 〈 当 si code=CLD_EXITED 时 ) 或 者 
发 给 子 进 程 的 信号 编号 〈 即 26.1.3 节 所 述 终 止 或 停止 子 进 程 的 信号 编 
HeY 
si_utime 


该 字段 包含 子 进程 使 用 的 用 户 CPU 时 间 。 在 版 本 2.6 以 前 ， 以 及 
2.6.27 以 后 的 内 核 版 本 中 ， 对 该 字段 的 度量 以 系统 时 钟 滴答 除 以 





sysconf (_SC_CLK_TCK) 的 返回 值 作为 基本 单位 。 而 在 版 本 2.6.27 之 
前 的 2.6 内 核 中 则 存在 bug， 该 字段 在 报告 时 间 时 采用 的 度量 单位 为 (可 
由 用 户 配 置 的 ) jiffy (10.6 节 ) 。SUSv3 没 有 定义 该 字段 ， 但 许多 其 他 
实现 都 予以 文 持 。 


si_stime 


该 字段 包含 了 子 进程 使 用 的 系统 CPU 时 间 。 可 参考 对 si_utime 的 描 
述 。 同 样 ，SUSVv3 并 未 定义 该 字段 ， 不 过 许多 其 他 实现 都 予以 支持 。 


si_code 字 段 提 供 了 关于 信号 来 源 的 更 多 信息 ， 其 值 如 表 21-2 所 示 。 
表 中 第 2 列 列 出 的 信号 特有 值 〈 特 别 是 由 硬件 产生 的 4 种 信号: 
SIGBUS、SIGSEGV、SIGILL 和 SIGFPE) 不 会 悉数 现 身 于 所 有 的 UNIX 
实现 以 及 硬件 架构 之 上- ”尽管 Linux 定 义 了 所 有 和 常量， 而且 SUSv3 也 
定义 了 其 中 的 大 部 分 。 

关于 表 21-2 中 所 示 各 值 ， 还 需 注 意 以 下 几 点 附加 说 明 。 

。 值 SI KERNEL 和 SIL_ SIGIO 为 Linux 所 特有 ， 既 未 获 SUSv3 定 义 ， 也 
未 获 其 他 UNIX 实 现 支 持 。 


e SI SIGIO 仅 在 Linux2.2 中 用 到 。 自 内 核 2.4 起 ，Linux 转 而 采用 表 中 
的 POLL * 常 量 。 























表 21-2: 结构 siginfo_t 中 si_code 字 段 返 回 值 一 览 表 


ET 
SL_ ASYNCIO 异步 JO (AIO) 操作 已 经 完成 


alge (例如 ， 来 自 于 终端 驱动 程序 的 


SL MESGQ 


SI QUEUE 有 sigqueue() 从 用 户 进 程 发 出 的 实时 信号 





















































£m (ATA) 
SIGIO 信 号 〈 仅 Linux 2.2 支 持 ) 
SLTIMER [POSIX (实时 ) 定时 器 到 期 





SL TKILL 调用 tkill0 或 tgkill0 的 用 户 进程 〈 自 Linux 
= 2.4.19) 


调用 kill0 或 raise0) 的 用 户 进程 
无 效 的 地 址 对 齐 
不 存在 的 物理 地 址 











SIGBUS 


SIGCHLD 


SIGFPE 


SIGILL 


SIGPOLL/SIGIO 














BUS. MCEERR_AO 硬件 内 存 错误 ， 动 作为 可 选 〈 自 Linux 


2.6.32) 





























BUS_MCEERR_AR EATER, ZEJM (É Linux 


2.6.32) 











y O Aly hk Oss A 
CLD_CONTINUED 因 SIGCONT 信 号 ， 子 进程 得 以 继续 执行 〈 自 


Linux 2.6.9) 


对 象 特有 的 硬件 错误 


CLD_DUMPED 
CLD_EXITED 
CLD_KILLED 
CLD_STOPPED 
CLD_TRAPPED 
FPE_FLTDIV 








异常 终止 ， 并 产生 核心 转 储 
子 进 程 退 上 
异常 终止 ， 且 不 产生 核心 转 储 
子 进程 停止 
受到 跟踪 的 子 i 






































浮 点 除 0 


FPE_FLTINV 无 效 的 浮 点 操作 
FPE_FLTOVF 浮 点 溢出 
FPE_FLTRES 浮 点 结果 不 精确 


FPE_FLTUND 


FPE_INTDIV 整 型 除 0 








FPE_SUB a 


ILL_COPROC 


























a 





ILL_PRVOPC 
ILL_PRVREG 
POLL_ERR 


特权 级 操作 码 
WE 


Voti 

















pormo nr 


POLL_IN 
POLL_MSG 
POLL_OUT 


POLL PRI [RAAB AAT 


输入 数据 有 效 


输入 消息 有 效 


输出 缓冲 区 有 效 

















SEGV_ACCERR 映射 对 象 的 无 效 权限 


未 映射 为 对 象 的 地 址 
TRAP pranca [HERERO 


SIGSEGV 


























TRAP_HWBKPT | 硬件 断 点 /监测 点 
TRAP_TRACE 进程 跟踪 陷入 




















SUSv4 定 义 了 功用 与 psignal() (20.877) 相仿 的 
psiginfo() 函 数 。 函 数 psiginfo(O) 带 有 两 个 参数 ， 分 别 是 指向 
siginfo_t 结 构 的 指针 和 一 个 消息 字符 串 。 该 函数 在 标准 错误 
设备 上 输出 字符 串 消息 ， 接 着 显示 描述 于 siginfo_t 结构 中 
的 信号 信息 。glibc 自 2.10 版 开始 提供 psiginfo() 函 数 。glibc 
实现 会 显示 信号 的 描述 信息 及 来 源 〈 根 据 Ssi_code 字 段 所 
A) ， 对 于 某 些 信号 ， 还 会 列 出 siginfo_t 结 构 中 的 其 他 字 
段 。 函 数 psiginfo0 是 SUSv4 中 的 新 十 ， 并 非 所 有 系统 都 予 
以 文 持 。 








参数 ucontext 


以 SA_SIGINFO 标 志 上 所 创建 的 信号 处 理 器 函数 ， 其 最 后 一 个 参数 是 
ucontext， 一 个 指 疝 ucontext_t 类 型 结构 (定义 于 <ucontext.h>)〉 的 指针 。 
《因为 SUSv3 并 未 规定 该 参数 的 任何 细节 ， 上 所 以 将 其 定义 为 void 类 型 指 
针 。) 该 结构 提供 了 所 谓 的 用 户 上 下 文 信息 ， 用 于 描述 调用 信号 处 理 器 
函数 前 的 进程 状态 ， 其 中 包括 上 一 个 进程 信号 掩 码 以 及 宫 存 器 的 保存 
值 ， 例 如 程序 计数 器 (cp) 和 栈 指针 寄存 器 (sp) 。 信 和 号 处 理 器 函数 很 
少 用 到 此 类 信息 ， 所 以 此 处 也 略 而 不 论 。 


使 用 结构 ucontext_ t 的 其 他 函数 有 getcontext()、 
makecontext()、setcontext() 和 swapcontext()， 分 别 对 应 的 功 
能 是 允许 进程 去 接收 、 创 建 、 改 变 以 及 交换 执行 上 下 文 。 

(这 些 操作 有 点 类 似 于 set mp0 和 longjmp0O， 但 更 为 通 
用 。) 可 以 使 用 这 些 函 数 来 实现 协 程 〈coroutines) ， 令 进 
程 的 执行 线程 在 两 个 〈 或 多 个 ) 函数 之 间 交 蔡 。SUSv3 规 
定 了 这 些 函 数 ， 但 将 它们 标记 为 已 废止 。SUSv4 则 将 其 删 
去 ， 并 建议 使 用 POSIX 线 程 来 重 写 旧 有 的 应 用 程序 。glibc 
手册 页 提供 了 关于 这 些 函 数 的 深入 信息 。 


21.5 “系统 调用 的 中 断 和 重启 
考虑 如 下 场景 。 
1， 为 某 信号 创建 处 理 器 函数 。 


2. 发 起 一 个 阻塞 的 系统 调用 Cblocking system call) ， 例 如 ， 从 终 
并 设 备 调用 的 read() 就 会 阻塞 到 有 数据 输入 为 止 。 


3. 当 系 统 调用 遭 到 阻 窟 时 ， 之 前 创建 了 处 理 右 函数 的 信号 传递 了 
过 来 ， 随 即 引 发 对 处 理 需 函数 的 调用 。 


信号 处 理 器 返回 后 又 会 发 生 什 么 ? 默认 情况 下 ， 系 统 调用 失败 ， 并 
将 errno 置 为 EINTR。 这 是 一 种 有 用 的 特性 。23.3 节 将 会 描述 如 何 使 用 定 
(会 产生 SIGALRM 信 号 ) 来 设置 像 read0 之 类 阻塞 系统 调用 的 超 
时 。 
不 过 ， 更 为 常见 的 情况 是 希望 遭 到 中 断 的 系统 调用 得 以 继续 运行 。 
RA 0 a 利用 如 下 代码 来 手动 
AANA 调用 。 


while ((cnt = read(fd, buf, BUF_SIZE)) == -1 && errno == EINTR} 
continue; /* Do nothing loop body */ 


if (cnt == -1) /* read() failed with other than EINTR */ 
errExit("read"); 


如 果 需 要 频繁 使 用 上 述 代码 ， 那 么 定义 成 如 下 宏 会 很 方便 : 
#define NO_EINTR(stmt) while ((stmt) == -1 8& errno == EINTR); 

使 用 该 安 ， 可 以 将 早先 对 read0 的 调用 改写 如 下 : 
NO EINTR(cnt = read(fd, buf, BUF SIZE)); 


if (cnt == -1) /* read() failed with other than EINTR */ 
errExit("read"); 


GNU C 库 提供 了 一 个 “〈 非 标准 ) 宏 ， 其 作用 与 定义 于 
<unistd.h> 中 的 NO_EINTRO 相 同 。 该 宏 名 为 
TEMP_FAILURE_RETRY()， 定 义 特 性 测试 宏 
_GNU_SOURCE 后 即 可 使 用 。 


即使 采用 了 类 似 NO_EINTRO 这 样 的 宏 ， 让 信号 处 理 占 来 中 断 系 统 
调用 还 是 鼎 为 不 便 ， 因 为 只 要 有 意 重 启 阻 塞 的 调用 ， 就 需要 为 每 个 阻 蹇 
的 系统 调用 添加 代码 。 反 之 ， 可 以 调用 指定 了 SA_RESTART 标 志 的 
sigaction() 来 创建 信号 处 理 器 函数， 从 而 令 内 核 代 表 进 程 自动 重启 系统 
调用 ， 还 无 需 处 理 系 统 调 用 可 能 返回 的 EINTR 错 误 。 


标志 SA_RESTART 是 针对 每 个 信号 的 设置 。 换 言 之 ， 人 允许 某 些 信 
号 的 处 理 器 函数 中 断 阻 塞 的 系统 调用 ， 而 其 他 系统 调用 则 可 以 自动 重 
启 。 


SA_RESTART 标 志 对 哪些 系统 调用 〈 和 库 函 数 ) 有 效 


不 圣 的 是 ， 并 非 所 有 的 系统 调用 都 可 以 通过 指定 SA_RESTART 来 
达到 自动 重启 的 目的 。 究 其 原因 ， 有 部 分 历史 因素 。 


。4.2BSD 引 入 了 重启 系统 调用 的 概念 ， 包 括 中 断 对 wait0 和 waitpid0) 
的 调用 ， 以 及 如 下 WO 系统 调用 : read0、readv0、write0 和 阻塞 的 
ioctl0) 操 作 。LO 系 统 调用 都 是 可 中 断 的 ， 所 以 只 有 在 操作 “ 慢 速 
(slow) ”设备 时 ， 才 可 以 利用 SA_RESTART 标 志 来 自动 重启 调 
用 。 慢 速 设备 包括 终端 (terminal) 、 管 道 (pipe) 、FIFO 以 及 套 
接 字 (socket) 。 对 于 这 些 文件 类 型 ， 各 种 IO 操作 都 有 可 能 堵塞 。 
《 相 比 之 下 ， 和 磁盘 文 件 并 未 沦 入 慢 速 设备 之 列 ， 因 为 借助 于 缓冲 区 
高 速 缓存 ， 破 盘 IO 请 求 一 般 都 可 以 立即 得 到 满足 。 当 出 现 磁盘 IO 
请 求 时 ， 内 核 会 令 该 进程 休眠 ， 直 至 完成 IO 动作 为 止 。) 

其 他 大 量 阻 塞 的 系统 调用 则 继承 目 System V， 在 其 初始 设计 中 并 未 
提供 重启 系统 调用 的 功能 。 


在 Linux 中 ， 如 果 采 用 SA_RESTART 标 志 来 创建 系统 处 理 器 函数 ， 





























则 如 下 阻 压 的 系统 调用 《以 及 构建 于 其 上 的 库 函 数 ) FE BP TIN ee 
以 目 动 重 局 的 。 


用 来 等 待 子 进 程 (26.177) 的 系统 调用 : wait()、waitpid()、 

wait3()、 wait4() 和 waitid()。 

访问 慢 速 设备 时 的 IO 系统 调用 : read()、readv()、wirite()、 eo 
和 ioctl()。 如 果 在 收 到 信号 时 已 经 传递 了 部 分 数据 ， 那 么 还 是 会 中 
靳 输入 输出 系统 调用 ， 但 会 返回 成 功 状态 : 一 个 整 型 值 ， 表 示 已 成 
功 传递 数据 的 字 节 数 。 

系统 调用 open0， 在 可 能 阻 压 的 情况 下 《例如 ， 如 44.7 节 所 述 ， 在 
打开 FIFO 时 ) 。 

用 于 套 接 字 的 各 种 系统 调用 : accept()、accept4()、connect()、 
send()、sendmsg()、sendto()、recv()、recvfrom() 和 recvmsg()。 在 
Linux 中 ， 如 果 使 用 setsockopt0) 来 设置 超时 ， 这 些 系统 调用 就 不 会 
目 动 重启 。 更 多 细节 请 参考 signal(7) 手 册页 。) 

对 POSIX 消 恩 队 列 进行 WO 操作 的 系统 调用 : mq_receive()、 
mq_timedreceive()、mq_send() 和 mq_timedsend()。 

用 于 设置 文件 锁 的 系统 调用 和 库 函 数 : flock()、fcntl() 和 lockf()。 
Linux 特 有 系统 调用 futex() 的 FUTEX_WAIT 操 作 。 

用 于 递减 POSIX 信 号 量 的 sem_wait() 和 sem_timedwait() 函 数 。【〔 在 一 
| 如 果 设 置 了 SA_RESTART 标 志 ，sem_wait() 就 会 
重启 。 

用 于 ab 步 POSIX 线 程 的 函数 : pthread_mutex_lock(). 
pthread_mutex_trylock()、pthread_mutex_timedlock()、 
pthread_cond_wait()#pthread_cond_timedwait(). 





内 核 2.6.22 之 前 ， 不 管 是 否 设置 了 SA_RESTART 标 志 » futex(), 





sem_wait0 和 sem_timedwaitO 遭 到 中 断 时 总 是 产后 EINTR 错 误 IRo 


以 下 阻塞 的 系统 调用 《以 及 构建 于 其 上 的 库 函 数 ) 则 绝 不 会 自动 重 


启 〈 即 便 指 定 了 SA_RESTART) 。 


pollO0、ppollO0、select0 和 pselectO 这 些 IO 多 路 复 用 调用 。 〈SUSv3 
明文 规定 ， 无 论 设 置 SA_RESTART 标 志 与 否 ， 都 不 对 select0 和 
pselectO 齐 处 理 器 函数 中 断 时 的 行为 进行 定义 。) 

Linux 特 有 的 epoll_waitO0 和 epoll_pwaitO 系 统 调用 。 

Linux 特 有 的 io_getevents() 系 统 调用 。 


。 操作 System V 消 息 队 列 和 信号 量 的 阻塞 系统 调用 : semop()、 


semtimedop(). msgrcv()#llmsgsnd(). 《虽然 System V 原 本 并 未 提供 
自动 重启 系统 调用 的 功能 ， 但 在 某 些 UNIX 实 现 上 ， 如 果 设 置 了 
SA_RESTART 标 志 ， 这 些 系统 调用 还 是 会 自动 重启 。 ) 

。 对 inotify 文 件 描述 符 发 起 的 readO 调 用 。 

。 用 于 将 进程 挂 起 指定 时 间 的 系统 调用 和 库 函 数 : sleep()、 
nanosleep()#clock_nanosleep(). 

。 特意 设计 用 来 等 待 某 一 信号 到 达 的 系统 调用 : pause()、 
sigsuspend(). sigtimedwait()#lsigwaitinfo(). 











为 信号 修改 SA_RESTART 标 志 


函数 siginterruptO 用 于 改变 信号 的 SA_RESTART 设 置 。 





#include <signal.h> 


int siginterrupt(int sig, int flag); 


Returns 0 on success, or -1 on error 











行 参数 flag 为 真 (1) ， 则 针对 信和 号 sig 的 处 理 器 函数 将 会 中 断 阻 压 
的 系统 调用 的 执行 。 如 果 flag 为 假 (0) , MAERT T sight) Mb tE a PK 
数 之 后 ， 会 自动 重 局 阻 窗 的 系统 调用 。 


函数 SiginterruptO 的 工作 原理 是 : 调用 sigaction0) 获 取信 号 当前 处 置 
的 副本 ， 调 整 自 结构 oldact 中 返回 的 SA_RESTART 标 志 ， 接 着 再 次 调用 
sigaction() 来 更 新 信号 处 置 。 


SUSv4 标 记 sigterruptO 为 已 废止 ， 并 推荐 使 用 sigaction0 加 以 蔡 代 。 
对 于 某 些 Linux 系 统 调用 ， 未 处 理 的 停止 信号 会 产生 EINTR 错 误 


在 Linuxz 上 ， 即 使 没有 信号 处 理 器 函数 ， 某 些 阻塞 的 系统 调用 也 会 
产生 EINTR 错 误 。 如 果 系 统 调用 遭 到 阻塞 ， 并 且 进 程 因 信和 号 
(SIGSTOP、SIGTSTP、SIGTTIN 或 SIGTTOU ) 而 停止 ， 之 后 又 因 收 到 
SIGCONT 信 号 而 恢复 执行 时 ， 就 会 发 生 这 种 情况 。 


以 下 系统 调用 和 函数 具有 这 一 行为 : epoll_pwait()、epoll_wait()、 
对 inotify 文 件 描述 符 执行 的 read0 调 用 、semopO、semtimedopO、 
sigtimedwait() Msigwaitinfo(). 

















内 核 2.6.24 之 前 ，poll0 也 曾 存 在 这 种 行为 ，2.6.22 之 前 的 
sem_wait()、sem_timedwait()、futex(FUTEX_WAIT)，2.6.9 之 前 的 
msgrcv0 和 msgsnd0， 以 及 Linux 2.4 及 其 之 前 的 nanosleepO 也 同样 如 此 。 


在 Linux 2.4 及 其 之 前 的 版 本 中 ， 也 可 以 以 这 种 方式 来 中 断 sleep()， 
但 是 不 会 返回 错误 值 ， 而 是 返回 休眠 所 剩余 的 秒 数 。 


这 种 行为 的 结果 是 ， 如 果 程 序 可 能 因 信 号 而 集 止 和 重启 ， 那 么 就 需 
要 添加 代码 来 重新 局 动 这 些 系 统 调用 ， 即 便 该 程序 并 未 为 停止 信号 设置 
处 理 器 函数 。 























21.6 总结 
本 章 讨论 了 影响 信号 处 理 器 函数 操作 与 设计 的 一 系列 因素 。 


由 于 没有 对 信号 排队 ， 故 而 在 为 处 理 需 编码 时 ， 有 时 必须 要 考虑 特 
定 关 型 信号 多 次 发 生 的 可 能 性 ， 即 使 之 前 信号 只 产生 过 一 次 。 可 重 入 问 
题 会 影响 到 对 全 局 变量 的 修改 方式 ， 还 限制 了 可 从 信号 处 理 器 函数 中 安 
全 调用 的 函数 范围 。 


除了 返回 之 外 ， 信 号 处 理 器 函数 的 终止 还 存在 多 种 其 他 方法 ， 其 中 
包括 : 调用 _exit()， 发 送信 号 来 终止 进程 (kill()、raise() 或 abort()) ， 或 
者 执行 非 本 地 跳 转 。 借 助 于 sigsetjmp() 和 siglongjmp()， 可 以 在 执行 非 本 
地 跳 转 时 为 程序 提供 处 理 信号 掩 码 的 显 式 控制 手段 。 


可 以 使 用 sigaltstack0) 来 为 进程 定义 备 选 信号 栈 。 这 是 调用 信和 号 处 理 
器 函数 时 ， 用 来 蔡 代 标准 进程 栈 的 一 块 内 存 。 当 标准 栈 因 增 长 过 大 【内 
Bae EN ee Cone ep er ye erent eee 


如 果 在 调用 sigaction0 时 设置 了 SA_SIGINFO 标 志 ， 那 么 所 创建 的 信 
号 处 理 器 函数 就 能 接收 信号 的 附加 信息 。siginfo_t 结 构 提 供 了 这 些 信 
恩 ， 其 地 址 则 传递 给 信号 处 理 器 作为 参数 。 


如 果 信 号 处 理 器 函数 中 断 了 阻塞 的 系统 调用 ， 系 统 调用 会 产生 
EINTR 错 误 。 利 用 这 种 特性 ， 束 可 以 为 阻塞 的 系统 调用 设置 一 个 定时 
器 。 如 果 有 意 ， 可 以 手动 重启 遭 到 中 断 的 系统 调用 。 另 外 ， 在 调用 
sigaction0O) 创 建 信 号 处 理 器 函数 时 ， 如 果 设 置 了 SA_RESTART 标 志 ， 那 
么 大 部 分 〈 但 非 全 部 ) 系统 调用 都 将 会 自动 重启 。 


更 多 信息 
参考 20.15 节 所 列 信息 来 源 。 


21.7 练习 


21.1. 实现 abort()。 





DRH: 任意 。 


第 22 草 ”信号 : 局 级 特性 


本 章 是 “信号 ?主题 系列 讨论 〈 始 于 第 20 章 ) 的 完结 篇 ， 少 蓄 了 一 些 
更 为 高 级 的 议题 ， 如 下 所 示 。 


。 核心 转 储 文 件 。 

。 与 信号 的 传递 、 处 置 及 处 理 相 关 的 特殊 情况 。 

。 信号 的 同步 产生 和 噶 步 产生 。 

。 信号 的 传递 时 机 及 传递 顺序 。 

。 信号 处 理 器 函数 对 系统 调用 的 中 断 ， 以 及 如 何 上 自动 重启 遭 到 中 断 的 
系统 调用 。 

。 实时 信号 。 

。 用 sigsuspend(0) 来 设置 进程 信号 撼 码 并 等 待 信号 到 达 。 

e 用 sigwaitinfo() (和 sigtimedwait()〉 同步 等 待 信号 到 达 。 

。 用 signalfd() 从 一 个 文件 摘 述 符 中 接收 信号 。 

e 较 老 的 BSD 版 信号 API 和 System V 版 信号 API。 











22.1 核心 转 储 文件 


特定 信号 会 引发 进程 创建 一 个 核心 转 储 文件 并 终止 运行 (参考 表 
20-1) 。 上 所 谓 核心 转 储 是 内 含 进程 终止 时 内 存 映 像 的 一 个 文件 。 《术语 
core 源 于 一 种 老 迈 的 内 存 技术 。) 将 该 内 存 映像 加 载 到 调试 器 中 ， 即 可 
碍 明 信 和 号 到 达 时 程序 代码 和 数据 的 状态 。 


引发 程序 生成 核心 转 储 文件 的 方式 之 一 是 键入 退出 字符 (通常 为 
Control-\) ， 从 而 生成 SIGQUIT 信 号。 





$ ulimit -c unlimited Explained in main text 

$ sleep 30 

Type Control-\ 

Quit (core dumped) 

$ ls -1 core Shows core dump file for sleep( 1) 
-IW------- 1 mtk users 57344 Nov 30 13:39 core 





本 例 中 ， 当 检测 出 子 进程 《运行 sleep 命 令 的 进程 ) 为 SIGQUIT 信 和 号 
所 杀 ， 并 生成 核心 转 储 文件 时 ，shell 会 显示 “Quit (core dump) ”消息 。 


核心 转 储 文件 创建 于 进程 的 工作 目录 中 ， 名 为 core。 这 是 核心 转 储 
文件 的 默认 位 置 和 名 称 。 稍 后 ， 将 解释 如 何 改变 这 些 默 认 值 。 


借助 于 许多 实现 所 提供 的 工具 (例如 FreeBSD 和 Solaris 
中 的 gcore〉， 可 获取 某 一 正在 运行 进程 的 核心 转 储 文件 。 
Linux 系 统 也 有 类 似 功能 ， 使 用 gdb 去 连接 (attach) 一 个 正 
在 运行 的 进程 ， 然 后 运行 gcore 命 令 。 





不 产生 核心 转 储 文件 的 情况 
以 下 情况 不 会 产生 核心 转 储 文件 。 
。 进程 对 于 核心 转 储 文件 没有 写 权限 。 造 成 这 种 情况 的 原因 有 进程 对 





将 要 创建 核心 转 储 文件 的 所 在 目录 可 能 没有 写 权 限 ， 或 者 是 因为 存 
在 同名 〔 且 不 可 写 ， 亦 或 非常 规 类 型 例如， 目录 或 符号 链接 ) 的 


文件 。 

ie 二 个 同名 、 可 写 的 普通 文件 ， 但 指向 该 文件 的 〈 硬 ) 链接 数 超 
a 

将 要 创建 核心 转 储 文件 的 所 在 目录 并 不 存在 。 

把 进程 “核心 转 储 文件 大 小 ”这 一 资源 限制 置 为 0(。36.3 节 将 就 这 一 限 
‘ill CRLIMIT_CORE) 进行 详细 讨论 。 上 例 就 使 用 了 ulimit 命 令 〈C 
shell 中 为 limit 命 令 ) 来 取消 对 核心 转 储 文件 大 小 的 任何 限制 。 

将 进程 “可 创建 文件 的 大 小 ”这 一 资源 限制 设置 为 0。36.3 节 将 描述 
这 一 限制 CRLIMIT_FSIZE) 。 

对 进程 正在 执行 的 二 进 制 可 执行 文件 没有 读 权限 。 这 样 中 就 防止 了 
用 户 借助 于 核心 转 储 文件 来 获取 本 无 法 读 取 的 程序 代码 。 

以 只 读 方 式 挂 载 当 前 工作 目录 所 在 的 文件 系统 ， 或 者 文件 系统 空间 
已 满 ， 又 或 者 i-node 资 源 耗 尽 。 还 有 一 种 情况 ， 即 用 户 已 经 达到 其 
在 该 文件 系统 上 的 配额 限制 。 

Set-user-ID (set-group-ID) 程序 在 由 非 文 件 属 主 (或 属 组 ) 执行 
时 ， 不 会 产生 核心 转 储 文件 。 这 可 以 防止 恶意 用 户 将 一 个 安全 程序 
的 内 存 转 储 出 来 ， 再 针对 诸如 密码 之 类 的 敏感 信息 进行 刺探 。 

















借助 于 Linux 专 有 系统 调用 prctl() 的 
PR_SET_DUMPABLE 操 作 ， 可 以 为 进程 设置 dumpable 标 
志 。 当 非 文 件 属 主 (或 属 组 ) 运行 setruser-ID (set-group- 
ID) 程序 时 ， 如 设置 该 标志 即 可 生成 核心 转 储 文件 。 
PR_SET_DUMPABLE 操 作 始 见于 Linux 2.4， 更 多 详细 信息 
参见 prctl(2) 手 册页 。 另 外 ， 始 于 内 核 版 本 2.6.13， 针 对 set- 
user-ID 和 set-group-ID 进 程 是 否 产生 核心 转 储 文 
件 ，/proc/sys/fs/suid_dumpable 文 件 开 始 提供 系统 级 控制 。 
详情 参见 proc(5) 手 册页 。 


始 于 内 核 版 本 2.6.23， 利 用 Linux 特 有 的 /procPID/coredump_filter， 
可 以 对 写 入 核心 转 储 文件 的 内 存 映 射 类 型 〈 第 49 章 将 解释 内 存 映射 ) 施 
以 进程 级 控制 。 该 文件 中 的 值 是 一 个 4 位 手 码 ， 分 别 对 应 于 4 种 类 型 的 内 
FPWR: 私有 匿名 映射 、 私 有 文件 映射 、 共 享 匿 名 映射 以 及 共享 文件 映 
射 。 文 件 默 认 值 提供 了 传统 的 Linux 行 为 : 仅 对 私有 匿名 映射 和 共享 匿 
名 映射 进行 转 储 。 详 情 参 见 core(5) 手 册页 。 


为 核心 转 储 文 件 命 名 : /proc/sys/kernel/core_pattern 


从 Linux 版 本 2.6 开 始 ， 可 以 根据 Linux 特 有 
的 /proc/sys/kernel/core_pattern 文 件 所 包含 的 格式 化 字符 串 来 控制 对 系统 
上 生成 的 所 有 核心 转 储 文件 的 命名 。 默 认 情 况 下 ， 该 文件 所 含 字 符 串 为 
core。 特 权 级 用 户 可 以 将 该 文件 内 容 定 义 为 包含 表 22-1 所 列 的 任 一 格式 
说 明 符 ， 待 实际 命名 时 再 以 表 中 右 列 所 示 相 应 值 加 以 替换 。 此 外 ， 人 允许 
字符 串 中 包含 斜 线 O 。 换 言 之 ， 处 在 控制 范围 之 内 的 ， 不 仅 包括 核 
心 文 件 的 名 称 ， 还 包括 核心 文件 的 所 在 (绝对 或 相对 ) 目录 。 蔡 换 所 有 
格式 说 明 符 后 ， 由 此 生成 的 路 径 名 字符 串 长 度 至 多 可 达 128 个 字符 
(Linux 2.6.19 之 前 为 64 个 字符 ) ， 超 出 部 分 将 予以 截断 。 


Linux 从 内 核 版 本 2.6.19 开 始 支 持 core_patterm 文 件 的 另 一 种 语法 。 如 
果 该 文件 包含 一 个 以 管道 符 〈|) 为 首 的 字符 串 ， 那 么 会 将 该 文件 的 剩余 
字符 串 视 为 一 个 程序 ， 其 可 选 参 数 可 包含 表 22-1 所 示 的 % 说 明 符 一 一 当 
进程 转 储 核心 文件 时 ， 将 执行 该 程序 。 并 且 会 将 核心 转 储 至 该 程序 的 标 
准 输 入 ， 而 非 一 个 文件 。 详 情 请 参考 core(5) 手 册页 。 











其 他 一 些 UNIX 实 现 也 提供 了 类 似 于 core_pattern 的 机 
制 。 例 如 ， 在 BSD 一 派 中 ， 会 将 程序 名 奶 加 到 文件 名 尾 
部 ， 形 如 core.progname。Solaris 提 供 了 一 个 工具 
Ccoreadm) ， 人 允许 由 用 户 来 选择 核心 转 储 文 件 的 名 称 和 存 
放 目 录 。 





表 22-1: 服务 于 /proc/sys/kernel/core_pattern 的 文件 说 明 符 





对 核心 文件 大 小 的 资源 软 限制 ( 字 节 数 ， 始 于 Linux 2.6.24) 


te KERANA 
w | 各 的 实际 组 ID 
i aa 


















































22.2 传递、 处置 及 处 理 的 特殊 情况 


本 节 讨 论 了 针对 特定 信号 ， 适 用 于 其 传递 、 处 置 以 及 处 理 方 面 的 特 
殊 规则 。 


SIGKILL 和 SIGSTOP 


SIGKILL 信 号 的 默认 行为 是 终止 一 个 进程 ，SIGSTOP 信 号 的 默认 行 
为 是 停止 一 个 进程 ， 二 者 的 默认 行为 均 无 法 改变 。 当 试图 用 signal() 和 
sigaction() 来 改变 对 这 些 信号 的 处 置 时 ， 将 总 是 返回 错误 。 同 样 ， 也 不 
能 将 这 两 个 信号 阻塞 。 这 是 一 个 深思 熟 虑 的 设计 决定 。 不 允许 修改 这 些 
信号 的 默认 行为 ， 这 也 意味 着 总 是 可 以 利用 这 些 信号 来 杀 死 或 者 停止 一 
个 失控 进程 。 


SIGCONT 和 停止 信号 


如 前 所 述 ， 可 使 用 SIGCONT 信 和 号 来 使 某 些 〈 因 接收 SIGSTOP、 
SIGTSTP、SIGTTIN 和 SIGTTOU 信 号 而 ) 处 于 停止 状态 的 进程 得 以 继 
续 运 行 。 由 于 这 些 停 止 信号 具有 独特 目的 ， 所 以 在 某 些 情况 下 内 核对 它 
们 的 处 理 方 式 将 有 别 于 其 他 信号。 


如 果 一 个 进程 处 于 停止 状态 ， 那 么 一 个 SIGCONT 信 号 的 到 来 总 是 
会 促使 其 恢复 运行 ， 即 使 该 进程 正在 阻塞 或 者 忽略 SIGCONT 人 信号。 该 
特性 之 所 以 必要 ， 是 因为 如 果 要 恢复 这 些 处 于 停止 状态 的 进程 ， 舍 此 之 
外 别 无 他 法 。 (如 果 处 于 停止 状态 的 进程 正在 阻塞 SIGCONT 信 号 ， 并 
且 已 经 为 SIGCONT 信 号 建立 了 处 理 器 函数 ， 那 么 在 进程 恢复 运行 后 ， 
了 对 SIGCONT 的 阻塞 时 ， 进 程 才 会 去 调用 相应 的 处 理 絮 函 
ME 











如 果 有 任 一 其 他 信号 发 送 给 了 一 个 已 经 停止 的 进程 ， 
那么 在 进程 收 到 SIGCONT 信 和 号 而 恢复 运行 之 前 ， 信 和 号 实际 
上 并 未 传递 。SIGKILL 信 号 则 属于 例外 ， 因 为 该 信号 总 是 
会 杀 死 进程 ， 即 使 进程 目前 处 于 停止 状态 。 











每 当 进 程 收 到 SIGCONT 信 号 时 ， 会 将 处 于 等 待 状态 的 停止 信号 丢 
弃 〈 即 进程 根本 不 知道 这 些 信 号 ) 。 相 反 ， 如 果 任 何 停止 信号 传递 给 了 
进程 ， 那 么 进程 将 自动 丢弃 任何 处 于 等 待 状态 的 SIGCONT 信 和 号。 之 所 
以 采取 这 些 步骤 ， 意 在 防止 之 前 发 送 的 一 个 停止 信号 会 在 随后 撤销 
SIGCONT 信 和 号 的 行为 ， 反 之 亦 然 。 


由 终端 产生 的 信号 知已 被 忽略 ， 则 不 应 改变 其 信号 处 置 


如 果 程 序 在 执行 时 发 现 ， 已 将 对 由 终端 产生 信和 号 的 处 置 置 为 了 
SIG_IGN (Ang) ， 那 么 程序 通常 不 应 试图 去 改变 信号 人 处置。 这 并 非 系 
统 的 硬性 规定 ， 而 是 编写 应 用 程序 时 所 应 遵循 的 惯例 ，34.7.3 节 将 解释 
其 理由 。 与 之 相关 的 信号 有 : SIGHUP、SIGINT、SIGQUIT、 
SIGTTIN、SIGTTOU 和 SIGTSTP。 











22.3 ”可 中 断 和 不 可 中 断 的 进程 睡眠 状态 


前 文 曾 指 出 ，SIGKILL 和 SIGSTOP 信 号 对 进程 的 作用 是 立竿见影 
的 。 对 于 这 一 论断 ， 此 处 要 加 入 一 条 限制 。 内 核 经 常 需 要 令 进 程 进入 休 
眠 ， 而 休眠 状态 又 分 为 两 种 。 


TASK_INTERRUPTIBLE: 进程 正在 等 待 某 一 事件 。 例 如 ， 正 在 等 
待 终端 输入 ， 等 待 数 据 写 入 当前 的 空 管道 ， 或 者 等 待 System V 信 和 号 
量 值 的 增加 。 进 程 在 该 状态 下 所 耗费 的 时 间 可 长 可 短 。 如 果 为 这 种 
状态 下 的 进程 产生 一 个 信号 ， 那 么 操作 将 中 断 ， 而 传递 来 的 信号 将 
唤醒 进程 。ps(1) 命 令 在 显示 处 于 TASK_INTERRUPTIBLE 状 态 的 进 
程 时 ， 会 将 其 STAT 进 程 状态 ) 字段 标记 为 字母 $。 
TASK_UNINTERRUPTIBLE: 进程 正在 等 待 某 些 特定 类 型 的 事 
件 ， 比 如 磁盘 IO 的 完成 。 如 果 为 这 种 状态 下 的 进程 产生 一 个 信 
号 ， 那 么 在 进程 摆脱 这 种 状态 之 前 ， 系 统 将 不 会 把 信号 传递 给 进 
程 。ps() 命 令 在 显示 处 于 TASK_UNINTERRUPTIBLE 状 态 的 进程 
时 ， 会 将 其 STAT 字 段 标记 为 字母 D。 


因为 进程 处 于 TASK_UNINTERRUPTIBLE 状 态 的 时 间 通 常 转瞬 即 
逝 ， 所 以 系统 在 进程 脱离 该 状态 时 传递 信号 的 现象 也 不 易于 被 发 现 。 然 
而 ， 在 极 少 数 情况 下 ， 进 程 可 能 会 因 硬件 故障 、NFS 问 题 或 者 内 核 缺 陷 
而 在 该 状态 下 保持 挂 起 。 这 时 ，SIGKILL 将 不 会 终止 挂 起 进程 。 如 果 问 
题 诱因 无 法 得 到 解决 ， 那 么 就 只 能 通过 重启 系统 来 消灭 该 进程 。 


大 多 数 UNIX 系 统 实现 都 支持 TASK_INTERRUPTIBLE 和 
TASK_UNINTERRUPTIBLE 状 态 。 从 内 核 2.6.25 开 始 ，Linux 加 入 第 三 种 
状态 来 解决 上 述 挂 起 进程 的 问题 。 


e TASK_KILLABLE: 该 状态 类 似 于 TASK_UNINTERRUPTIBLE， 
但 是 会 在 进程 收 到 一 个 致命 信号 〈 即 一 个 杀 死 进程 的 信号 ) 时 将 其 
唤醒 。 在 对 内 核 代 码 的 相关 部 分 进行 改造 后 ， 就 可 使 用 该 状态 来 避 
免 各 种 因 进 程 挂 起 而 重 局 系统 的 情况 。 这 时 ， 回 进程 发 送 一 个 致命 
信和 号 就 能 杀 死 进程 。 为 使 用 TASK_KILLABLE 而 进行 代码 改造 的 首 
个 内 核 模块 是 NFS 。 

















22.4 硬件 产生 的 信和 号 


硬件 异常 可 以 产生 SIGBUS、SIGFPE、SIGILL， 和 SIGSEGV 信 
调用 kill0 函 数 来 发 送 此 类 信和 号 是 另 一 种 途径 ， 但 较为 少见 。SUSv3 


规定 ， 在 硬件 开 弟 的 情况 下 ， 如 有 果 进 程 从 此 类 信号 的 处 理 融 函数 中 返 


回 ， 
‘Be 


亦 或 进程 忽略 或 阻 窒 了 此 类 信和 号， 那么 进程 的 行为 未 定义 。 原 因 如 


从 信号 处 理 右 中 返回 : 假设 机 器 语言 指令 产生 了 上 述 信号 之 一 ， 并 
因此 而 调用 了 信号 处 理 器 函数 。 当 从 处 理 需 函数 正常 返回 后 ， 程 序 
会 答 试 从 其 中 断 处 恢复 执行 。 可 当初 引发 信号 产生 的 恰恰 正 是 这 条 
指令 ， 所 以 信号 会 再 次 “光临 ?。 故 事 的 结局 通常 是 ， 程 序 进 入 无 限 
循环 ， 重 复 调 用 信和 号 处 理 圳 函数。 

忽略 信号 : 忽略 因 硬 件 而 产生 的 信号 于 情理 不 合 ， 试 想 算术 异常 之 
后 ， 程 序 应 当 如 何 继续 执行 呢 ? 无 法 明确 。 当 由 于 硬件 异常 而 产生 
上 述 信 号 之 一 时 ，Linux 会 强制 传递 信号 ， 即 使 程序 已 经 请 求 忽略 
此 类 信号。 

阻 豆 信号 。 与 上 一 种 情况 一 样 ， 阻 压 因 人 硬件 而 产生 的 信号 也 不 合 情 
理 : 不 清楚 程序 随后 应 当 如 何 继续 执行 。 在 2.4 以 及 更 早 的 版 本 
中 ，Linux 内 核 仅 会 将 阻 豆 硬件 产生 信和 号 的 种 种 企图 一 一 忽略 ， 信 
号 无 论 如 何 都 会 传递 给 进程 ， 随 后 要 么 进程 终止 ， 要 么 信号 处 理 需 
会 捕获 信号 一 一 在 程序 安装 有 信号 处 理 右 的 情况 下 。 始 于 Linux 
2.6， 如 采信 和 号 让 到 阻塞， 那么 该 信号 总 是 会 立刻 杀 死 进程 ， 即 使 
进程 已 经 为 此 信和 号 安装 了 处 理 器 函数 。《〈 对 于 因 人 硬件 而 产生 的 信 
号 ，Linux 2.6 之 所 以 会 改变 对 其 处 于 阻 豆 状态 下 的 处 理 方式 ， 是 由 
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随 本 书 发 布 源码 中 的 signals/demo_SIGFPE.c 程 序 就 展 
示 了 忽略 或 者 阻塞 SIGFPE 信 和 号 的 后 果 ， 或 者 可 正常 返回 的 
处 理 器 将 其 捕获 的 结果 。 


正确 处 理 硬 件 产生 信和 号 的 方法 有 二 : 要 么 接受 信号 的 默认 行为 ( 进 
程 终 止 ) ; 要 么 为 其 编写 不 会 正常 返回 的 处 理 器 函数 。 除 了 正常 返回 之 
外 ， 终 结 处 理 器 执行 的 手段 还 包括 调用 _exitO 以 终止 进程 ， 或 者 调用 
siglongjmp() 〈21.2.1 节 ) ， 确 保 将 控制 传递 回程 序 中 《产生 信和 号 的 指令 
位 置 之 外 ) 的 某 一 位 置 。 





22.5 ”信号 的 同步 生成 和 异步 生成 


前 文 已 然 论 及 ， 进 程 一 般 无 法 预测 其 接收 信号 的 时 间 。 要 证 实 这 一 
点 ， 需 要 对 信和 号 的 同步 生成 和 异步 生成 加 以 区 分 。 


截止 目前 所 探讨 的 均 属 于 信号 的 异步 生成 ， 即 引发 信号 产生 《无 论 
信号 发 送 者 是 内 核 还 是 另 一 进程 ) 的 事件 ， 其 发 生 与 进程 的 执行 无 关 。 
〈 例 如， 用 户 输入 中 断 字符 ， 或 者 子 进程 终止 。) 对 于 天 步 产生 的 信 
号 ， 本 节 起 始 处 的 论断 并 非 虚 言 。 


然而 ， 有 时 候 信 号 的 产生 是 由 进程 本 里 的 执行 造成 的 ， 前 面 就 曾 提 
及 两 个 这 样 的 例子 。 


。 执行 特定 的 机 器 语言 指令 ， 可 导致 便 件 异常 ， 并 因此 而 产生 22.4 节 
所 述 的 硬件 产生 信号 〈SIGBUS、SIGFPE、SIGILL、SIGSEGV 和 
SIGEMT) 。 

。 进程 可 以 使 用 raise0、Kkill0 或 者 killpgO 向 自身 发 送信 号 。 


在 这 些 情况 下 ， 信 和 号 的 产生 就 是 同步 的 一 一 会 立即 传递 信号 《除非 
该 信号 遭 到 阻 压 ， 但 还 要 参考 22.4 节 就 阻 蜗 硬件 产生 信和 号 而 展开 的 讨 
W) 。 换 言 之 ， 本 节 开 始 处 的 论断 则 并 不 成 立 。 对 于 同步 产生 的 信号 而 
言 ， 其 传递 不 但 可 以 预测 ， 而 且 可 以 重 现 。 


注意 ， 同 步 是 对 信和 号 产生 方式 的 描述 ， 并 不 针对 信号 本 身 。 所 有 的 
信号 既 可 以 同步 产生 例如， 进程 使 用 kill0 问 自身 发 送信 号 ) ， 也 可 以 
异步 产生 例如， 由 力 一 进程 使 用 kill0 来 及 送信 号 〉。 








22.6 ”信号 传递 的 时 机 与 顺序 


本 节 的 主题 有 二 。 其 一 ， 有 共 体 于 何 时 去 传递 一 个 处 于 等 竺 状态 的 信 
号 ;其 二 ， 对 于 多 个 站 到 阻 竖 ， 且 处 于 等 待 状态 的 信号 一 旦 同时 解除 阻 
蹇 ， 将 会 发 生 什 么 情况 ? 


何 时 传递 一 个 信号 ? 


如 22.5 节 所 述 ， 同 步 产 生 的 信号 会 立即 传递 。 例 如 ， 谭 件 异 常会 触 
发 一 个 即时 信和 号， 而 当 进 程 使 用 raise() 癌 自身 发 送信 号 时 ， 信 号 会 在 
raise() 调 用 返回 前 就 已 经 发 出 。 


当 异 步 产 生 一 个 信号 时 ， 即 使 并 未 将 其 阻塞 ， 在 信号 产生 和 实际 传 
递 之 间 仍 可 能 会 存在 一 个 〈 瞬 时 ) 延迟 。 在 此 期 间 ， 信 号 处 于 等 待 状 
态 。 这 是 因为 内 核 将 等 竺 信号 传递 给 进程 的 时 机 是 ， 该 进程 正在 执行 ， 
且 发 生 由 内 核 态 到 用 户 态 的 下 一 次 切换 时 。 实 际 上 ， 这 意味 着 在 以 下 时 
刻 才 会 传递 信号 。 

o 进程 在 前 度 超时 后 ， 再 度 获 得 调度 时 《〈 即 ， 在 一 个 时 间 卢 的 开始 


Nh) a 
° R 〈 信 号 的 传递 可 能 引起 正在 阻 竖 的 系统 调用 过 早 完 
DE 





解除 对 多 个 信号 的 阻塞 时 ， 信 号 的 传递 顺序 


如 果 进 程 使 用 sigprocmask0O 解 除了 对 多 个 等 待 信号 的 阻塞 ， 那 么 所 
有 这 些 信 号 会 立即 传递 给 该 进程 。 


束 卓 前 的 Linux 实 现 而 言 ，Linux 内 核 按 照 信号 编写 的 升序 来 传递 信 
号 。 例 如 ， 如 果 对 人 处 于 等 待 状态 的 信号 SIGINT 〈 信 和 号 编号 为 2) 和 
SIGQUIT 〈 信 号 编号 为 3) 同时 解除 阻塞 ， 那 么 无 论 这 两 个 信号 的 产生 
次 序 如 何 ，SIGINT 都 将 先 于 SIGQUIT 而 传递 。 


然而 ， 也 不 能 对 传递 〈 标 准 ) 信号 的 特定 顺序 产生 任何 依赖 ， 因 为 
SUSv3 规 定 ， 多 个 信号 的 传递 顺序 由 系统 实现 决定 。〈 该 条 款 仅 适用 于 
标准 信号 。 如 22.8 节 所 述 ， 实 时 信号 的 相关 标准 规定 ， 对 于 解除 阻塞 的 
实时 信号 而 言 ， 其 传递 顺序 必须 得 到 保障 。) 








当 多 个 解除 了 阻塞 的 信号 正在 等 竺 传递 时 ， 如 宋 在 信号 处 理 器 函数 
执行 期 间 发 生 了 内 核 态 和 用 户 态 之 间 的 切换 ， 那么 将 中 断 此 处 理 右 函数 





的 执行 ， 转 而 去 调用 第 二 个 信号 处 理 器 函数 〈 如 此 递 进 ) ， 如 图 22-1 所 
示 。 
主 程序 解除 对 处 于 等 待 状态 的 信号 SIGINT 和 SIGQUIT 的 阻塞 


. 内 核 调用 SIGINT 信 和 号 的 处 理 器 函数 
. SIGINT ADEE SS ARRET 一 个 系 sal 
内 核 调 用 SIGQUIT 信 号 的 处 理 程序 
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SIGINT SIGOUIT 
信和 号 处 理 器 信和 号 处 理 器 


---------«----------------- 


© 


图 22-1: 对 多 个 解除 阻塞 信号 的 传递 


22.7 signal(0 的 实现 及 可 移植 性 


Í, 


本 节 展 示 了 如 何 使 用 sigaction0 来 实现 signal0。 实 现 虽 然 简 单 明 
但 还 需要 顾及 这 一 事实 ， 由 于 历史 沿革 和 UNIX 实 现 之 间 的 差异 ， 





signal0) 曾 具有 各 种 不 同 的 语义 。 励 其 是 ， 信 号 的 早期 实现 并 不 可 靠 ， 这 


意味 着 : 














刚 一 进入 信号 处 理 器 ， 会 将 信号 处 置 重 置 为 其 默认 行为 。〈 这 对 应 
于 20.13 节 描述 的 SA_RESETHAND 标 志 。) 要 想 在 同一 信号 “再 度 
光临 ?时 再 次 调用 该 信号 处 理 器 函数 ， 程 序 员 必须 在 信号 处 理 器 内 
部 调用 signal0， 以 显 式 重建 处 理 器 函数 。 这 种 情况 存在 一 个 问题 ; 
在 进入 信号 处 理 器 和 重建 处 理 器 之 间 存 在 一 个 短暂 的 窗口 期 ， 而 如 
人 
理 。 

在 信号 处 理 器 执行 期 间 ， 不 会 对 新 产生 的 信号 进行 阻塞 。 〈 这 对 应 
于 20.12 节 摘 述 的 SA_NODEFER 标 志 。) 这 意味 着 ， 如 果 在 某 一 信 
写 处 理 器 函数 执行 期 间 ， 同 类 信和 号 再 度 光 顾 ， 那 么 将 对 该 处 理 器 函 
数 进行 递归 调用 。 假 定 一 串 信 号 中 彼此 的 时 间 间 隔 足 够 短 ， 那 么 对 
处 理 器 函数 的 递归 调用 将 可 能 导致 堆栈 溢出 。 


除了 不 可 靠 之 外 ， 早 期 的 UNIX 实 现 并 未 提供 系统 调用 的 目 动 重 司 








功能 〈 即 ，21.5 节 所 述 SA_RESTART 标 志 的 相关 行为 ) 。 


4.2BSD 针 对 可 靠 信 号 的 实现 纠正 了 这 些 限制 ， 其 他 一 些 UNIX 实 现 


也 纷纷 效仿 。 然 而 ， 时 至 今日 ， 这 些 早期 语义 依然 存在 于 System V 的 
signal() 实 现 之 中 。 更 有 其 者 ， 诸 如 SUSvV3 和 C99 之 类 的 当代 标准 对 
signalO 的 这 些 方面 也 有 意 不 子规 范 。 


整合 上 述 信息 ， 对 signal0 的 实现 如 程序 清单 22-1 所 示 。 该 实现 默认 


将 提供 信号 的 现代 语义 。 如 果 编 译 时 带 有 -DOLD_SIGNAL 选 项 ， 那 么 
将 提供 早期 的 不 可 靠 信 号 语义 ， 且 不 能 启用 系统 调用 的 自动 重启 功能 。 


程序 清单 22-1: signal() 的 实现 之 一 








signals/signal.c 
#include <signal.h> 


typedef void (*sighandler_t) (int); 


sighandler t 
signal(int sig, sighandler_t handler) 
{ 


struct sigaction newDisp, prevDisp; 


newDisp.sa_handler = handler; 
sigemptyset(&newDisp.sa_mask); 
#ifdef OLD SIGNAL 
newDisp.sa flags = SA RESETHAND | SA NODEFER; 
#else 
newDisp.sa_flags = SA RESTART; 
#endit 


if (sigaction(sig, &newDisp, &prevDisp) == -1) 
return SIG ERR; 


else 
return prevDisp.sa_handler; 


Signals/signal.c 
glibc 的 一 些 细 证 


随 着 时 间 推 移 ，glibc 对 signal0 库 函数 的 实现 也 历经 变化 。 较 新 版 本 
(glibc 2 及 更 高 版 本 ) 的 函数 库 默认 提供 现代 语义 。 而 老 版 本 则 提供 早 
期 的 不 可 靠 (System V- 兼 容 ) 语义 。 


Linux 内 核 将 signal0 实 现 为 系统 调用 ， 并 提供 较 老 的 、 
不 可 靠 语义 。 然 而 ，glibc 库 则 利用 sigaction() 实 现 y signal) 
库 函 数 ， 从 而 将 signal0 系 统 调用 旁 路 。 


如 有 果 执 意 在 现代 glibc 版 本 中 使 用 不 可 靠 信号 语义 ， 那 么 可 以 显 式 以 
( 非 标 准 的 ) sysv_signal() esi BOK 4 TUT signal() AY iil HA - 





#define GNU SOURCE 
#include <signal.h> 


void ( *sysv_signal(int sig, void (*handler)(int)) ) (int); 








Returns previous signal disposition on success, or SIG ERR on error 





sysv_signal(O 函 数 的 参数 与 signalO0 函 数 相同 。 


若 编 译 程序 时 并 未 定义 _BSD_SOURCE 特 性 测试 宏 ， 则 glibc 会 隐 式 
将 所 有 signalO 调 用 重新 定义 为 sysv_signal0 调 用 ， 亦 即 启用 signal0 的 不 
可 靠 语 义 。 默 认 情 况 下 会 定义 _BSD_SOURCE， 但 是 (除非 显 式 定义 了 
_BSD_SOURCE) 如 果 编 译 程序 时 定义 了 诸如 _SVID_SOURCE 或 
_XOPEN_SOURCE 之 类 的 其 他 特性 测试 宏 ， 那 么 对 _BSD_SOURCE 的 默 
认定 义 将 会 失效 。 


sigaction() 是 建 并 信号 处 理 器 的 首选 API 


鉴于 上 述 System V 与 BSD 之 间 〈( 以 及 glibc 新 老 版 本 之 间 〉 的 可 移植 
性 问题 ， 应 当 坚 持 使 用 sigaction0) 而 非 signal0 来 建立 信号 处 理 器 ， 这 不 
失 为 一 种 稳妥 之 举 。 本 书 剩 下 部 分 都 将 遵循 这 一 做 法 。《 另 一 种 选择 
是 ， 编 写 类 似 于 程序 清单 22-1 的 Signal0 版 本 ， 精 确 设 定 所 需要 的 标志 ， 
供应 用 程序 内 部 使 用 。) 不 过 ， 还 应 注意 ， 使 用 signal0 将 信号 处 置 设 置 
为 SIG_IGN 或 者 SIG_DFL 的 手法 具有 民 好 的 可 移植 性 程序 也 更 为 简 
短 ) ， 所 以 也 很 常用 。 











22.8 ”实时 信和 号 


定义 于 POSIX.1b 中 的 实时 信号 ， 意 在 弥补 对 标准 信号 的 诸多 限制 。 
较 之 于 标准 信号 ， 其 优势 如 下 所 示 。 


。 实时 信号 的 信号 范围 有 所 扩大 ， 可 应 用 于 应 用 程序 自 定 义 的 目的 。 
而 标准 信号 中 可 供应 用 随意 使 用 的 信号 仪 有 两 个 : SIGUSR1 和 
SIGUSR2。 

对 实时 信号 所 采取 的 是 队列 化 管理 。 如 果 将 某 一 实时 信号 的 多 个 实 
例 发 送 给 一 进程 ， 那 么 将 会 多 次 传递 信号 。 相 反 ， 如 果 某 一 标准 信 
号 已 经 在 等 待 某 一 进程 ， 而 此 时 即使 再 次 向 该 进程 发 送 此 信号 的 实 
例 ， 信 和 号 也 只 会 传递 一 次 。 

当 发 送 一 个 实时 信号 时 ， 可 为 信号 指定 伴随 数据 (一 整 型 数 或 者 指 
针 值 ) ， 供 接收 进程 的 信号 处 理 器 获取 。 

不 同 实 时 信号 的 传递 顺序 得 到 保障 。 如 果 有 多 个 不 同 的 实时 信号 处 
于 等 竺 状态， 那么 将 率先 传递 具有 最 小 编号 的 信号 。 换 言 之 ， 信 和 号 
的 编号 越 小 ， 其 优先 级 越 高 。 如 果 是 同一 类 型 的 多 个 信号 在 排队 ， 
R E T 
一 致 。 


SUSv3 要 求 ， 实 现 所 提供 的 各 种 实时 信号 不 得 少 于 
_POSIX_RTSIG_MAX (定义 为 8) 个 。Linux 内 核 则 定义 了 32 个 不 同 的 
实时 信号 ， 编 号 范围 为 32 一 63。<signal.h> 头 文件 所 定义 的 
RTSIG_MAX 常 量 则 表征 实时 信号 的 可 用 数量 ， 而 此 外 所 定义 的 常量 
SIGRTMIN 和 SIGRTMAX 则 分 别 表示 可 用 实时 信号 编写 的 最 小 值 和 最 大 
值 。 















































采用 LinuxThreads 线 程 实现 的 系统 将 SIGRTMIN 定 义 为 
35 (而 非 32) ， 这 是 因为 LinuxThreads 内 部 使 用 了 前 三 个 实 
时 信和 号。 而 采用 NPTL 线 程 实现 的 系统 则 将 SIGRTMIN 和 定义 
为 34， 因 为 NPTL 内 部 使 用 了 前 两 个 实时 信和 号 。 





对 实时 信号 的 区 分 方式 有 别 于 标准 信号 ， 不 再 依赖 于 所 定义 常量 的 
不 同 。 然 而 ， 程 序 员 不 应 将 实时 信号 编号 的 整 型 值 在 应 用 程序 代码 中 写 
死 ， 因 为 实时 信号 的 范围 因 UNIX 实 现 的 不 同 而 各 异 。 与 之 相反 ， 指 代 
实时 信号 编号 则 可 以 采用 SIGRTMIN+x 的 形式 。 例 如 ， 表 达 式 
(SIGRTMIN + 1) HAAN PSE aS 


























注意 ，SUSv3 并 未 要 求 SIGRTMAX 和 SIGRTMIN 是 简单 的 整数 值 。 
可 以 将 其 定义 为 函数 《就 像 Linux 中 那样 ) 。 这 也 意味 着 ， 不 能 编写 如 
下 代码 以 供 预 处 理 器 处 理 : 


#if SIGRTMIN+100 > SIGRTMAX /* WRONG! */ 
#error "Not enough realtime signals” 
#tendif 


相反 ， 必 须 在 运行 时 执行 等 效 检查 。 
对 排队 实时 信号 的 数量 限制 


排队 的 实时 信号 《及 其 相关 数据 ) 需要 内 核 维护 相应 的 数据 结构 ， 
用 于 罗列 每 个 进程 的 排队 信号 。 由 于 这 些 数据 结构 会 消耗 内 核 内 存 ， 故 
而 内 核对 排队 实时 信号 的 数量 设置 了 限制 。 


SUSV3 人 允许 实 现 为 每 个 进程 中 可 排队 的 (各 类 ) 实时 信号 数量 设置 
上 限 ， 并 要 求 其 不 得 少 于 _POSIX_SIGQUEUE_MAX (定义 为 32) 。 实 
现 可 借助 于 对 SIGQUEUE_MAX 常 量 的 定义 来 表示 其 所 允许 的 排队 实时 
信号 数量 。 发 起 如 下 调用 也 能 获得 这 一 信息 : 


lim = sysconf( SC SIGQUEUE MAX); 


二 系统 使 用 的 glibc 库 版 本 在 2.4 之 前 ， 则 该 调用 返回 -1。 从 glibc 2.4 
开始 ， 其 返回 值 由 内 核 版 本 决定 。 在 Linux 2.6.8 之 前 ， 调 用 将 返回 Linux 
ACH poclsysterel si max 中 的 值 。 该 文件 所 定义 为 针对 所 有 进 
程 中 可 能 排队 的 实时 信号 总 数 的 系统 级 限制 。 默认 值 为 1024， 不 过 特权 
级 进程 可 以 对 其 进行 修改 。 人 至 于 当前 的 排队 实时 信号 总 数 ， 可 以 从 
Linux 专 有 的 /proc/sys/kernel/rtsig-nr 文 件 中 读 取 。 


从 版 本 2.6.8 开始 ，Linux 取 消 了 这 些 /proc 文件 。 取 而 代 之 的 是 资源 
限制 RLIMIT_SIGPENDING 〈36.3 节 ) 。 针对 某 个 特定 实际 用 户 ID 下 辖 
的 所 有 进程 ， 该 限制 限定 了 其 可 排队 的 信号 总 数 。sysconfO 调 用 从 
glibc2.10 版 本 开始 返回 RLIMIT_SIGPENDING 限 制 。 (至 于 正在 等 待 某 




















一 进程 的 实时 信号 数量 ， 可 以 从 Linux 专 有 文件 /proc/PID/status 中 的 SigQ 
字段 读 取 。) 


使 用 实时 信号 





为 了 能 让 一 对 进程 收发 实时 信号 ，SUSv3 提 出 以 下 几 点 要 求 。 
。 发 送 进程 使 用 sigqueue0 系 统 调用 来 发 送信 号 及 其 伴随 数据 。 


使 用 kill0、killpg0 和 raiseO 调 用 也 能 发 送 实时 信号 。 然 
而 ， 至 于 系统 是 否 会 对 利用 此 类 接口 所 发 送 的 信号 进行 排 
队 处 理 ，SUSV3 规 定 ， 由 具体 实现 决定 。 这 些 接口 在 Linux 
中 会 对 实时 信号 进行 排队 ， 但 在 其 他 许多 UNIX 实 现 中 ， 情 
况 则 不 然 。 





。 要 为 该 信号 建立 了 一 个 处 理 器 函数 ， 接 收 进 程 应 以 SA_SIGINFO 标 
志 发 起 对 sigactionO) 的 调用 。 因 此 ， 调 用 信号 处 理 器 时 就 会 附带 额 
外 参数 ， 其 中 之 一 是 实时 信号 的 伴随 数据 。 








在 Linux 中 ， 即 使 接收 进程 在 建立 信号 处 理 器 时 并 未 指 
定 SA_SIGINEFO 标 志 ， 也 能 对 实时 信号 进行 队列 化 管理 
《但 在 这 种 情况 下 ， 将 不 可 能 获得 信和 号 的 伴随 数据 ) 。 然 
而 ，SUSv3 也 不 要 求实 现 确保 这 一 行为 ， 所 以 依赖 这 一 点 
将 有 损 于 应 用 的 可 移植 性 。 


22.8.1 发送 实时 信号 


系统 调用 sigqueue0O 将 由 sig 指 定 的 实时 信号 发 送 给 由 pid 指 定 的 进 
程 。 





#define POSIX C SOURCE 199309 
#include <signal.h> 


int sigqueue(pid_t pid, int sig, const union sigval value); 


Returns 0 on success, or -1 on crror 











使 用 sigqueue0O 发 送信 号 所 需要 的 权限 与 kill0 〈 参 见 20.5 节 ) 的 要 求 
一 致 。 也 可 以 发 送 空 信号 〈 即 信号 0) ， 其 语义 与 kill0 中 的 含义 相同 。 
(不 同 于 kil0，sigqueue0 不 能 通过 将 pid 指 定 为 负 值 而 向 整个 进程 组 发 
ise oe.) 





程序 清单 22-2， 使 用 sigqueue() 发 送 实 时 信号 





signals/t_sigqueue.c 
#define POSIX C SOURCE 199309 


#include <signal.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


int sig, numSigs, j, sigData; 
union sigval sv; 


if (argc < 4 || strcmp(argv[1], "--help") == 0) 
usageErr("%s pid sig-num data [num-sigs]\n", argv[0]); 


/* Display our PID and UID, so that they can be compared with the 
corresponding fields of the siginfo_t argument supplied to the 
handler in the receiving process */ 


printf("%s: PID is %ld, UID is %ld\n", argv[o], 
(long) getpid(), (long) getuid()); 


sig = getInt(argv[2], 0, "sig-num"); 
sigData = getInt(argv[3], GN_ANY BASE, "data"); 
numSigs = (argc > 4) ? getInt(argv[4], GN_GT_O, “num-sigs") : 1; 


for (j = 0; j < numSigs; j++) { 
sv.sival_int = sigData + j; 
if (sigqueue(getLong(argv[1], 0, "pid"), sig, sv} == -1) 
errExit("sigqueue %d", j); 
} 


exit(EXIT SUCCESS); 
Signals/t_sigqueue.c 
参数 value 指 定 了 信号 的 伴随 数据 ， 具 有 以 下 形式 : 
union sigval { 


int sival int; /* Integer value for accompanying data */ 
void *sival_ptr; /* Pointer value for accompanying data */ 





iB 


对 该 参数 的 解释 则 取决 于 应 用 程序 ， 由 其 选择 对 联合 体 〈union) 中 
的 sival_int 属 性 还 是 sival_ptr 属 性 进行 设置 。sigqueue() 中 很 少 使 用 
sival_ptr， 因 为 指针 的 作用 范围 在 进程 内 部 ， 对 于 另 一 进程 几乎 没有 意 
义 。 该 字段 得 以 一 展 身手 之 处 ， 应 该 是 在 使 用 sigval 联 合体 的 其 他 函数 
中 ， 诸 如 23.6 节 的 POSIX 计 时 器 和 52.6 节 的 POSIX 消 息 队 列 通 知 。 





包括 Linux 在 内 的 几 个 UNIX 实 现 定 义 了 与 union sigval 
同 义 的 数据 类 型 sigval_t。 然 而 ， 该 类 型 既 未 获得 SUSv3 接 
纳 ， 也 没有 得 到 其 他 实现 的 支持 。 对 可 移植 性 有 所 要 求 的 
应 用 程序 应 当 避 人 免 使 用 。 


一 旦 触及 对 排队 信号 的 数量 限制 ，sigqueue() 调 用 将 会 失败 。 同 时 
将 errno 置 为 EPAGAIN， 以 示 需 要 再 次 发 送 该 信号 《在 当前 队列 中 某 些 信 
号 传递 之 后 的 某 一 时 间 点 ) 。 


程序 清单 22-2 提 供 了 sigqueue0 的 应 用 示例 。 该 程序 最 多 接受 4 个 参 
数 ， 其 中 前 3 项 为 必 填 项 目标 进程 ID、 信 和 号 编号 以 及 伴随 实时 信号 的 
整 型 值 。 如 果 需 要 为 指定 信号 发 送 多 个 实例 ， 那 么 可 以 用 可 选 的 第 4 个 
参数 来 指定 实例 数量 。 在 这 种 情况 下 ， 会 为 每 个 信号 的 伴随 整 型 值 依次 
加 1。22.8.2 节 将 展示 该 程序 的 用 法 。 





























22.8.2 ”处 理 实 时 信和 号 


可 以 像 标准 信号 一 样 ， 使 用 常规 〈 单 参数 ) 信号 处 理 器 来 处 理 实时 
言 号 。 此 外 ， 也 可 以 用 带 有 3 个 参数 的 信号 处 理 器 函数 来 处 理 实时 信 
号 ， 其 建立 则 会 用 到 SA_SIGINFO 标 志 (参见 21.4 节 ) 。 以 下 为 使 用 
SA_SIGINFO 标 志 为 第 六 个 实时 信号 建立 处 理 器 函数 的 代码 示例 : 


struct sigaction act; 








sigemptyset (&act.sa_mask); 
act.sa_sigaction = handler; 
act.sa_ flags = SA RESTART | SA SIGINFO; 


if (sigaction(SIGRTMIN + 5, &act, NULL) == -1) 
errExit("sigaction"); 


一 旦 采用 了 SA_SIGINFO 标 六， 传递 给 信号 处 理 器 函数 的 第 二 个 参 
数 将 是 一 个 siginfo_t 结 构 ， 内 合 实 时 信和 号 的 附加 信息 。21.4 下 详细 措 述 
了 这 一 数据 结构 。 对 于 一 个 实时 信号 而 言 ， 会 在 siginfo_t 结 构 中 设置 如 
下 字段 。 














e si signo 字 段 ， 其 值 与 传递 给 信号 处 理 器 函数 的 第 一 个 参数 相同 。 

e Si_code 字 段 表 示 信 和 号 来 源 ， 内 容 为 表 21-2 中 所 示 各 值 之 一 。 对 于 通 
过 sigqueue0 发 送 的 实时 信号 来 说 ， 该 字段 值 总 是 为 SL_QUEUE。 

e si_value 字 有 段 所 含 数据 ， 由 进程 于 使 用 sigqueue() 发 送信 号 时 在 value 
参数 (sigval union) 中 指定 。 正 如 前 文 指 出 ， 对 该 数据 的 解释 由 应 
oe 〈 知 信 号 由 kill0 发 送 ， 则 si_value 字 段 所 含 信息 无 
效 。) 

e Si_pid 和 si uid 字段 分 别 包 含 信 号 发 送 进程 的 进程 ID 和 实际 用 户 ID。 


程序 清单 22-3 提 供 了 处 理 实 时 信号 的 一 个 例子 。 该 程序 捕获 信号 ， 

并 针对 传递 给 信号 处 理 器 函数 的 siginfo_t 结 构 ， 一 一 显示 其 中 的 各 个 字 
段 值 。 该 程序 可 接收 两 个 整 型 命令 行 参数 ， 均 为 可 选项 。 如 果 提 供 了 第 
一 个 参数 ， 那 么 主 程序 将 阻塞 所 有 信和 号 并 进入 休眠 ， 休 眠 秒 数 由 该 参数 
指定 。 在 此 期 间 ， 将 对 进程 的 实时 信号 进行 排队 处 理 ， 并 可 观 穴 解 除 对 
言 号 阻塞 时 所 发 生 的 情况 。 第 二 个 参数 指定 了 信号 处 理 器 图 数 在 返回 前 
所 应 休眠 的 秒 数 。 指 定 一 个 非 0 值 〈 默 认为 1 秒 ) 将 有 助 于 放 组 程序 的 执 
行 ， 便 于 看 清 处 理 多 个 信号 时 所 发 生 的 情况 。 


可 以 将 程序 清单 22-3 中 程序 与 程序 清单 22-2 中 程序 (t_sigqueue.c) 
结合 起 来 探索 实时 信号 的 行为 ， 正 如 以 下 shell 会 话 日 志 上 所 示 : 


$ ./catch_rtsigs 60 & 

[1] 12842 

$ ./catch rtsigs: PID is 12842 Shell prompt mixed with program output 
./catch_rtsigs: signals blocked - sleeping 60 seconds 
Press Enter to see next shell prompt 

$ ./t_sigqueue 12842 54 100 3 Send signal three limes 
-/t_sigqueue: PID is 12843, UID is 1000 

$ ./t_sigqueue 12842 43 200 

./t_sigqueue: PID is 12844, UID is 1000 

$ ./t_sigqueue 12842 40 300 

-/t_sigqueue: PID is 12845, UID is 1000 




















最 终 ，catch_rtsigs 程 序 结束 休眠 ， 随 着 信号 处 理 器 捕获 到 各 种 信号 
而 一 一 显示 消息 。 (之 所 以 看 到 shell 提 示 符 和 程序 的 下 一 行 输出 混杂 在 
一 起 ， 是 因为 catch_rtsigs 程 序 正在 后 台 输 出 信息 。) 可 以 看 出 ， 实 时 信 
号 在 传递 时 遵循 低 编号 优先 的 原则 ， 并 且 在 传递 给 处 理 器 函数 的 
siginfo_t 结 构 中 包含 了 发 送 进程 的 进程 ID 和 用 户 ID。 





$ ./catch_rtsigs: sleep complete 

caught signal 40 
si_signo=40, si code=-1 (SI QUEUE), si _value=300 
si pid=12845, si_uid=1000 

caught signal 43 
si signo=43, si code=-1 (SI QUEUE), si value=200 
si pid=12844, si uid=1000 


接 下 来 的 输出 由 同一 实时 信号 的 3 个 实例 产生 。 由 si_value 值 可 知 ， 
这 些 信 号 的 传递 顺序 与 发 送 顺序 相同 。 


caught signal 54 
si signo=54, si code=-1 (SI QUEUE), si value=100 
S1_pid=12843, si_uid=1000 

caught signal 54 
si_signo=54, si code=-1 (SI_QUEUE), si_value=101 
si _pid=12843, si_uid=1000 

caught signal 54 
si signo=54, si code=-1 (SI QUEUE), si value=102 
Si_pid=12843, si uid=1000 


继续 使 用 shell 的 k 记 命令 向 程序 catch_rtsigs 发 送信 号 。 一 如 既往 ， 处 
理 器 疯 数 接收 到 的 siginfo_t 结 构 中 包含 了 发 送 进程 的 进程 ID 和 用 户 ID， 
但 此 时 的 si_code 值 为 SL_USER。 


Press Enter to see next shell prompt 


$ echo $$ Display PID of shell 
12780 
$ kill -40 12842 Uses kill(2) to send a signal 


$ caught signal 40 
si_signo=40, si_code=0 (SI_USER), si value=0 


si pid=12780, si_uid=1000 PID is that of the shell 
Press Enter to see next shell prompt 
$ kill 12842 Kull catch_rtsigs by sending SIGTERM 


Caught 6 signals 
Press Enter to see notification from shell about terminated background job 
[1]+ Done ./catch_rtsigs 60 


























程序 清单 22-3: 处 理 实时 信号 




















ss signals/catch rtsigs.c 
#define _GNU_SOURCE 

#include <string.h> 

#include <signal.h> 

#include "tlpi_hdr.h" 


static volatile int handlerSleepTime; 
static volatile int sigCnt = 0; /* Number of signals received */ 


static volatile int allDone = 0; 


static void /* Handler for signals established using SA SIGINFO */ 
siginfoHandler(int sig, siginfo t *si, void *ucontext) 


/* UNSAFE: This handler uses non-async-signal-safe functions 
(printf()); see Section 21.1.2) */ 


/* SIGINT or SIGTERM can be used to terminate program */ 


if (sig == SIGINT || sig == SIGTERM) { 


allDone = 1; 
return; 

} 

sigCnt++; 


printf("caught signal %d\n", sig); 


printf(" si_signo=%d, si code=%d (%s), ", si->si_signo, si->si_code, 
(si->si code == SI USER) ? "SI_USER" : 
(si->si_code == SI QUEUE) ? "SI QUEUE" : "other"); 

printf("si value=%d\n", si->si_value.sival_int); 

printf(" si_pid=%ld, si_uid=%ld\n", (long) si->si pid, (long) si->si uid); 


sleep(handlerSleepTime) ; 


int 
main(int argc, char *argv[]) 


struct sigaction sa; 
int sig; 
sigset_t prevMask, blockMask; 


if (argc > 1 && strcmp(argv[1], "--help") == 0) 
usageErr("%s [block-time [handler-sleep-time]]\n", argv[0]); 


printf("%s: PID is %ld\n", argv[0], (long) getpid()); 


handlerSleepTime = (argc > 2) ? 
getInt(argv[2], GN_NONNEG, "handler-sleep-time") : 1; 


/* Establish handler for most signals. During execution of the handler, 
mask all other signals to prevent handlers recursively interrupting 
each other (which would make the output hard to read). */ 


sa.sa_Sigaction = siginfoHandler; 
sa.sa_flags = SA SIGINFO; 
sigfillset(&sa.sa_mask); 


for (sig = 1; sig < NSIG; sig++) 
if (sig != SIGTSTP && sig != SIGQUIT) 
sigaction(sig, &sa, NULL); 


/* Optionally block signals and sleep, allowing signals to be 
sent to us before they are unblocked and handled */ 


if (argc > 1) { 
sigfillset(&blockMask) ; 
sigdelset(&blockMask, SIGINT); 
sigdelset(&blockMask, SIGTERM) ; 


if (sigprocmask(SIG_SETMASK, &blockMask, &prevMask) == -1) 
errExit("sigprocmask"); 


printf("%s: signals blocked - sleeping %s seconds\n", argv[0], argv[1]); 
sleep(getInt(argv[1], GN CT 0, "block-time")); 
printf("%s: sleep complete\n", argv[0]); 


if (sigprocmask(SIG_SETMASK, &prevMask, NULL) == -1) 
errExit("sigprocmask"); 


} 


while (!allDone) /* Wait for incoming signals */ 
pause(); 


signals/catch_rtsigs.c 


22.9 ”使 用 捧 码 来 等 竺 信号 : sigsuspend() 


在 解释 sigsuspend() 的 功用 之 前 ， 先 介绍 一 下 它 的 一 种 使 用 场景 。 在 
对 信号 编程 时 偶尔 会 遇 到 如 下 情况 。 


.临时 阻塞 一 个 信号 ， 以 防止 其 信号 处 理 器 不 会 将 茶 些 关键 代码 
片段 的 执行 中 类 。 


2. 解除 对 信号 的 阻塞 ， 然 后 暂 俘 执行 ， 直 全 有 信和 号 到 达 。 
为 达到 这 一 目的 ， 可 能 会 尝试 使 用 程序 消 单 22-4 中 代码 所 示 方 法 。 


程序 清单 22-4: 解除 阻塞 并 等 待 信号 的 错误 做 法 



























































sigset_t prevMask, intMask; 
struct sigaction sa; 


sigemptyset (&intMask) ; 
sigaddset (&intMask, SIGINT); 


sigemptyset(&sa.sa_mask); 
sa.Sa flags = 0; 
sa.Ssa_handler = handler; 


if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction") ; 


/* Block SIGINT prior to executing critical section. (At this 
point we assume that SIGINT is not already blocked.) */ 


if (sigprocmask(SIG BLOCK, &intMask, &prevMask) == -1) 
errExit("sigprocmask - SIG BLOCK"); 


/* Critical section: do some work here that must not be 
interrupted by the SIGINT handler */ 


/* End of critical section - restore old mask to unblock SIGINT */ 


if (sigprocmask(SIG SETMASK, &prevMask, NULL) == -1) 
errExit("sigprocmask - SIG_SETMASK"); 


/* BUG: what if SIGINT arrives now... */ 


pause(); /* Wait for SIGINT */ 





程序 清单 22-4 中 代码 存在 一 个 问题 。 假 设 SIGINT 信 号 的 传递 发 生 在 
第 二 次 调用 sigprocmask(0 之 后 ， 调 用 pause(0) 之 前 。“《 实 际 上 ， 该 信号 可 
能 产生 于 执行 关键 片段 期 间 的 任 一 时 刻 ， 仅 当 解 除 对 信号 的 阻塞 后 才 会 
随 之 而 传递 。) SIGINT 信 号 的 传递 将 导致 对 处 理 器 函数 的 调用 ， 而 当 
处 理 器 返回 后 ， 主 程序 恢复 执行 ，pause0 调 用 将 陷入 阻塞， 直到 
SIGINT 信 号 的 第 二 个 实例 到 达 为 止 。 这 有 违 代 码 的 本 意 : 解除 对 
SIGINT 阻 罕 并 等 待 其 第 一 次 出 现 。 


即使 在 关键 片段 的 起 始点 〈( 即 首次 调用 sigprocmask())〉 和 pauseO 调 
用 之 间 产 生 SIGINT 信 号 的 可 能 性 不 大 ， 但 这 确实 是 上 述 代码 的 一 处 缺 
陷 。 这 种 取决 于 时 间 的 缺陷 是 竞 态 条 件 〈5.1 节 ) 的 例子 之 一 。 通 种， 
竞 态 条 件 发 生 于 两 个 进程 或 线程 共享 资源 时 。 然 而 ， 此 处 的 竞 态 条 件 却 
发 生 在 主 程序 和 其 自身 的 信号 处 理 器 之 间 。 


要 避免 这 一 问题 ， 需 要 将 解除 信号 阻塞 和 挂 起 进程 这 两 个 动作 封装 
成 一 个 原子 操作 。 这 正 是 sigsuspend() 系 统 调用 的 目的 所 在 。 











#include <signal.h> 


int sigsuspend(const sigset_t *mask); 


(Normally) returns -1 with errno set to EINTR 











sigsuspend() 系 统 调用 将 以 mask 所 指 问 的 信号 集 来 玲 换 进程 的 信号 掩 
人 码 ， 然 后 挂 起 进程 的 执行 ， 直 到 其 捕获 到 信号 ， 并 从 信号 处 理 器 中 返 
回 。 一 旦 处 理 器 返回 ，sigsuspend() 会 将 进程 信号 掩 码 恢 复 为 调用 前 的 
值 。 


调用 sigsuspend0， 相 当 于 以 不 可 中 断 方式 执行 如 下 操作 : 











sigprocmask(SIG_SETMASK, &mask, &prevMask) ; /* Assign new mask */ 
pause(); 
sigprocmask(SIG_SETMASK, &prevMask, NULL); /* Restore old mask */ 
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非 是 在 sigsuspendO 调 用 期 间 ， 人 否则 信号 必须 保持 阻塞 状态 。 如 果 稍 后 需 
要 对 在 调用 sigsuspend0 之 前 遭 到 阻塞 的 信号 解除 阻塞 ， 可 以 进一步 调用 
sigprocmask(). 





藻 SsigsuspendO 因 信和 号 的 传递 而 中 断 ， 则 将 返回 -1， 并 将 errno 置 为 
EINTR。 如 果 mask 指 回 的 地 址 无 效 ， 则 sigsuspendO0 调 用 失败 ， 并 将 
errno 置 为 EFAULT。 


示例 程序 
程序 清单 22-5 展 示 了 对 sigsuspend0) 的 使 用 。 该 程序 执行 如 下 步骤 。 
函数 《程序 清单 20-4) 来 显示 进程 信号 掩 码 的 初 
始 人 


阻塞 SIGINT 和 SIGQUIT 信 和 号， 并 保存 原始 的 进程 信号 捧 码 。 
为 SIGINT 和 SIGQUIT 信 号 建立 相同 的 处 理 器 函数 。 该 处 理 器 显示 
一 条 消息 ， 且 知 对 其 调用 因 SIGQUIT 信 号 的 传递 而 引起 ， 则 设置 全 
局 变量 gotSigquit。 
OAN 直至 对 gotSigquit 进 行 了 设置 。 每 次 循环 都 执行 如 下 步 
又 

o 使 用 printSigMask() 函 数 显 示 信 和 号 掩 码 的 当前 值 。 

o 令 CPU 忙 于 循环 并 持续 数秒 钟 ， 以 此 来 模拟 对 一 个 关键 片段 的 




















执行 。 
o 使 用 printPendingSigs() 函 数 来 显示 等 待 信号 的 掩 码 ( 程 序 清单 
20-4) 。 


o 使 用 sigsuspend0 来 解 除 对 SIGINT 和 SIGQUIT 信 号 的 阻塞 ， 并 
等 待 信号 〈 如 果 尚 未 有 信和 号 处 于 等 待 状态 ) 
使 用 sigprocmask() 将 进程 信 号 手 码 恢复 为 原 始 状态 ， 然后 再 使 用 
printSigMask0 来 显示 信号 掩 码 。 




















程序 清单 22-5: 使 用 sigsuspend() 


signals/t_sigsuspend.c 

#define _GNU_SOURCE /* Get strsignal() declaration from <string.h> */ 
#include <string.h> 
#include <signal.h> 
#include <time.h> 
#include “signal_functions.h" /* Declarations of printSigMask() 

and printPendingSigs() */ 
#include "tlpi hdr.h" 


static volatile sig atomic_t gotSigquit = 0; 


static void 
handler(int sig) 


printf("Caught signal %d (%s)\n", sig, strsignal({sig)); 
/* UNSAFE (see Section 21.1.2) */ 
if (sig == SIGOUIT) 
gotSigquit = 1; 
} 


int 
main(int argc, char *argv[]) 


int loopNum; 

time t startTime; 

sigset t origMask, blockMask; 
struct sigaction sa; 


printSigMask(stdout, "Initial signal mask is:\n"); 


sigemptyset(&blockMask); 

sigaddset (&blockMask, SIGINT); 

sigaddset(&blockMask, SIGQUIT); 

if (sigprocmask(SIG BLOCK, &blockMask, &origMask) == -1) 
errExit("sigprocmask - SIG BLOCK"); 


sigemptyset(&sa.sa_mask) ; 
sa.sa flags = 0; 
sa.sa_handler = handler; 


© if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction’) ; 

if (sigaction(SIGQUIT, &sa, NULL) == -1) 
errExit("sigaction") ; 


D for (loopNum = 1; !gotSigquit; loopNum++) { 
printf("=== LOOP %d\n", loopNum) ; 


/* Simulate a critical section by delaying a few seconds */ 
printSigMask({stdout, "Starting critical section, signal mask is:\n"); 
for (startTime = time(NULL); time(NULL) < startTime + 4; ) 

continue; /* Run for a few seconds elapsed time */ 
printPendingSigs(stdout, 

"Before sigsuspend() - pending signals:\n"); 

if (sigsuspend(&origMask) == -1 && errno != EINTR) 

errExit ("sigsuspend"); 


} 


© if (sigprocmask(SIG SETMASK, &origMask, NULL} == -1) 
errExit("sigprocmask - SIG SETMASK"); 


© printSigMask(stdout, "=== Exited loop\nRestored signal mask to:\n"); 
/* Do other processing... */ 


exit (EXIT SUCCESS); 


signals/t_sigsuspend.c 


以 下 shell 会 话 日 志 所 示 为 程序 清单 22-5 中 程序 的 运行 结果 示例 : 


$ ./t_sigsuspend 
Initial signal mask is: 
<empty signal set> 





=== LOOP 1 
Starting critical section, signal mask is: 
2 (Interrupt) 
3 (Quit) 
Type ControL-C; SIGINT is generated, but remains pending because it is blocked 
Before sigsuspend() - pending signals: 
2 (Interrupt) 
Caught signal 2 (Interrupt) sigsuspend() is called, signals are unblocked 





程序 ips ep nee ee 还 显示 了 最 后 
一 行 输出 。 正 是 在 那 一 点 ， 调 用 了 信号 处 理 器 ， 并 显示 了 那 一 行 输 出 。 


=== LOOP 2 
Starting critical section, signal mask is: 
2 (Interrupt) 
3 (Quit) 
Type Control-\ to generate SIGQUIT 
Before sigsuspend() - pending signals: 
3 (Quit) 
Caught signal 3 (Quit) sigsuspend() is called, signals are unblocked 
=== Exited loop Signal handler set gotSigquit 
Restored signal mask to: 
<empty signal set> 


此 时 按 下 Control\， 将 导致 信号 处 理 器 去 设置 gotSigquit 标 志 ， 并 转 
而 引发 主 程序 终止 循环 。 








22.10 ”以 同步 方式 等 竺 信和 号 


22.9 节 描述 了 如 何 结合 信号 处 理 右 和 sigsuspend() 来 挂 起 一 个 进程 的 
执行 ， 直 至 传 来 一 个 信号 。 然 而 ， 这 需要 编写 信号 处 理 器 函数 ， 还 需要 
应 对 信号 异步 传递 所 融 来 的 复杂 性 。 对 于 某 些 应 用 而 言 ， 这 种 方法 过 于 
繁复 。 作 为 奉 代 方案 ， 可 以 利用 sigwaitinfo0 系 统 调用 来 同步 接收 信号。 














#define POSIX C SOURCE 199309 
#include <signal.h> 


int sigwaitinfo(const sigset_t *set, siginfo_t *info); 


Returns number of delivered signal on success, or -1 on error 














sigwaitinfo() 系 统 调用 挂 起 进程 的 执行 ， 直 人 至 set 指 癌 信 号 集中 的 某 
一 信号 抵达 。 如 果 调 用 sigwaitinfo() 时 ，set 中 的 菜 一 信号 已 经 处 于 等 待 
状态 ， 那 么 sigwaitinfo() 将 立即 返回 。 传 递 来 的 信号 就 此 从 进程 的 等 待 信 
号 队列 中 移 除 ， 并 且 将 返回 信号 编号 作为 函数 结果 。info 参 数 如 果 不 为 
空 ， 则 会 指 疝 经 过 初始 化 处 理 的 Siginfo_t 结 构 ， 其 中 所 含 信 息 与 提供 给 
言 号 处 理 器 函数 的 siginfo_t 参 数 (21.447) 相同 。 


sigwaitinfo0 所 接受 信号 的 传递 顺序 和 排队 特性 与 信号 处 理 器 所 捕获 
的 信号 相同 ， 融 是 说 ， 不 对 标准 信号 进行 排队 处 理 ， 对 实时 信号 进行 排 
队 处 理 ， 并 且 对 实时 信和 号 的 传递 遭 循 低 编号 优先 的 原则 。 


除了 逢 去 编写 信号 处 理 器 的 负担 之 外 ， 使 用 sigwaitinfo() 来 等 待 信号 
也 要 比 信 号 处 理 器 外 加 sigsuspend0 的 组 合 要 稍 快 一 些 〈 见 练习 22-3) 。 


将 对 set 中 信号 集 的 阻塞 与 调用 sigwaitinfoO) 结 合 起 来 ， 这 当 属 明知 
之 举 。【〔 即 便 某 一 信号 遭 到 阻 寨 ,仍然 可 以 使 用 sigwaitinfoO) 来 获取 等 待 
信号 。) 如 果 没 有 这 么 做 ， 而 信号 在 首次 调用 sigwaitinfo0 之 前 ， 或 者 两 
| 到 达 ， 那 么 对 信号 的 处 理 将 只 能 依照 其 当前 
处 置 。 


SUSv3 规 定 ， 调 用 sigwaitinfo0 而 不 阻塞 set 中 的 信号 将 导致 不 可 预知 
的 行为 《其 行为 未 定义 ) 。 


程序 清单 22-6 所 示 为 使 用 sigwaitinfo() 的 例子 之 一 。 程 序 首先 阻塞 所 




















有 信和 号， 然后 延迟 数秒 时 间 ， 有 具体 秒 数 由 可 选 命令 行 参数 来 指定 ， 从 而 
允许 在 调用 sigwaitinfo0 之 前 向 程序 发 送信 号 。 程 序 随即 持续 循环 调用 
sigwaitinfo() 来 接收 输入 信号 ， 直至 收 到 SIGINT 或 5IGTERM 信 号 


如 下 shell 会 话 日 志 展示 了 程序 清单 22-6 中 程序 的 运行 情况 。 程 序 在 
台 运 行 ， 并 指定 在 执行 sigwaitinfo0 前 需 延 迟 60 秒 ， 随 后 再 向 进程 发 送 
两 个 信号 ， 
$ ./t_sigwaitinfo 60 & 
./t_sigwaitinfo: PID is 3837 


./t_sigwaitinfo: signals blocked 
./t_sigwaitinfo: about to delay 60 seconds 











[1] 3837 

$ ./t_sigqueue 3837 43 100 Send signal 43 
./t_sigqueue: PID is 3839, UID is 1000 

$ ./t_sigqueue 3837 42 200 Send signal 42 


./t_sigqueue: PID is 3840, UID is 1000 


最 终 ， 程 序 完 成 睡眠 ， sigwaitinfoQ Va FAPESP RHENE 5 (HF 
t_sigwaitinfo 程 序 正 在 后 台 输 出 信息 ， 故而 可 以 观察 到 shel 提 示 符 和 程序 
的 下 一 行 输出 混杂 在 一 起 。) 人 至 于 处 理 器 所 捕获 到 的 实时 信号 ， 可 以 看 
出 ， 编 号 低 的 信号 率先 传递 ， 而 且 ， 借 助 于 传递 给 信号 处 理 器 疯 数 的 
siginfo_t 结 构 ， 还 可 以 获得 发 送 进 程 的 进程 ID 和 用 户 ID。 


$ ./t_sigwaitinfo: finished delay 

got signal: 42 
si_signo=42, si_code=-1 (SI QUEUE), si_value=200 
si pid=3840, si _uid=1000 

got signal: 43 
si_signo=43, si_code=-1 (SI QUEUE), si_value=100 
si pid=3839, si uid=1000 


继续 使 用 shell 的 k 记 ll 命令 同 进 程 发 送信 号 。 可 以 观察 到 ， 这 次 将 
si code Yf ESI USER ( 而 非 SU QUEUE” 








Press Enter to see next shell prompt 


$ echo $$ Display PID of shell 
3744 
$ kill -USR1 3837 Shell sends SIGUSR1 using Rill) 
$ got signal: 10 Delivery of SIGUSR1 
si_signo=10, si_code=0 (SI_USER), si_value=100 
si_pid=3744, si uid=1000 3744 is PID of shell 
Press Enter to see next shell prompt 
$ kill %1 Terminale program with SIGTERM 
$ 
Press Enter to see notification of background job termination 
[1]+ Done ./t_sigwaitinfo 60 


收 到 SIGUSR1 信 号 ， 由 其 输出 可 知 ，si_value 字 段 值 为 100。 该 值 是 
由 sigqueue() 发 送 的 前 一 信号 初始 化 而 成 。 前 文 曾 指出 ， 仪 对 由 
sigqueue(O 所 发 送 的 信号 ，si_value 字 段 所 包含 的 信息 才 是 可 靠 的 。 

















程序 清单 22-6: 使 用 sigwaitinfo0) 来 同步 等 待 信和 号 





signals/t_sigwaitinfo.c 
#define GNU SOURCE 
#include <string.h> 
#include <signal.h> 
#include <time.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


int sig; 
siginfo t si; 
sigset_t allSigs; 


if (argc > 1 && strcmp{argv[1], "--help") == 0) 
usageErr("%s [delay-secs]\n", argv[0]); 


printf("%s: PID is %ld\n", argv[0], (long) getpid()); 
/* Block all signals (except SIGKILL and SIGSTOP) */ 


sigfillset(&allSigs); 

if (sigprocmask(SIG SETMASK, &allSigs, NULL) == -1) 
errExit("sigprocmask"); 

printf("%s: signals blocked\n", argv[0]); 


if (argc > 1) { /* Delay so that signals can be sent to us */ 
printf("%s: about to delay %s seconds\n", argv[o], argv[1]); 
sleep(getInt(argv[1], GN GT_0, "delay-secs")); 
printf("%s: finished delay\n", argv[0]); 

} 


for (;;) { /* Fetch signals until SIGINT (^C} or SIGTERM */ 
sig = sigwaitinfo(&allSigs, &si); 
if (sig == -1) 
errExit("sigwaitinfo"); 


if (sig == SIGINT || sig == SIGTERM) 
exit(EXIT SUCCESS); 


printf("got signal: %d (%s)\n", sig, strsignal(sig)); 
printf(" si signo=%d, si code=%d (%s), si_value=%d\n", 
si.si signo, si.si_code, 
(si.si_code == ST USER) ? "SI_USER" : 
(si.si code == SI QUEUE) ? "SI QUEUE" : "other", 
si.si value.sival int); 
printf(" si_pid=4ld, si_uid=4ld\n", 
(long) si.si_pid, (long) si.si_uid); 


signals/t_sigwaitinfo.c 


sigtimedwait() 系 统 调用 是 sigwaitinfo() 调 用 的 变 体 。 唯 一 的 区 别 是 
sigtimedwait() 人 允许 指定 等 待 时 限 。 





#define POSIX C SOURCE 199309 
#include <signal.h> 


int sigtimedwait(const sigset_t *sel, siginfo_t *info, 
const struct timespec *timeout); 


Returns number of delivered signal on success, 
or -1 on error or timeout (EAGAIN) 














timeout 参 数 指定 了 人 允许 sigtimedwait() 等 待 一 个 信号 的 最 大 时 长 ， 是 
指 问 如 下 类 型 结构 的 一 枚 指针 : 


struct timespec { 
time t tv_sec; /* Seconds ('time t' is an integer type) */ 
long tv_nsec; /* Nanoseconds */ 


JAS timespecZaW rere, tate SI Fsigtimedwait()) 44? 
的 最 大 秒 数 和 纳 秒 数 。 如 果 将 这 两 个 字段 均 指定 为 0， 那 么 函数 将 立刻 
超时 ， 就 是 说 ， 会 去 轮 询 检查 是 否 有 指定 信号 集中 的 任 一 信号 处 于 等 符 
状态 。 包 如 果 调 用 超时 而 又 没有 收 到 信号 ，sigtimedwaitO 将 调用 失败 ， 
并 将 errno 置 为 EAGAIN。 




















如 果 将 timeout 参 数 指定 为 NULL， 那 么 sigtimedwait() 将 完全 等 同 于 
sigwaitinfo()。SUSv3 对 于 timeout 的 NULL 值 食 义 也 语 看 不详， 而 某 些 
UNIX 实 现 则 将 该 值 视 为 轮 询 请 求 并 立即 将 其 返回 。 





22.11 通过 文件 描述 符 来 获取 信和 号 


始 于 内 核 2.6.22，Linux 提 供 了 【〔 非 标准 的 ) signalfd() 系 统 调用 ; 利 
用 该 调用 可 以 创建 一 个 特殊 文件 描述 符 ， 发 往 调 用 者 的 信号 都 可 从 该 擂 
a o signalfd 机 制 为 同步 接受 信号 提供 了 sigwaitinfo() 之 外 的 男 
= j a 








#include <sys/signalfd.h> 


int signalfd(int fd, const sigset_t *mask, int flags); 








Returns [ile descriptor on success, or -1 on error 








mask 参 数 是 一 个 信号 集 ， 指 定 了 有 意 通 过 signalfd 文 件 摘 述 符 来 读 
取 的 信和 号。 如同 sigwaitinfo() 一 样 ， 通 常 也 应 该 使 用 sigprocmask() 阻 塞 
mask 中 的 所 有 信号 ， 以 确保 在 有 机 会 读 取 这 些 信号 之 前 ， 不 会 按照 默认 
处 置 对 它们 进行 处 理 。 


如 果 指 定 fd 为 -1， 那 么 signalfdO 会 创建 一 个 新 的 文件 描述 符 ， 用 于 
读 取 mask 中 的 信号 ; 否则， 将 修改 与 fd 相关 的 mask 值 ， 且 该 fd 一 定 是 由 
之 前 对 signalfd() 的 一 次 调用 创建 而 成 。 


早期 实现 将 flag 参 数 保留 下 来 供 将 来 使 用 ， 且 必须 将 其 指定 为 0。 然 
而 ，Linux 从 版 本 2.6.27 开 始 支 持 下 面 两 个 标志 。 


SFD_CLOEXEC 

为 新 的 文件 描述 符 设置 dlose-on-exec (FD_CLOEXEC) 标志 。 该 标 
志 之 所 以 必要 ， 与 4.3.1 节 中 描述 的 open0O_CLOEXEC 标 志 的 设置 理由 
相 [E] o 


SFD_NONBLOCK 


为 底层 的 打开 文件 描述 设置 O_NONBLOCK 标 志 ， 以 确保 不 会 阻塞 
未 来 的 读 操作 。 既 省 去 了 一 个 额外 的 fcnt1l0 调 用 ， 又 获得 了 相同 的 结 
果 。 





创建 文件 描述 符 之 后 ， 可 以 使 用 read0 调 用 从 中 读 取 信号 。 提 供给 


read() 的 缓冲 区 必须 足够 大 ， 人 至 少 应 能 够 容纳 一 个 signalfd_siginfo 结 构 。 
<sys/signalfd.h> 文 件 定 义 了 该 结构 ， 如 下 所 示 : 


struct signalfd siginfo { 


uint32 t 
int32 t 

int32 tt 

uint32_t 
uint32_ t 
Int32 t 

uint32_t 
uint32 t 
uint32_t 
uint32 t 
uint32 t 
int32_t 

int32 t 

uint64 t 
uint64 t 
uint64_t 
uint64_t 


fe 


ssi signo; 
ssi errno; 
ssi code; 
ssi pid; 
ssi uid; 
ssi fd; 

ssi tid; 
ssi band; 
ssi tid; 
ssi overrun; 
ssi trapno; 
ssi status; 
ssi int; 
ssi ptr; 
ssi_utime; 
ssi stime; 
ssi addr; 


/* 
/* 


Signal number */ 

Error number (generally unused) */ 
Signal code */ 

Process ID of sending process */ 
Real user ID of sender */ 

File descriptor (SIGPOLL/SIGIO) */ 
Kernel timer ID (POSIX timers) */ 
Band event (SIGPOLL/SIGIO) */ 
(Kernel-internal) timer ID (POSIX timers) */ 
Overrun count (POSIX timers) */ 

Trap number */ 

Exit status or signal (SIGCHLD) */ 
Integer sent by sigqueue() */ 
Pointer sent by sigqueue() */ 

User CPU time (SIGCHLD) */ 

System CPU time (SIGCHLD) */ 

Address that generated signal 
(hardware-generated signals only) */ 


该 结构 中 字段 所 返回 的 信息 与 传统 siginfo_t 结 构 (21.4475) 中 类 似 


命名 的 字段 信息 相同 。 





read() 每 次 调用 都 将 返回 与 等 待 信号 数 日 相等 的 signalfd_siginfo 结 
构 ， 并 填充 到 已 提供 的 缓冲 区 中 。 如 果 调 用 时 并 无 信号 正在 等 待 ， 那 么 
read() 将 阻塞 ， 直 到 有 信号 到 达 。 也 可 以 使 用 fcnt10 的 F_SETFL 操 作 (5.3 
W 来 为 文件 描述 符 设 置 O_NONBLOCK 标 志 ， 使 得 读 操 作 不 再 阻塞 ， 


AAT 


> 








EEE 





等 待 ， 则 调用 失败 ，errno 为 EAGAIN。 


当 从 signalfd 文 件 描述 符 中 读 取 到 一 信号 时 ， 该 信号 获得 接纳 ， 且 


不 再 为 该 进程 而 等 待 。 
































程序 清单 22-7: 使 











jsignalfd() 来 读 取信 号 


signals/signalfd_sigval.c 
#include <sys/signalfd.h> 
#include <signal.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


sigset_t mask; 

int sfd, j; 

struct signalfd siginfo fdsi; 
ssize t s; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s sig-num...\n", argv[0]); 


printf("%s: PID = %ld\n", argv[0], (long) getpid()); 


sigemptyset (&mask); 
for (j = 1; j < argc; j++) 
sigaddset(&mask, atoi(argv[j])); 


if (sigprocmask(SIG BLOCK, &mask, NULL) == -1) 
errExit("sigprocmask") ; 


sfd = signalfd(-1, &mask, 0); 
if (sfd == -1) 
errExit("signalfd"); 


for (53) { 
s = read(sfd, &fdsi, sizeof(struct signalfd siginfo)); 
if (s != sizeof(struct signalfd_siginfo)) 
errExit(" read"); 


printf("%s: got signal %d", argv[0], fdsi.ssi_signo); 
if (fdsi.ssi_code == SI QUEUE) { 


printf("; ssi pid = %d; ", fdsi.ssi_pid); 
printf("ssi int = %d", fdsi.ssi int); 


} 
printf("\n"); 


signals/signalfd_sigval.c 


select()、poll() 和 epoll (参见 第 63 章 ) 可 以 将 signalfd 描 述 符 和 其 他 
描述 符 混合 起 来 进行 监控 。 撒 开 其 他 用 途 不 提 ， 该 特性 可 成 为 63.5.2 节 
所 述 self-pipe 技 巧 之 外 的 另 一 选择 。 如 果 有 信号 正在 等 待 ， 那 么 这 些 技 
术 将 文件 描述 符 指示 为 可 读 取 。 


”” 当 不 再 需要 signalfd 文 件 描述 符 时 ， 应 当 关 闭 signalfd 以 释放 相关 内 
核资 源 。 


程序 清单 22-7 展 示 了 signalfd() 的 用 法 。 程 序 为 在 命令 行 参数 中 指定 
的 信号 创建 掩 码 ， 阻 塞 这 些 信 号 ， 然 后 创建 用 来 恋 取 这 些 信 号 的 
signalfd 文 件 描述 符 ， <TR ANAA ERRET HES 号 ， 并 显示 返 
回 的 signalfd_siginfo 结 构 中 的 部 分 信息 。 如 下 shell 会 话 在 后 台 运 行 了 程 
序 清单 22-7 中 程序 ， 并 使 用 程序 清单 22- 2 中 程序 (t_sigqueue.c) 问 该 进 
程 发 送 实 时 信号 及 伴随 数据 : 


$ ./signalfd_sigval 44 & 

./signalfd sigval: PID = 6267 

[1] 6267 

$ ./t_sigqueue 6267 44 123 Send signal 14 with data 123 to PID 6267 
./t_sigqueue: PID is 6269, UID is 1000 

./signalfd_sigval: got signal 44; ssi pid=6269; ssi_int=123 

$ kill %1 Kill program running in background 











22.12 利用 信号 进行 进程 间 通 信 


从 未 种 角度 ， 可 将 信号 视 为 进程 间 通 信 CIPC) 的 方式 之 一 。 然 
而 ， 信 号 作为 一 种 IPC 机 制 却 也 饱 受 限 制 。 首 先 ， 与 后 续 各 草 描 述 的 其 
他 了 PC 方法 相 比 ， 对 信号 编程 既 索 且 难 ， 有 具体 原因 如 下 。 


。 信号 的 异步 本 质 就 意味 着 需要 面 对 各 种 问题 ， 包 括 可 重 入 性 需求 、 
竞 态 条 件 及 在 信号 处 理 嚣 中 正确 处 理 全 局 变量 。 (如 果 用 
sigwaitinfo() 或 者 signalfd() 来 同步 获取 信号 ， 这 些 问 题 中 的 大 部 分 都 
不 会 遇 到 。) 

没有 对 标准 信号 进行 排队 处 理 。 即 使 是 对 于 实时 信号 ， 也 存在 对 信 
号 排队 数量 的 限制 。 这 意味 着 ， 为 了 避免 丢失 信息 ， 接 收 信 和 号 的 进 
程 必须 想方设法 通知 发 送 者 ， 上 自己 为 接受 另 一 个 信号 做 好 了 准备 。 
要 做 到 这 一 点 ， 最 显而易见 的 方法 是 由 接收 者 同 发 送 者 发 送信 和 号。 


还 有 一 个 更 深层 次 的 问题 ， 信 和 号 所 携带 的 信息 量 有 限 : 信号 编号 以 
及 实时 信号 情况 下 一 字 之 长 的 附加 数据 (一 个 整数 或 者 一 枚 指针 值 〉。 
与 诸如 管道 之 类 的 其 他 IPC 方 法 相 比 ， 过 低 的 融 宽 使 得 信号 传输 极为 组 


Ie. 




















由 于 上 述 种 种 限制 ， 很 少将 信号 用 于 IPC。 


22.13 ”早期 的 信号 API (System V 和 了 BSD ) 


之 前 对 信号 的 讨论 一 直 着 眼 于 POSIX 信 号 API。 本 节 将 简要 回顾 一 
下 System V 和 BSD 提 供 的 历史 API。 虽 然 所 有 的 新 应 用 程序 都 应 当 使 用 
POSIX API， 但 是 在 从 其 他 UNIX 实 现 移 植 〈 通 常 较 为 老 迈 的 ) 应 用 
时 ， 可 能 还 是 会 磁 到 这 些 过 时 的 API。 当 移植 这 些 使 用 老 旧 API 的 程序 
时 ， 因 为 Linux( 像 许多 其 他 UNIX 实 现 一 样 ) 提供 了 与 System V 和 BSD 
兼容 的 API， 所 以 通常 所 要 做 的 全 部 工作 不 过 是 在 Linux 平 台 上 重新 进行 
编译 而 已 。 


System V 信 号 API 


如 前 所 述 ，System V 中 的 信号 API 存 在 一 个 重要 差异 : 当 使 用 
signal0 建 亡 处理 器 函数 时 ， 得 到 的 是 老 版 、 不 可 靠 的 信号 语义 。 这 意味 
着 不 会 将 信号 添加 到 进程 的 信号 捧 码 中 ， 调 用 信和 号 处 理 器 时 会 将 信号 处 
置 重 置 为 默认 行为 ， 以 及 不 会 上 自动 重 局 系统 调用 。 


下 面 ， 简 单 介绍 一 些 System V 信 号 API 中 的 函数 。 手 册页 提供 有 全 
部 的 细节 。SUSv3 定 义 了 所 有 这 些 函 数 ， 但 指出 应 优先 使 用 现代 版 的 
POSIX 等 价 函数 。SUSv4 将 这 些 函 数 标记 为 已 废止 。 




















#define XOPEN SOURCE 500 
#include <signal.h> 


void (*sigset(int sig, void (*handler)(int))) (int); 


On success: returns the previous disposition of sig, or SIG_HOLD 
if sig was previously blocked; on error -1 is returned 











为 了 建立 一 个 具有 可 靠 语 义 的 信号 处 理 器 ，System V 提 供 了 sigset() 
调用 《原型 类 似 于 signal0) 。 与 signal() 一 样 ， 可 以 将 sigset() 的 handler 参 
数 指 定 为 SIG_IGN、SIG_DFL 或 者 信号 处 理 器 函数 的 地 址 。 此 外 ， 还 可 
以 将 其 指定 为 SIG_HOLD， 在 将 信号 添加 到 进程 信号 掩 码 的 同时 保持 信 
号 处 置 不 变 。 


如 果 指 定 handler 参 数 为 SIG_HOLD 之 外 的 其 他 值 ， 那 么 会 将 sig 从 进 
程 信号 捧 码 中 移 除 ( 即 ， 如 果 sig 遭 到 阻塞 ， 那 么 将 解除 对 其 阻塞 ) 。 








ftdefine XOPEN SOURCE 500 
#include <signal.h> 


int sighold(int sig); 
int sigrelse(int sig); 
int sigignore(int sig); 


All return 0 on success, or -1 on error 
int sigpause(int sig); 








Always returns -1 with errno set to EINTR 





sighold() ZU —“Mai 5 UNI BU EEA SHES sigrelse() ps) Ze il 
是 从 信号 掩 码 中 移 除 一 个 信号 。sigignore() 函 数 设 定 对 某 信 号 的 处 置 
为 “忽略 (ignore) ”。 sigpause) PK ŽKM F sigsuspendO R 数 ， 但 仅 从 进 
程 信号 捧 码 中 移 除 一 个 信号 ， 随 后 将 暂停 进程 ， 直 到 有 信和 号 到 达 。 


BSD 信 号 API 


POSIX 信 号 API 从 4.2BSD API 中 汲取 了 很 多 灵感 ， 所 以 BSD 函 数 与 
POSIX 函 数 大 体 相 仿 。 


如 同 前 文 对 System V 信 号 API 中 消 数 的 摘 述 一 样 ， 首 先 给 出 BSD 信 
号 API 中 各 函数 的 原型 ， 随 后 简单 解释 一 下 每 个 函数 的 操作 。 再 嘱 唆 一 
句 ， 手 册页 提供 有 全 部 细节 。 








#define BSD SOURCE 
#include <signal.h> 


int sigvec(int sig, struct sigvec *vec, struct sigvec *ovec); 


Returns 0 on success, or -1 on error 











sigvec() 类 似 于 sigaction()。vec 和 ovec 参 数 是 指向 如 下 类 型 结构 的 指 
针 : 


struct sigvec { 
void (*sv_handler)(); 
int sv mask; 
int sv flags; 


}; 
sigvec 结 构 中 的 字段 与 sigaction 结 构 中 的 那些 字段 紧密 对 应 。 第 一 个 


显著 差异 是 sv_mask (类似 与 sa_mask) 字段 是 一 个 整 型 ， 而 非 sigset_t 类 
型 。 这 意味 着 ， 在 32 位 架构 中 ， 最 多 支持 31 个 不 同 信号 。 男 一 个 不 同 之 
处 则 在 于 在 sv_flags (类 似 与 a_flags〉 字 有 段 中 使 用 了 SV_INTERRUPT 标 

志 。 因 为 重启 系统 调用 是 4.2BSD 的 默认 行为 ， 该 标志 是 用 来 指定 应 使 用 
信和 号 处 理 器 来 中 断 慢 速 系统 调用 。 (这 点 与 POSIX API 截 然 相 反 ， 在 使 
用 sigaction0 建 立信 号 处 理 器 时 ， 如 果 希 望 启用 系统 调用 重启 功能 ， 就 

必须 显 式 指定 SA_RESTART 标 志 。) 

















#define BSD SOURCE 
#include <signal.h> 


int sigblock(int mask); 
int sigsetmask({int mask); 


Both return previous signal mask 
int sigpause(int sigmask); 


Always returns -1 with errno set to EINTR 
int sigmask(szg) ; 


Returns signal mask value with bit sig set 











sisblock() K žr dt Feta SHS FINA fa Ss. KRW 
sigprocmask() 的 SIG_BLOCK 操 作 。sigsetmask0) 调 用 则 为 信号 掩 码 指定 
了 一 个 绝对 值 。 这 类 似 于 sigprocmask() 的 SIG_SETMASK 操 作 。 


sigpause() 类 似 于 sigsuspend()。 注 意 ， 对 该 函数 的 定义 在 System V 和 
BSD API 中 具有 不 同 的 调用 签名 。GNU C 函 数 库 默认 提供 System V 版 
本 ， 除 非 在 编译 程序 时 指定 了 特性 测试 宏 _BSD_SOURCE。 


sigmask() 宏 将 信号 编写 转换 成 相应 的 32 位 掩 码 值 。 此 类 位 掩 码 可 以 
彼此 相 或 ， 一 起 创建 一 组 信和 号， 如 下 所 示 : 


sigblock(sigmask(SIGINT) | sigmask(SIGQUIT)); 





22.14 ”总结 


某 些 信号 会 引发 进程 创建 一 个 核心 转 储 文件 ， 并 终止 进程 。 核 心 转 
储 所 包含 的 信息 可 供 调试 器 检查 进程 终止 时 的 状态 。 默 认 情况 下 ， 对 核 
心 转 储 文件 的 命名 为 core， 但 Linux 提 供 了 /proc/sys/kernelcore_pattern 文 
件 来 控制 对 核心 转 储 文件 的 命名 。 


言 号 的 产生 方式 既 可 以 是 异步 的 ， 也 可 以 是 同步 的 。 当 由 内 核 或 者 
为 一 进程 友 送 信和 己 给 进程 时 ， 信 号 可 能 是 异步 产生 的 。 进 程 无 法 精确 预 
训 异 步 产 生 信和 号 的 传递 时 间 。【《 文 中 曾 指 出 ， 有 异步 信号 通 间 会 在 接收 进 
程 第 二 次 从 内 核 态 切换 到 用 户 态 时 进行 传递 。) 因 进 程 自身 执行 代码 而 
直接 产生 的 信号 则 属于 是 同步 产生 的 ， 例 如 ， 执 行 了 一 个 引发 硬件 异常 
人 
(立即 传 递 )。 


实时 信号 是 POSIX 对 原始 信号 模型 的 扩展 ， 不 同 之 处 包括 对 实时 信 
号 进行 队列 化 管理 ， 具 有 特定 的 传递 顺序 ， 并 且 还 可 以 伴随 少量 数据 一 
同 发 送 。 设 计 实 时 信号 ， 意 在 供应 用 程序 自 定 义 使 用 。 实 时 信和 号 的 发 送 
使 用 sigqueue0 系 统 调用 ， 并 且 还 向 信号 处 理 器 函数 提供 了 一 个 附加 参 
数 〈siginfo_t 结 构 ) ， 以 便 其 获得 信号 的 伴随 数据 ， 以 及 发 送 进程 的 进 
程 ID 和 实际 用 户 ID。 


sigsuspend() 系 统 调 用 在 自动 修改 进程 信号 掩 码 的 同时 ， 还 将 挂 起 进 
程 的 执行 直到 信号 到 达 ， 且 二 者 属于 同一 原子 操作 。 为 了 避免 执行 上 述 
功能 时 出 现 觉 态 条 件 ， 确 保 sigsuspend0 的 原子 性 至 关 重 要 。 


可 以 使 用 sigwaitinfo() 和 sigtimedwait() 来 同步 等 待 一 个 信号 。 这 省 去 
了 对 信号 处 理 器 的 设计 和 编码 工作 。 对 于 以 等 竺 信号 的 传递 为 唯一 目的 
的 程序 而 言 ， 使 用 信号 处 理 器 纯 属 多 此 一 举 。 


像 sigwaitinfo() 和 sigtimedwait() 一 样 ， 可 以 使 用 Linux 特 有 的 
signalfd() 系 统 调 用 来 同步 等 待 一 个 信号 。 这 一 接口 的 独特 之 处 在 于 可 以 
通过 文件 描述 符 来 读 取信 和 号。 还 可 以 使 用 select0)、poll0 和 epoll 来 对 其 进 


行 监控 。 


尽管 可 以 将 信号 视 为 IPC 的 方式 之 一 ， 但 诸多 制约 因素 令 其 常常 无 



































法 胜任 这 一 目的 ， 其 中 包括 信号 的 异步 本 质 、 不 对 信号 进行 排队 处 理 的 
事实 ， 以 及 较 低 的 传递 带宽 。 信 和 号 更 为 向 见 的 应 用 场景 是 用 于 进程 同 
或 是 各 种 其 他 目的 《比如 ， 事 件 通 知 、 作 业 控 制 以 及 定时 需 到 
期 ) 。 


言 号 的 基本 概念 虽然 简单 ， 但 因为 涉及 的 细节 很 多 ， 所 以 对 其 讨论 
用 去 了 3 章 的 篇 幅 。 信 和 号 在 系统 调用 API 的 各 部 分 中 都 扮演 着 重要 角色 ， 
后 面 几 章 还 将 重 温 对 信号 的 使 用 。 此 外 ， 还 有 各 种 信号 相关 的 函数 是 针 
对 线程 的 《比如 ，pthread_kill() 和 pthread_sigmask()) ， 将 延 后 至 33.2 节 
进行 讨论 。 


更 多 信息 
参见 20.15 市 所 列 的 信息 来 源 。 





22.15 练习 


22-1. 22.2 节 曾 指出 ， 假 设 进程 为 SIGCONT 信 号 建立 了 处 理 器 函数 
并 将 其 阻塞 ， 如 果 该 进程 已 停止 (stopped) 后 因 收 到 一 个 SIGCONT 信 
号 而 恢复 执行 ， 那 么 仅 当 解除 了 对 SIGCONT 信 号 的 阻塞 时 才 会 去 调用 
信号 处 理 器 函数 。 编 写 一 个 程序 来 验证 这 一 点 。 回 忆 一 下 ， 按 下 终端 暂 
eR (通常 为 Control-Z〉 可 以 停止 进程 ， 使 用 kill-CONT 命 令 ( 或 者 
隐蔽 一 点 ， 使 用 shell 的 fg 命令 ) 可 以 上 肥 送 SIGCONT 信 号 。 


22-2. 如 果实 时 信号 和 标准 信号 在 同时 等 竺 一 个 进程 ， 那 么 SUSv3 
对 信号 的 传递 顺序 未 了 予定 义 。 编 写 一 程序 来 展示 Linux 古 如 何 处 理 这 一 
情况 的 。〈 令 程序 为 所 有 信号 设置 处 理 器 函数 ， 阻 塞 这 些 信 号 并 持续 一 
段 时 间 ， 以 便于 向 其 发 送 各 种 信号 ， 最 后 解除 对 所 有 信号 的 阻 罕 。) 


22-3. 22.10 节 指出 ， 接 收 信 号 时 ， 利 用 sigwaitinfoO) 调 用 要 比 信号 
处 理 器 外 加 sigsuspendO 调 用 的 方法 来 得 快 。 随 本 书 发 布 的 源码 中 提供 的 
signals/sig_speed_sigsuspend.c 程 序 使 用 sigsuspend() 在 父 、 子 进程 之 间 交 
蔡 发 送信 写 。 请 对 两 进程 间 交 换 一 百 万 次 信号 所 花费 的 时 间 进 行 计时 。 
《信号 交换 次 数 可 通过 程序 命令 行 参数 来 提供 。) 使 用 sigwaitinfo() 作 为 
替代 技术 来 对 程序 进行 修改 ， 并 度量 该 版 本 的 耗 时 。 两 个 程序 间 的 速度 
差异 在 哪里 ? 


22-4. 使 用 POSIX 信 号 API 来 实现 System VÆ Wsigset(). sighold(), 
sigrelse(). sigignore()#llsigpause(). 

















OME: 指 不 生成 核心 转 储 文件 。 


DZE: 有 ， 则 将 该 信号 的 信息 返回 。 作 者 的 书 似乎 没有 man 手 册页 
写 得 明了 ， 请 读者 目 行 比较 。 














第 23 章 ”定时 需 与 休 眼 


定时 器 是 进程 规划 自己 在 未 来 某 一 时 刻 接 获 通知 的 一 种 机 制 。 体 眼 
则 能 使 进程 〈 或 线程 ) 暂停 执行 一 段 时 间 。 本 章 讨 论 了 定时 器 设置 以 及 
休眠 的 接口 ， 涵 盖 主 题 如 下 。 


o 针对 间隔 式 定 时 器 设置 的 传统 UNIX API (setitimer()#lalarm()) ， 
经 设 定 ， 会 在 特定 的 一 段 时 间 后 通知 进程 。 

。 允许 进程 休眠 特定 时 间 的 API 接 口 。 

。 POSIX.1b 时 钟 和 定时 絮 API 接 口 。 

。 Linux 特 有 的 timerfd 功 能 ， 人 允许 所 创建 定时 器 的 到 期 信息 可 从 文件 
描述 符 中 恋 取 。 














23.1 间隔 定时 器 


系统 调用 setitimer() 创 建 一 个 间隔 式 定 时 器 (interval timer) ， 这 种 
定时 右 会 在 术 来 条 个 时 间 反 到 期， 并 于 此 后 (可 选择 地 ) 每 隔 一 段 时 间 
到 期 一 次 。 








#include <sys/time.h> 


int setitimer(int which, const struct itimerval *new_value, 
struct itimerval *old_value); 








Returns 0 on success, or -1 on error 





通过 在 调用 setitimerO 时 为 which 指 定 以 下 值 ， 进 程 可 以 创建 3 种 不 同 
类 型 的 定时 器 。 


ITIMER_REAL 


创建 以 真实 时 间 倒 计时 的 定时 器 。 到 期 时 会 产生 SIGALARM 信 号 


ITIMER_VIRTUAL 


创建 以 进程 虚拟 时 间 “〈“ 用 户 模式 下 的 CPU 时 间 ) 倒计时 的 定时 器 。 
到 期 时 会 产生 信和 号 SIGVTALRM。 


ITIMER_PROF 


创建 一 个 profiling 定 时 器 ， 以 进程 时 间 (用 户 态 与 内 核 态 CPU 时 间 
的 总 和 ) 倒 计时。 到 期 时 ， 则 会 产生 SIGPROF 信 号 。 


对 所 有 这 些 信号 的 默认 处 置 (disposition) 均 会 终止 进程 。 除 非 真 
地 期 望 如 此 ， 否 则 束 需 要 针对 这 些 定时 器 信号 创建 处 理 器 疯 数 。 


参数 new_value 和 old_value 均 为 指 癌 结构 itimerval 的 指针 ， 结 构 的 定 
义 如 下 : 





struct itimerval { 
struct timeval it_interval; /* Interval for periodic timer */ 
struct timeval it_value; /* Current value (time until 
next expiration) */ 


结构 itimerval 中 的 字段 类 型 均 为 timeval 结 构 ，timeval 又 由 秒 和 微 秘 
两 部 分 组 成 : 
struct timeval { 
time_t tv_sec; /* Seconds */ 


suseconds t tv_usec; /* Microseconds (long int) */ 


}; 


参数 new_value 的 下 属 结构 it_value 指 定 了 距离 定时 器 到 期 的 延迟 时 
间 。 另 一 下 属 结构 it_interval 则 说 明 该 定时 器 是 否 为 周期 性 定时 器 。 如 果 
it_interval 的 两 个 字段 值 均 为 0， 那 么 该 定时 器 就 属于 在 it_value 所 指定 的 
时 间 间 隅 后 到 期 的 一 次 性 定时 器 。 只 要 it_interval 中 的 任 一 字段 非 0， 那 
和 都 会 将 定时 器 重 置 为 在 指定 间隔 后 再 次 到 
期 。 


进程 只 能 拥有 上 述 3 种 定时 器 中 的 一 种 。 当 第 2 次 调用 setitimer() 时 ， 
修改 已 有 定时 器 的 属性 要 符合 参数 which 中 的 类 型 。 如 果 调 用 setitimer() 
时 将 new_value.it_value 的 两 个 字段 均 置 为 0， 那 么 会 屏蔽 任何 已 有 的 定 
时 器 。 


看 参数 old_value 不 为 NULL， 则 以 其 所 指 同 的 itimerval 结 构 来 返回 
定时 器 的 前 一 设置 。 如 果 old_value.it_value 的 两 个 字段 值 均 为 0， 那 么 该 
定时 器 之 前 处 于 屏蔽 状态 。 如 果 old_value.it_interval 的 两 个 字段 值 均 为 
0， 那 么 该 定时 器 之 前 被 设置 为 历经 old_value.it_value 指 定时 间 而 到 期 的 
一 次 性 定时 器 。 对 于 需要 在 新 定时 器 到 期 后 将 其 还 原 的 情况 而 言 ， 获 取 
定时 器 的 前 一 设置 就 很 重要 。 如 果 不 关 心 定时 右 的 前 一 设置 ， 可 以 将 
old_value 置 为 NULL 。 


定时 器 会 从 初始 值 (it_value) 倒计时 一 直到 0 为 止 。 递 减 为 0 时 ， 


会 将 相应 信号 发 送 给 进程 ， 随 后 ， 如 果 时 间 间 隔 值 (it_interval〉 非 0， 
那么 会 再 次 将 让 L_value 加 载 至 定时 器 ， 重 新 开始 向 0 倒计时 。 


可 以 在 任何 时 刻 调用 getitimer()， 以 了 解 定时 右 的 当前 状态 、 距 离 
下 次 到 期 的 剩余 时 间 。 














#include <sys/time.h> 


int getitimer(int which, struct itimerval *curr_value); 


Returns 0 on success, or -1 on error 








系统 调用 getitimer() 返 回 由 which 指 定 定 时 器 的 当前 状态 ， 并 置 于 由 
curr_value 所 指向 的 缓冲 区 中 。 这 与 setitimer0 借 参数 old_value 所 返回 的 
信息 完全 相同 ， 区 别 则 在 于 getitimer() 无 需 为 了 获取 这 些 信息 而 改变 定 
时 器 的 设置 。 子 结构 curr_value.it_value 返 回 距离 下 一 次 到 期 所 剩余 的 总 
时 间 。 该 值 会 随 定 时 器 倒计时 而 变化 ， 如 果 设 置 定 时 器 时 将 it_interval 置 
为 非 0 值 ， 那 么 会 在 定时 器 到 期 时 将 其 重 置 。 子 结构 curr_value.it_interval 
返回 定时 器 的 间隔 时 则 ， 除 非 再 次 调用 setitimer()， 否 则 该 值 一 直 保 持 不 


AS 
o 














使 用 setitimer()( 和 alam()， 稍 后 讨论 ) 创建 的 定时 器 可 以 跨越 
exec0 调 用 而 得 以 保存 ， 但 由 forkO 创 建 的 子 进程 并 不 继承 该 定时 器 。 








SUSv4 废 止 了 getitimer() 和 setitimer()， 同 时 推荐 使 用 
POSIX 定 时 器 API (23.6 节 ) 。 


示例 程序 


程序 清单 23-1 演 示 了 setitimer() 和 getitimer0 的 使 用 ， 所 执行 的 步 又 
Fe 


。 为 SIGALRM 信 和 号 创建 处 理 器 函数 @@)。 

。 利用 命令 行 参数 为 实时 (ITIMER_REAL) 定时 器 设置 到 期 值 及 间 
隔 时 间 旨 。 若 未 提供 命令 行 参 数 ， 程 序 默认 创建 一 个 两 秒 到 期 的 一 
次 性 定时 器 。 

e 进入 一 个 循环 @， 消 耗 CPU 时 间 并 周期 性 地 调用 函数 
displayTimes()4)。 该 函数 会 显示 自 程 序 启动 以 来 逝去 的 真实 时 间 ， 
以 及 ITIMER_REAL 定 时 器 的 当前 状态 。 








每 当 定 时 器 到 期 时 ， 都 会 调用 SIGALRM 处 理 器 函数 ， 其 中 会 去 设 
置 全 局 标志 gotAlarm@®。 一 旦 设置 了 这 一 标志 ， 主 程序 循环 就 会 调用 
displayTimers0) 来 显示 处 理 器 函数 的 调用 时 点 以 及 定时 器 状态 @。 (之 
所 以 采用 这 一 方式 来 设计 信和 号 处 理 器 函数 ， 意 在 避免 从 处 理 需 函数 内 部 
去 调用 非 异 步 信号 安全 的 函数 ， 究 其 原因 可 参考 21.1.2 节 。) 如 果 定 时 
器 的 时 间 间 隔 为 0， 那 么 程序 会 在 第 1 次 收 到 信号 时 即行 退出 。 和 否则 ， 程 
序 会 在 捕获 到 3 个 信号 后 终止 。@ 


运行 程序 清单 23-1 中 的 程序 ， 可 以 看 到 如 下 结果 : 


$ ./real_timer 1 800000 1 0 Initial value 1.8 seconds, interval 1 second 
Elapsed Value Interval 
START: 0.00 








Main: 0.50 1.30 1.00 Timer counts down until expiration 

Main: 1.00 0.80 1,00 

Main: 1.50 0.30 1.00 

ALARM: 1.80 1.00 1.00 On expiration, timer is reloaded from interval 
Main: 2.00 0.80 1.00 

Main: 2.50 0.30 1.00 

ALARM: 2.80 1.00 1.00 

Main: 3.00 0.80 1.00 

Main: 3.50 0.30 1.00 

ALARM: 3.80 1.00 1.00 


That's all folks 


程序 清单 23-1: 实时 定时 器 的 使 用 





timers/real_timer.c 
#include <signal.h> 
#include <sys/time.h> 
#include <time.h> 
#include "tlpi_hdr.h" 


static volatile sig atomic_t gotAlarm = 0; 
/* Set nonzero on receipt of SIGALRM */ 


/* Retrieve and display the real time, and (if ‘includeTimer' is 
TRUE) the current value and interval for the ITIMER_REAL timer */ 


static void 
® displayTimes(const char *msg, Boolean includeTimer) 


struct itimerval itv; 
static struct timeval start; 
struct timeval curr; 


static int callNum = 0; /* Number of calls to this function */ 
if (callNum == 0) /* Initialize elapsed time meter */ 
if (gettimeofday(&start, NULL) == -1) 


errExit ("gettimeofday") ; 


if (callNum % 20 == 0) /* Print header every 20 lines */ 
printf(" Elapsed Value Interval\n"); 


if (gettimeofday(&curr, NULL) == -1) 
errExit ("gettimeofday" ); 
printf("%-7s %6.2f", msg, curr.tv_sec - start.tv_sec + 
(curr.tv_usec - start.tv_usec) / 1000000.0); 


if (includeTimer) { 
if (getitimer(ITIMER REAL, &itv) == -1) 
errExit("getitimer"); 
printf(" %6.2f %6.2f", 
itv.it_value.tv_sec + itv.it_value.tv_usec / 1000000.0, 
itv.it_interval.tv_sec + itv.it_interval.tv_usec / 1000000.0); 


} 


printf("\n"); 
callNum++; 


} 


static void 
sigalrmHandler(int sig) 


gotAlarm = 1; 


int 
main(int argc, char *argv[]) 


struct itimerval itv; 

clock_t prevClock; 

int maxSigs; /* Number of signals to catch before exiting */ 
int sigCnt; /* Number of signals so far caught */ 

struct sigaction sa; 


if (argc > 1 && strcmp(argv[1], "--help") == 0) 
usageErr("%s [secs [usecs [int-secs [int-usecs]]]]\n", argv[o]); 


sigCnt = 0; 

sigemptyset (&sa.sa_mask); 

sa.sa_flags = 0; 

sa.sa handler = sigalrmHandler; 

if (sigaction(SIGALRM, &sa, NULL) == -1) 
errExit("sigaction"); 


/* Exit after 3 signals, or on first signal if interval is 0 */ 


maxSigs = (itv.it_interval.tv_sec == 0 && 
itv.it_interval.tv_usec == 0) ? 1: 3; 


displayTimes("START:", FALSE); 
/* Set timer from the command-line arguments */ 


itv.it_value.tv_sec = (argc > 1) ? getLong(argv[1], 0, "secs") : 2; 
itv.it_value.tv_usec = (argc > 2) ? getLong(argv[2], 0, "usecs") : O; 


itv.it_interval.tv_sec = (argc > 3) ? getLong(argv[3], 0, "int-secs") : 0; 
itv.it_interval.tv_usec = (argc > 4) ? getLong(argv[4], 0, “int-usecs") : 0; 


® if (setitimer(ITIMER REAL, itv, 0) == -1) 
errExit("setitimer”) ; 


prevClock = clock(); 
sigCnt = 0; 


© for (;;) { 
/* Inner loop consumes at least 0.5 seconds CPU time */ 
while ({(clock{) - prevClock) * 10 / CLOCKS PER SEC) < 5) { 
© if (gotAlarm) { /* Did we get a signal? */ 
gotAlarm = 0; 
displayTimes("ALARM:", TRUE); 
sigCnt++; 
D if (sigCnt >= maxSigs) { 


printf("That's all folks\n"); 
exit(EXIT SUCCESS); 


} 


prevClock = clock(); 
displayTimes("Main: ", TRUE); 


timers/real_timer.c 
更 为 简单 的 定时 器 接口 : alarm() 


系统 调用 alarm0) 为 创建 一 次 性 实时 定时 器 提供 了 一 个 简单 接口 。 
(历史 上 ，alarm() 曾 是 设置 定时 器 的 原始 UNIX API。) 











#include <unistd.h> 


unsigned int alarm(unsigned int seconds); 


Always succeeds, returning number of seconds remaining on 
any previously scl. timer, or 0 if no timer previously was set 











参数 seconds 表 示 定 时 器 到 期 的 秒 数 。 到 期 时 ， 会 回调 用 进程 发 送 
SIGALRM 信 号 。 





调用 alarm0 会 履 羡 对 定时 器 的 前 一 个 设置 。 调 用 alarm(0) 可 屏蔽 现 
有 定时 器 。 


alarmgO 的 返回 值 是 定时 口 前 一 设置 距离 到 期 的 剩余 秒 数 ， 如 未 设置 
定时 需 则 返回 0。 


23.3 节 提供 了 一 个 使 用 alarm0 的 例子 。 





本 书后 面 的 一 些 示 例会 使 用 alarm0) 来 启动 定时 器 ， 同 
时 不 为 SIGALRM 信 号 设置 处 理 器 函数 。 采 用 该 技术 可 以 确 
保 ， 即 便 进程 没有 终止 ， 也 能 将 其 杀 死 。 


setitimer()# alarm()Z ÎE] H9 2 H. 


Linux 中 ，alarm0 和 setitimerO 针 对 同一 进程 〈per-process) 共享 同一 
实时 定时 器 ， 这 也 意味 着 ， 无 论调 用 两 者 之 中 的 哪个 完成 了 对 定时 器 的 
前 一 设置 ， 同 样 可 以 调用 二 者 中 的 任 一 函数 来 改变 这 一 设置 。 其 他 
UNIX 系 统 的 情况 可 能 会 有 所 不 同 〈 也 就 是 说 ， 这 两 个 函数 可 能 分 别 控 
制 着 不 同 的 定时 器 ) 。 对 于 setitimer0O 与 alarm0 之 间 的 交互 ， 以 及 二 者 与 
sleep()PAIA 〈23.4.1 节 ) 之 间 的 交互 ，SUSv3 均 未 加 以 规范 。 为 了 确保 应 
用 程序 可 移植 性 的 最 大 化 ， 程序 设置 实时 定时 器 的 函数 只 能 在 二 者 中 选 


择 其 一 。 








23.2 ”定时 器 的 调度 及 精度 


取决 于 当前 负载 和 对 进程 的 调度 ， 系 统 可 能 会 在 定时 器 到 期 的 瞬间 
(通常 是 几 分 之 一 秒 ) 之 后 才 去 调度 其 所 属 进程 。 尽 管 如 此 ， 由 
setitimer() 或 本 章 后 续 介 绍 的 其 他 接口 所 创建 的 周期 性 定时 器 ， 在 到 期 后 
依然 会 恪守 其 规律 性 。 例 如 ,假设 设 置 一 个 实时 定时 器 每 两 秒 到 期 一 
次 ， 虽 然 上 述 延迟 可 能 会 影响 每 个 定时 喜事 件 的 送 达 ， 但 系统 对 后 续 定 
时 器 到 期 的 调度 依然 会 严格 遵循 两 秒 的 时 间 间 隔 。 换 言 之 ， 间 隔 式 定时 
器 不 受 潜在 错误 左右 。 


里 然 setitimer() 使 用 的 timeval 结 构 提 供 有 微 秒 级 精度 ， 但 是 传统 意义 
上 定时 器 精度 还 是 受制 于 软件 时 钟 (10.6 节 )〉 频率 。 如 果 定 时 器 值 未 能 
与 软件 时 钟 间隔 的 倍数 严格 匹配 ， 那 么 定时 喜 值 则 会 同上 取 整 。 也 就 是 
说 ， 假 如 有 一 个 间隔 为 19100 微 秒 〈 刚 刚 超 过 19 毫 秒 ) 的 定时 器 ， 如 果 
jiffy 《软件 时 钟 周期 ) 为 4 训 秒 ， 那 么 定时 堪 实际 上 会 每 陋 20 宇 秒 过 期 
AUR o 





对 于 现代 Linux 内 核 而 言 ， 适 才 关 于 定时 器 分 辨 紊 受 限 于 软件 时 钟 
频率 的 论断 已 经 不 再 成 立 。 自 版 本 2.6.21 开 始 ，Linux 内 核 可 选择 是 否 支 
持 高 分 辨 率 定 时 器 。 如 果 选 择 文 持 《通过 内 核 配置 选项 
CONFIG_HIGH_RES_TIMERS) ， 那 么 本 章 各 种 定时 器 以 及 休 眼 接口 
的 的 精度 则 不 再 受 内 核 jffy (软件 时 钟 周 期 ) 的 影响 ， 可 以 达到 底层 硬 
件 所 文 持 的 精度 。 在 现代 硬件 平台 上 ， 精 度 达 到 微 秒 级 是 司空 见 惯 的 事 


ie 





23.5.1 节 将 介绍 函数 clock_getres0， 可 以 用 其 返回 值 来 
判断 系统 是 否 文 持 高 分 辨 紊 定时 器 。 





23.3 ”为 阻塞 操作 设置 超时 

实时 定时 器 的 用 途 之 一 是 为 某 个 阻塞 系统 调用 设置 其 处 于 阻塞 状态 
的 时 间 上 限 。 例 如 ， 当 用 户 在 一 段 时 间 内 没有 输入 整 行 命 令 时 ， 可 能 
望 取 消 对 终端 的 read0 操 作 。 处 理 如 下 。 


1. 调用 sigaction(0) 为 SIGALRM 信 和 号 创建 处 理 器 函数 ， 排 除 
SA_RESTART 标 志 以 确保 系统 调用 不 会 重新 局 动 〈 参 考 21.5 节 ) 。 


2. 调用 alarm0 或 setitimerO 来 创建 一 个 定时 右 ， 同 时 设 定 硕 望 系统 
调用 阻 赛 的 时 间 上 限 。 


3. PUT BEZEL AAT o 


4. 系统 调用 返回 后 ， 再 次 调用 alarm0 或 setitimer0O 以 屏蔽 定时 器 
《以 防止 系统 调用 在 定时 器 到 期 之 前 惑 已 完成 的 情况 ) 。 


5. 检查 系统 调用 失败 时 是 否 将 errno 置 为 EINTR (系统 调用 遭 到 中 








Wr) 
程序 清单 23-2 针 对 readO 调 用 展示 了 这 一 拉 术 ， 创 建 定 时 器 时 使 用 


的 是 alarm()。 





程序 清单 23-2: 运行 设置 了 超时 的 read() 





timers/timed_read.c 


#include <signal.h> 
#include "tlpi_hdr.h" 


#define BUF_SIZE 200 


static void /* SIGALRM handler: interrupts blocked system call */ 
handler(int sig) 


printf("Caught signal\n"); /* UNSAFE (see Section 21.1.2) */ 


int 
main(int argc, char *argv[]) 


struct sigaction sa; 
char buf[BUF_SIZE]; 
ssize t numRead; 
int savedErrno; 


if (argc > 1 && strcmp(argv[1], "--help") == 0) 
usageErr("%s [num-secs [restart-flag]]\n", argv[0]); 


/* Set up handler for SIGALRM. Allow system calls to be interrupted, 
unless second command-line argument was supplied. */ 


sa.sa flags = (argc > 2) ? SA RESTART : 0; 
sigemptyset(&sa.sa_mask) ; 


sa.sa handler = handler; 
if (sigaction(SIGALRM, &sa, NULL) == -1) 
errExit("sigaction”) ; 


alarm( (argc > 1) ? getInt(argv[1], GN NONNEG, "num-secs") : 10); 
numRead = read(STDIN FILENO, buf, BUF SIZE - 1); 


savedErrno = errno; /* In case alarm() changes it */ 
alarm(0); /* Ensure timer is turned off */ 
errno = savedErrno; 


/* Determine result of read() */ 


if (numRead == -1) { 
if (errno == EINTR) 
printf("Read timed out\n"); 
else 
errMsg("read"); 
} else { 
printf("Successful read (%ld bytes): %.*s", 
(long) numRead, (int) numRead, buf); 
} 


exit(EXIT_SUCCESS) ; 


timers/timed_read.c 


注意 ， 程 序 清 单 23-2 中 程序 理论 上 存在 导致 竞争 条 件 的 可 能 性 。 如 
果 定 时 器 到 期 时 处 于 alarm0 调 用 之 后 ，read0 调 用 之 前 ， 那 么 信号 处 理 
器 函数 将 不 会 中 断 read0。 由 于 在 这 种 场景 下 设 定 的 超时 值 一 般 相 对 较 
大 《至 少 几 秒 ) ， 故 而 发 生 上 述 情况 的 概率 极 低 ， 因 此 这 种 技术 实际 上 
是 可 行 的 。[Stevens & Rago, 2005] 推 荐 了 另 一 种 方法 ， 使 用 的 是 
longjmp()。 在 处 理 /O 系 统 调 用 时 ， 还 有 男 一 种 备 选 方案 ， 利 用 了 系统 
调用 select0 或 poll()〈( 第 63 章 的 超时 特性 ， 锦 上 添 花 的 是 还 能 同时 等 待 
多 路 描述 符 的 1/O。 





23.4 ”暂停 运行 (休眠 ) 一 段 固定 时 间 

有 时 需要 将 进程 挂 起 〈 固 定 的 ) 一 段 时 间 。 将 前 述 定 时 器 函数 与 
结合 固然 可 以 达到 这 一 目的 ， 但 使 用 休眠 函数 会 更 为 简 
23.4.1 (ROIZ: sleep) 


函数 SleepO 可 以 暂停 调用 进程 的 执行 达 数 秒 之 信 【〈 由 参数 seconds 设 
置 ) ， 或 者 在 捕获 到 信号 〈 从 而 中 断 调用 ) 后 恢复 进程 的 运行 。 











#include <unistd.h> 


unsigned int sleep(unsigned int seconds); 


Returns 0 on normal completion, or number of 
unslept seconds if prematurely terminated 











如 果 休眠 正常 结束 ，sleepO 返 回 0。 如 果 因 信号 而 中 断 休 眠 ，sleep0) 
将 返回 剩余 〈 未 休 眼 ) 的 秒 数 。 与 alarm() 和 setitimer() 所 设置 的 定时 器 相 
同 ， 由 于 系统 负载 的 原因 ， 内 核 可 能 会 在 完成 sleep0 的 一 段 ‘通常 很 
短 ) 时 间 后 才 对 进程 重新 加 以 调度 。 


对 于 sleep() 和 alarm() 以 及 setitimer() 之 间 的 交互 方式 ，SUSv3 并 未 加 
以 规范 。Linux 将 sleep0 〇 实现 为 对 nanosleep() (23.4.2 节 ) 的 调用 ， 其 结 
果 是 sleep() 与 定时 器 函数 之 间 并 无 交互 。 不 过 ， 许 多 其 他 的 实现 ， 尤 其 
是 一 些 老 系统 ， 会 使 用 alarm0 〇 以 及 SIGALRM 信 号 处 理 右 函数 来 实现 
sleep()。 考 虑 到 可 移植 性 ， 应 避免 将 sleep() 和 alarm() 以 及 setitimer() 混 
用 。 








23.4.2 ”高 分 养 率 休眠: nanosleep() 


函数 nanosleepO 的 功用 与 sleepO 类 似 ， 但 更 具 优 势 ， 其 中 包括 能 以 
更 高 分 辨 率 来 设 定 休眠 间隔 时 间 。 








#define POSIX C SOURCE 199309 
#include <time.h> 
int nanosleep(const struct timespec *request, struct timespec *remazn) ; 


Returns 0 on successfully completed sleep, 
or -1 on error or interrupted sleep 











参数 request 指 定 了 休眠 的 持续 时 间 ， 是 一 个 指 问 如 下 结构 的 指针 : 


struct timespec { 
time t tv_sec; /* Seconds */ 
long tyv nsec; /* Nanoseconds */ 


中 
tv_nsec 字 段 为 纳 秒 值 ， 取 值 范 围 在 0 一 999999999 之 间 。 


nanosleep() 的 更 大 优势 在 于 ，SUSv3 明 文 规定 不 得 使 用 信号 来 实现 
该 函数 。 这 意味 着 ， 与 sleepO 不 同 ， 即 使 将 nanosleep0 与 alarm0 或 
setitimer() 混 用 ， 也 不 会 危及 程序 的 可 移植 性 。 


尽管 nanosleep() 的 实现 并 未 使 用 信号 ， 但 还 是 可 以 通过 信号 处 理 右 
函数 来 将 其 中 断 。 这 时 ，nanosleep0 将 返回 -1， 并 将 errno BA 
EINTR。 同 时 ， 若 参数 remain 不 为 NULL， 则 该 指针 所 指向 的 缓冲 区 将 
返回 剩余 的 休眠 时 间 。 可 利用 这 一 jB [EVEL BE 该 系统 调用 以 完成 休眠 。 
程序 清单 23-3 演 示 了 这 一 用 途 。 程 序 从 命令 行 参数 中 获取 传 入 
nanosleep() 的 秒 和 纳 秒 值 ， 并 反复 循环 执行 nanosleep0， 直人 至 耗 尽 全 部 
的 休眠 间隔 时 间 。 如 果 信 号 SIGINT (〈 按 下 Ctrl-C 产 生 ) 的 处 理 器 函数 将 
o 那么 会 以 参数 remain 中 的 返回 值 重新 调用 nanosleep()。 

运行 结果 如 下 : 


$ ./t_nanosleep 10 0 Sleep for 10 seconds 
Type Controt-C 

Slept for: 1.853428 secs 
Remaining: 8.146617000 
Type Control-C 

Slept for: 4.370860 secs 
Remaining: 5.629800000 
Type Control-C 

Slept for: 6.193325 secs 
Remaining: 3.807758000 
Slept for: 10.008150 secs 
Sleep complete 


虽然 nanosleepO 人 允许 设 定 纳 秒 级 精度 的 休眠 间隔 值 ， 但 其 精度 依然 
受制 于 软件 时 钟 的 间隔 大 小 《10.6 节 ) 。 如 果 指 定 的 间隔 值 并 非 软件 时 
钟 间隔 的 整数 倍 ， 那 么 会 对 其 癌 上 取 整 。 





前 文 曾 提 及 ， 在 文 持 高 精度 定时 器 的 系统 中 ， 休 眠 时 
间 间 陋 的 精度 要 比 软件 时 钟 间 隔 精细 许多 。 








当 以 高 频率 接收 信号 时 ， 这 一 取 整 行为 会 给 程序 清单 23-3 中 程序 所 
采用 的 编程 手法 带 来 问题 。 由 于 返回 的 remain 时 间 未 必 是 软件 时 钟 间隔 
的 整数 倍 ， 故 而 nanosleepO 的 每 次 重启 都 会 遭遇 取 整 错误 。 其 结果 是 ， 
nanosleepO 每 次 重启 后 的 休眠 时 间 都 要 长 于 前 一 调用 返回 的 remain 值 。 
在 信号 接收 频率 极 高 的 情况 下 (与 软件 时 钟 间 隔 的 频率 一 致 或 更 高 〉， 
进程 的 休眠 可 能 永远 也 完成 不 了 。Linux 2.6 中 ， 使 用 市 有 
TIMER_ABSTIME 选 项 的 clock_nanosleepO 可 以 避免 这 一 问题 。23.5.4 节 
将 对 clock_nanosleep() 加 以 讨论 。 





在 2.4 以 及 更 早期 的 Linux 内 核 版 本 中 ，nanosleep() 的 实 
现存 在 着 一 种 奇怪 的 特性 。 假 设 正 在 执行 nanosleepO 的 进程 
音 号 而 俘 止 ， 当 进程 于 稍 后 截获 SIGCONT 而 继续 运行 
时 ，nanosleepO 会 如 期 调用 失败 并 返回 EINTR 错 误 。 不 过 ， 
如 果 进 程 接着 重启 nanosleep() 调 用 ， 那 么 进程 处 于 停止 状态 
所 消耗 的 时 间 将 不 会 计 入 休眠 间隔 时 间 ， 进 程 的 休眠 时 间 
也 就 比 预 期 的 要 久 。Linux 2.6 中 去 除了 这 一 怪异 特性 ， 
nanosleep() 在 收 到 SIGCONT 信 号 时 将 自动 恢复 ， 进 程 处 于 
停止 状态 所 消耗 的 时 间 也 会 计 入 休 虐 间隔 时 间 。 











FEF IR E 

















23-3: 使 




















Jnanosleep() 


timers/t_nanosleep.c 
#define POSIX C SOURCE 199309 
#include <sys/time.h> 
#include <time.h> 
#include <signal.h> 
#include "tlpi hdr.h" 


static void 
sigintHandler(int sig) 


return; /* Just interrupt nanosleep() */ 


} 


int 
main(int argc, char *argv[]} 


struct timeval start, finish; 
struct timespec request, remain; 
struct sigaction sa; 

int s; 


if (argc != 3 || strcmp(argv[1], "--help") == 0) 
usageErr("%s secs nanosecs\n", argv[0]); 


request.tv_sec = getLong(argv[1], 0, "secs"); 
request.tv_nsec = getLong(argv[2], 0, “nanosecs”"); 


/* Allow SIGINT handler to interrupt nanosleep() */ 


sigemptyset(&sa.sa_mask); 

sa.sa_flags = 0; 

sa.sa_handler = sigintHandler; 

if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction"); 


if (gettimeofday(&start, NULL) == -1) 
errExit("gettimeofday"); 


for (55) { 
s = nanosleep(&request, &remain); 
if (s == -1 && errno != EINTR) 
errExit("nanosleep"); 


if (gettimeofday(&finish, NULL) == -1) 
errExit("gettimeofday"); 
printf("Slept for: %9.6f secs\n", finish.tv_sec - start.tv_sec + 
(finish.tv_usec - start.tv_usec) / 1000000.0); 


if (s == 0) 
break; /* nanosleep() completed */ 


printf("Remaining: %21d.%091ld\n", (long) remain.tv_sec, 
remain.tv_nsec); 


request = remain; /* Next sleep is with remaining time */ 


} 


printf("Sleep complete\n") ; 
exit(EXIT_ SUCCESS); 


timers/t_nanosleep.c 


23.5“POSIX 时 钟 


POSIX 时 钟 〈 原 定义 于 POSIX.1b) 所 提供 的 时 钟 访问 API 可 以 支持 
纳 秒 级 的 时 间 精 度 ， 其 中 表示 纳 秒 级 时 间 值 的 timespec 结 构 同 样 也 用 于 
nanosleep() (23.4.25) 调用 。 


Linux 中 ， 调 用 此 API 的 程序 必须 以 -lrt 选 项 进行 编译 ， 从 而 与 
librt (realtime, SEI) 函数 库 相 链接 。 


POSIX 时 钟 API 的 主要 系统 调用 包括 获取 时 钟 当 前 值 的 
clock_gettime0、 返 回 时 钟 分 辨 率 的 clock_getres0)， 以 及 更 新 时 钟 的 


clock_settime(). 


23.5.1 ”获取 时 钟 的 值 : clock_gettime() 
系统 调用 clock_gettime() 针 对 参数 clockid 所 指定 的 时 钟 返 回 时 间 。 





#define POSIX C SOURCE 199309 
#include <time.h> 


int clock_gettime(clockid t clockid, struct timespec *tp); 
int clock_getres(clockid_t clockid, struct timespec *res); 


Both return 0 on success, or -1 on error 











返回 的 时 间 值 置 于 tp 指针 所 指 癌 的 timespec 结 构 中 。 昌 然 timespec 结 
构 提 供 了 纳 秒 级 精度 ， 但 clock_gettime() 返 回 的 时 间 值 粒度 可 能 还 是 要 
更 大 一 点 。 系 统 调用 clock_getres() 在 参数 res 中 返回 指向 timespec 结 构 的 
指针 ， 机 构 中 包含 了 由 clockid 所 指定 时 钟 的 分 辩 率 。 


clockid_t 是 一 种 由 SUSV3 定 义 的 数据 类 型 ， 用 于 表示 时 钟 标识 符 。 
表 23-1 中 第 1 列 值 即 可 用 于 设 定 clockid。 


表 23-1: POSIX.1b 时 钟 类 型 























CLOCK_REALTIME 可 设 定 的 系统 级 实时 时 钟 


CLOCK_MONOTONIC 不 可 设 定 的 恒定 态 时 钟 





CLOCK _PROCESS_CPUTIME ID 每 进程 CPU 时 间 的 时 钟 〈 自 Linux 2.6.12) 
CLOCK_THREAD_CPUTIME_ID 每 线程 CPU 时 间 的 时 钟 〈 自 Linux 2.6.12) 











CLOCK_REALTIME 时 钟 是 一 种 系统 级 时 钟 ， 用 于 度量 真实 时 间 。 
与 CLOCK_MONOTONIC 时 钟 不 同 ， 它 的 设置 是 可 以 变更 的 。 


SUSv3 规 定 ，CLOCK_MONOTONIC 时 钟 对 时 间 的 度量 始 于 “未 予 
规范 的 过 去 某 一 时 点 ”， 系 统 司 动 后 就 不 会 发 生 改 变 。 该 时 钟 适用 于 那 
些 无 法 容忍 系统 时 钟 发 生 跳 跃 性 变化 (例如 : 手工 改变 了 系统 时 间 ) 的 
应 用 程序 。Linux 上 ， 这 种 时 钟 对 时 间 的 测量 始 于 系统 启动 。 


CLOCK_PROCESS_CPUTIME _ID 时 钟 测量 调用 进程 所 消耗 的 用 户 
和 系统 CPU 时 间 。CLOCK_THREAD_CPUTIME_ID 时 钟 的 功用 与 之 相 
类 似 ， 不 过 测量 对 象 是 进程 中 的 单条 线程 。 


SUSv3 规 范 了 表 23-1 中 的 所 有 时 钟 ， 但 强制 要 求实 现 的 仅 有 
CLOCK_REALTIME 一 种 ， 这 同时 也 是 受到 UNIX 实 现 广 泛 支 持 的 时 钟 




















Linux 2.6.28 增 加 了 一 种 新 的 时 钟 类 型 : 
CLOCK_MONOTONIC_RAW。 类 似 于 
CLOCK_MONOTONIC， 这 也 是 一 种 无 法 设置 的 时 钟 ， 但 
是 提供 了 对 纯 基 于 硬件 时 间 的 访问 ， 且 不 受 NTP 时 间 调 整 
的 影响 。 这 种 非 标准 时 钟 适用 于 专业 时 钟 同步 应 用 程序 。 





Linux 2.6.35 又 提供 了 两 种 新 时 钟 : 


CLOCK_REALTIME_COARSE 和 
CLOCK_MONTIC_COARSE。 这 些 时 钟 类 似 于 
CLOCK_REALTIME 和 CLOCK_MONTONIC， 适 用 于 那些 
希望 以 最 小 代价 获取 较 低 分 辨 率 时 间 惟 的 程序 。 这 些 非 标 
准时 钟 不 会 引发 对 人 硬件 时 钟 的 任何 访问 (访问 某 些 硬 件 时 
SURAT a en) ， 其 返回 值 的 分 辨 率 为 jiffy〈 软 件 时 钟 
周期 ， 见 10.6 节 ) 。 





设置 时 钟 的 值 : clock_settime() 
系统 调用 clock_settime() 利 用 参数 tp 所 指 癌 缓冲 区 中 的 时 间 来 设置 由 


clockid 指 定 的 时 钟 。 





#define POSIX C SOURCE 199309 
#include <time.h> 


int clock_settime(clockid_t clockid, const struct timespec *tp); 





Returns 0 on success, or -1 on error 








如 果 由 印 指定 的 时 间 并 非 由 clock_getresO 所 返回 时 钟 分 辩 率 的 整数 


D FEASA TRE. 


特权 级 CCAP_SYS_TIME) 进程 可 以 设置 CLOCK_REALTIME 时 


钟 。 该 时 钟 的 初始 值 通常 是 自 Epoch 〈1970 年 1 月 1 日 0 点 0 分 0 秒 ) 以 来 的 
时 间 。 表 23-1 中 的 其 他 时 钟 均 不 可 更 改 。 


根据 SUSv3， 系 统 实现 可 允许 设置 
CLOCK_PROCESS_CPUTIME_ ID 和 CLOCK_THR 
EAD_CPUTIME_ID 型 时 钟 。 撰 写本 书 之 际 ， 这 些 时 钟 在 
Linux 上 依然 是 只 读 属 性 。 


23.5.3 ”获取 特定 进程 或 线程 的 时 钟 IJD 


要 测量 特定 进程 或 线程 所 消耗 的 CPU 时 间 ， 首 先 可 借助 本 节 所 描述 
的 函数 来 获取 其 时 钟 ID。 接 着 再 以 此 返回 id 去 调用 clock_gettime()， 从 而 
获得 进程 或 线程 耗费 的 CPU 时 间 。 


函数 clock_getcpuclockid0) 会 将 隶属 于 pid 进 程 的 CPU 时 间 时 钟 的 标识 
符 置 于 clockid 指 针 所 指 回 的 缓冲 区 中 。 





#define _XOPEN SOURCE 600 
#include <time.h> 


int clock_getcpuclockid(pid t pid, clockid_t *clockid) ; 








Returns 0 on success, or a positive error number on error 





参数 pid 为 0 时 ，clock_getcpuclockid() 返 回调 用 进程 的 CPU 时 间 时 钟 
ID. 


PK #(pthread_getcpuclockid()clock_getcpuclockid() HJ POSIX F£ 
版 ， 回 的 标识 符 所 标识 的 时 钟 用 于 度量 调用 进程 中 指定 线程 消耗 的 
CPU 时 间 。 





#define XOPEN SOURCE 600 
#include <pthread.h> 
#include <time.h> 


int pthread_getcpuclockid(pthread_t éhread, clockid_t *clockid); 








Returns 0 on success, or a positive error number on error 





参数 thread 是 POSIX 线 程 ID， 用 于 指定 希望 获取 的 CPU 时 钟 ID 所 从 
属 的 线程 。 返 回 的 时 钟 ID 存放 于 clockid 指 针 所 指向 的 缓冲 区 中 。 


23.5.4 ”高 分 辨 率 休 眼 的 改进 版 : clock_nanosleep() 


类 似 于 nanosleep0，Linux 特 有 的 clock_nanosleepO 系 统 调 用 也 可 以 
暂停 调用 进程 ， 直 到 历经 一 段 指定 的 时 间 间 隅 后 ， 亦 或 是 收 到 信号 才 恢 


复 运行 。 本 节 将 讨论 两 者 间 的 差 寞 。 





#define XOPEN SOURCE 600 
#include <time.h> 


int clock_nanosleep(clockid t clockid, int flags, 
const struct timespec *request, struct timespec *remazn); 


Returns 0 on successfully completed sleep, 
or a positive error number on error or interrupted sleep 











参数 request 及 remain 同 nanosleepO0 中 的 对 应 参数 目的 相似 。 


默认 情况 下 〈 即 flags 为 0) ， 由 request 指 定 的 休眠 间隔 时 间 是 相对 
时 间 《 类 似 于 nanosleepO0) 。 不 过 ， 如 果 在 flags (参考 程序 清单 23-4) 
中 设 定 了 TIMER_ ABSTIME, request 则 表示 clockid 时 钟 所 测量 的 绝对 时 
间 。 这 一 特性 对 于 那些 需要 精确 休眠 一 段 指定 时 间 的 应 用 程序 至 关 重 
要 。 如 采 只 计算 与 目标 时 间 的 差距 ， 再 以 相对 时 间 
a HEEN BERITE — FMA TO, t RARR E] ke TRH 
Ze o 


如 23.4.2 节 所 述 ， 对 于 那些 被 信号 处 理 器 函数 中 断 并 使 用 循环 重 局 
休眠 的 进程 来 说 , “嗜睡 Coversleeping) ”问题 尤其 明显 。 如 果 以 高 频率 
接收 信号 ， 那 么 按 相 对 时 间 休 眠 (nanosleepO0 所 执行 的 类 型 ) 的 进程 在 
休眠 时 间 上 会 有 较 大 误差。 但 可 以 通过 如 下 方式 来 避免 嗜睡 问题 : 先 调 
用 clock_gettime0 获 取 时 间 ， 加 上 期 望 休眠 的 时 间 量 ， 再 以 
TIMER_ABSTIME 标志 调用 clock_nanosleep0) 函 数 〈 并 且 ， 如 果 被 信号 
处 理 器 中断 ， 则 会 重启 系统 调用 〉。 


指定 TIMER_ABSTIME 时 ， 不 再 ( 且 不 需要 ) 使 用 参数 remain。 如 
果 信 号 处 理 器 程序 中 断 了 clock_nanosleepO 调 用 ， 再 次 调用 该 函数 来 重 
启 休眠 时 ，request 参 数 不 变 。 


将 clock_nanosleep() 与 nanosleep() 区 分 开 来 的 男 一 特性 在 于 ， 可 以 选 
择 不 同 的 时 钟 来 测量 休眠 间隔 时 间 。 可 在 dockid 中 指定 所 期 望 的 时 钟 
CLOCK _REALTIME、CLOCK_MONOTONIC 或 
CLOCK_PROCESS_CPUTIME_ID。 请 参考 表 23-1 对 这 些 时 钟 的 描述 


程序 清单 23-4 演 示 了 clock_nanosleepO 的 用 法 : 针对 
CLOCK_REALTIME 时 钟 ， 以 绝对 时 间 休 有 虐 20 秒 。 












































程序 清单 23-4: 使 用 clock_nanosleep() 





struct timespec request; 
/* Retrieve current value of CLOCK REALTIME clock */ 


if (clock_gettime(CLOCK_REALTIME, &request) == -1) 
errExit("clock_gettime"); 


request.tv_sec += 20; /* Sleep for 20 seconds from now */ 


s = clock nanosleep(CLOCK REALTIME, TIMER ABSTIME, &request, NULL); 
if (s != 0) { 
if (s == EINTR) 
printf ("Interrupted by signal handler\n"); 
else 
errExitEN(s, “clock_nanosleep"); 





23.6 POSIX 间 隔 式 定时 器 
使 用 setitimer() 来 设置 经 典 UNIX 间 隔 式 定时 器 ， 会 受到 如 下 制约 。 





针对 ITIMER_REAL、ITIMER_VIRTUAL 和 ITIMER_PROF 这 3 类 定 
时 器 ， 每 种 只 能 设置 一 个 。 

只 能 通过 发 送信 号 的 方式 来 通知 定时 器 到 期 。 男 外 ， 也 不 能 改变 到 
期 时 产生 的 信号。 

如 果 一 个 间隔 式 定 时 器 到 期 多 次 ， 且 相应 信号 遭 到 阻塞 时 ， 那 么 会 
只 调用 一 次 信号 处 理 堪 函数 。 换 言 之 ， 无 从 知晓 是 否 出 现 过 定时 器 
Yin + (timer overrun) 的 情况 。 

定时 器 的 分 辩 率 只 能 达到 微 秒 级 。 不 过 ， 一 些 系统 的 硬件 时 钟 提 供 
了 更 为 精细 的 时 钟 分 辨 率 ， 软 件 此 时 应 采用 这 一 较 高 分 辨 率 。 


POSIX.1b 定 义 了 一 套 API 来 突破 这 些 限制 ，Linux 2.6 实 现 了 这 一 
API. 











在 较 老 的 Linux 系 统 上 ，glibc 通 过 基于 线程 的 实现 提供 
了 这 一 API 的 不 完整 版 。 不 过 ， 这 种 用 户 空 间 内 的 实现 是 无 
法 提供 此 处 描述 的 所 有 特性 的 。 


POSIX 定 时 器 API 将 定时 器 生命 周期 划分 为 如 下 几 个 阶段 。 


e 以 系统 调用 timer_create() 创 建 一 个 新 定时 占 ， 并 定义 其 到 期 时 对 进 
程 的 通知 方法 。 

。 以 系统 调用 timer_settime() 来 启动 或 停止 一 个 定时 器 。 

。 以 系统 调用 timer_delete() 删 除 不 再 需要 的 定时 器 。 


由 forkO 创 建 的 子 进程 不 会 继承 POSIX 定 时 器 。 调 用 exec0 期 间 亦 或 
进程 终止 时 将 停止 并 删除 定时 器 。 





Linux 上， 调用 POSIX 定 时 器 API 的 程序 编译 时 应 使 用 -lrt 选 项 ， 从 而 
与 librt〈 实 时 ) 函数 库 相 链接 。 


23.6.1 SENT As: timer_create() 


函数 timer_create0 创 建 一 个 新 定时 器 ， 并 以 由 clockid 指 定 的 时 钟 来 
进行 时 间 上 度量。 





#define POSIX C SOURCE 199309 

#include <signal.h> 

#include <time.h> 

int timer_create(clockid_t clockid, struct sigevent *tevp, timer_t *ézmerid); 


Returns 0 on success, or -1 on error 











设置 参数 clockid， 可 以 使 用 表 23-1 中 的 任意 值 ， 也 可 以 采用 
clock_getcpuclocid()#pthread_getcpuclockid()i |=] clockid{E . pk ŽUR El 
时 会 在 参数 timerid 所 指 癌 的 缓冲 区 中 放置 定时 器 句柄 (handle〉， 供 后 
续 调用 中 指 代 该 定时 器 之 用 。 这 一 缓冲 区 的 类 型 为 timer_t+， 是 一 种 由 
SUSv3 定 义 的 数据 类 型 ， 用 于 标识 定时 絮 。 


参数 evp 可 决定 定时 器 到 期 时 对 应 用 程序 的 通知 方式 ， 指 问 类 型 为 
sigevent 的 数据 结构 ， 具 体 定义 如 下 : 





union sigval { 


int sival int; /* Integer value for accompanying data */ 
void *sival ptr; /* Pointer value for accompanying data */ 
}5 
struct sigevent { 
int sigev_notify; /* Notification method */ 
int sigev_signo; /* Timer expiration signal */ 
union sigval sigev_value; /* Value accompanying signal or 
passed to thread function */ 
union { 
pid t _tid; /* ID of thread to be signaled / 
struct { 


void (* function) (union sigval); 
/* Thread notification function */ 
void * attribute; /* Really ‘pthread attr t *' */ 
} _sigev_thread; 
} _sigev_un; 
}; 
#define sigev notify function _Sigev_ un. sigev thread. function 


#define sigev notify attributes _sigev un, sigev thread. attribute 
#define sigev notify thread id _sigev un. tid 


可 以 表 23-2 所 示 值 之 一 来 设置 结构 中 的 sigev_notify 字 段 。 


表 23-2: sigevent 结 构 中 sigev_notify 字 段 的 值 











sigev_notify 的 值 





SIGEV_NONE 不 通知 ; 使 用 timer_gettime() 监 测定 时 器 





SIGEV_SIGNAL 发 送 sigev_signo 信 号 给 进 


SIGEV_THREAD 调用 sigev_notify_function 作 为 新 线程 的 启动 函数 





SIGEV THREAD ID | 发 送 sigev_signo 信 和 号 给 sigev_notify_thread_id 所 标识 的 
z AE 











关于 sigev_notify 常 量 值 的 更 多 细节 ， 以 及 sigval 结 构 中 与 每 个 常量 
值 相关 的 字段 ， 特 做 如 下 说 明 。 


SIGEV_NONE 


不 提供 定时 器 到 期 通知 。 进 程 可 以 使 用 timer_gettime() 来 监控 定时 
器 的 运转 情况 。 


SIGEV_SIGNAL 


定时 器 到 期 时 ， 为 进程 生成 指定 于 sigev_signo 中 的 信号 。 如 果 
sigev_signal 为 实时 信号 ， 那 么 sigev_value 字 段 则 指定 了 信和 号 的 伴随 数据 
( 整 型 或 指针 ) (22.8.1 节 ) 。 通 过 siginfo_t 结 构 的 si_value 可 获取 这 一 
数据 ， 至 于 siginfo_t 结 构 ， 既 可 以 直接 传递 给 该 信号 的 处 理 器 函数 ， 也 

可 以 由 调用 sigwaitinfo0) 或 sigtimerdwaitO 返 回 。 


SIGEV_THREAD 


定时 器 到 期 时 ， 会 调用 由 sigev_notify_function 字 段 指定 的 函数 。 调 
用 该 函数 类 似 于 调用 新 线程 的 局 动 函 数 。 上 述 措 词 摘 自 SUSv3， 即 允许 
系统 实现 以 如 下 两 种 方式 为 周期 性 定时 器 产生 通知 : 要 么 将 每 个 通知 分 
列传 递 给 一 个 唯一 的 新 线程 ， 要 么 将 通知 成 系列 发 送 给 单个 新 线程 。 可 
将 Sigev_notify_attribytes 字 段 置 为 NULL， 或 是 指向 pthread_attr_t 结 构 的 
间 针 ， 并 在 结构 中 定义 线程 属性 。 在 sigev_value 中 设 定 的 联合 体 sigval 值 
是 传递 给 函数 的 唯一 参数 。 


SIGEV_THREAD_ID 


这 与 SIGEV_SIGNAL 相 类 似 ， 只 是 发 送信 号 的 目标 线程 ID 要 与 

sigev_notify thread_id 相 匹配 。 该 线程 应 与 调用 线程 同属 一 个 进程 。 

(伴随 SIGEV_SIGNAL 通 知 ， 会 将 信号 置 于 针对 整个 进程 的 一 个 队列 中 
排队 ， 并 且 ， 如 果 进 程 包含 多 条 线程 ， 那 么 可 将 信号 传递 给 进程 中 的 任 
意 线程 。) 可 用 dlone() 或 gettid0 的 返回 值 对 sigev_notify_ thread _id Jit 
值 。 设 计 SIGEV_THREAD_ID 标 志 ， 意 在 供 线程 库 使 用 。 【要求 线程 
实现 使 用 28.2.1 节 描 述 的 CLONE_THREAD 选 项 。 现 代 NPTL 线 程 实现 采 
用 了 CLONE_THREAD， 但 较 老 的 LinuxThreads 线 程 则 没有 。 ) 














除去 Linux 系 统 特 有 的 SIGEV_THREAD ID 之 外 ，SUSv3 定 义 了 上 
述 所 有 常量 。 


将 参数 evp 置 为 NULL， 这 相当 于 将 sigev_notify 置 为 
SIGEV_SIGNAL， 同 时 将 sigev_signo 置 为 SIGALRM (这 与 其 他 系统 可 


能 会 有 出 入 ， 因 为 SUSv3 的 措 词 是 : 一 个 缺 省 的 信号 值 ) ， 并 将 
sigev_value.sival_int 置 为 定时 器 ID。 


在 当前 实现 中 ， 内 核 会 为 每 个 用 timer_create() 创 建 的 POSIX 定 时 器 

在 队列 中 预 分 配 一 个 实时 信号 结构 。 之 所 以 要 采取 预 分 配 ， 则 在 确保 当 

定时 器 到 期 时 ， 人 至 少 有 一 个 有 效 结构 可 服务 于 所 产生 的 队列 化 信号 。 这 

er ce tenn ( 
22.877) o 





23.6.2 ”配备 和 解除 定时 器 : timer_settime() 


一 且 创 建 了 定时 器 ， 就 可 以 使 用 timer_settime(O 对 其 进行 配备 〈 启 
动 ) 或 解除 (停止 〉。 





#define POSIX C SOURCE 199309 
#include <time.h> 


int timer_settime(timer_t t2merid, int flags, const struct itimerspec *value, 
struct itimerspec *old_value); 


Returns 0 on success, or -1 on error 














K #Xtimer_settime() JF AWtimeridse —* EM 48 AJAY (handle) , H 
之 前 对 timer_create() 的 调用 返回 。 


参数 value 和 old_value 则 类 似 于 函数 setitimer() 的 同名 参数 : value 中 
包含 定时 器 的 新 设置 ，old_value 则 用 于 返回 定时 器 的 前 一 设置 (参考 稍 
后 对 timer_gettime() 的 说 明 〉。 如 果 对 定时 器 的 前 一 设置 不 感 兴 趣 ， 可 
将 old_value 设 为 NULL。 参 数 value 和 old_value 都 是 指向 结构 itimerspec 的 
指针 ， 该 结构 定义 如 下 : 


struct itimerspec { 
struct timespec it interval; /* Interval for periodic timer */ 
struct timespec it_value; /* First expiration */ 


E 





结构 iimerspec 中 的 所 有 字段 都 是 timespec 类 型 的 结构 ， 用 秒 和 纳 秒 
来 指定 时 间 : 





struct timespec { 
time_t tv_sec; /* Seconds */ 
long tv_nsec; /* Nanoseconds */ 


i 





it_value 指 定 了 和 定时 喜 首 次 到 期 的 时 间 。 如 果 it_interval 的 任 一 子 字 
段 非 0， 那 么 这 就 是 一 个 周期 性 定时 右 ， 在 经 历 了 由 it_value 指 定 的 初次 
到 期 后 ， 会 按 这 些 子 字段 指定 的 频率 周期 性 到 期 。 如 果 it_interval 的 下 属 
字段 均 为 0， 那 么 这 个 定时 器 将 只 到 期 一 次 。 


知 将 flags 置 为 0， 则 会 将 value.it_value 视 为 始 于 timer_settime0O (与 
setitimer() 类 似 ) 调用 时 间 点 的 相对 值 。 如 果 将 flags 设 为 
TIMER_ABSTIME， 那 么 value.it_value 则 是 一 个 绝对 时 间 (从 时 钟 值 0 开 
始 ) 。 一旦 时 钟 过 了 这 一 时 间 ， 定 时 器 会 立即 到 期 。 


为 了 启动 定时 器 ， 需 要 调用 函数 timer_settime(0， 并 将 value.it_value 
的 一 个 或 全 部 下 属 字 上 段 设 为 非 0 值 。 如 果 之 前 曾经 配备 过 定时 器 ， 
timer_settime() 会 将 之 前 的 设置 蔡 换 掉 。 


如 果 定 时 器 的 值 和 间隔 时 间 并 非 对 应 时 钟 分辨 率 〈 由 clock_getres() 
返回 ) 的 整数 倍 ， 那 么 会 对 这 些 值 做 向 上 取 整 处 理 。 


定时 器 每 次 到 期 时 ， 都 会 按 特 定 方式 通知 进程 ， 这 种 方式 由 创建 定 
时 堪 的 timer_create0 定 义 。 如 果 结 构 iL_interval 包 含 非 0 值 ， 那 么 会 用 这 
些 值 来 重新 加 载 it_value 结 构 。 


要 解除 定时 器 ， 需 要 调用 timer_settime()， 并 将 value.it_value 的 所 有 
字段 指定 为 0。 














23.6.3 ”获取 定时 器 的 当前 值 : timer_gettime() 


系统 调用 timer_gettime0O 返 回 由 timerid 指 定 POSIX 定 时 器 的 间隔 以 及 
剩余 时 间 。 





#define POSIX C SOURCE 199309 
#include <time.h> 


int timer_gettime(timer_t é¢merid, struct itimerspec *curr_value); 





Returns 0 on success, or -1 on error 








curr_value 指 针 所 指向 的 iimerspec 结 构 中 返回 的 是 时 间 间 隔 以 及 距 
离 下 次 定时 器 到 期 的 时 间 。 即 使 是 以 TIMER_ABSTIME 标 志 创 建 的 绝对 
时 间 定 时 器 ， 在 curr_value.it_value 字 段 中 返回 的 也 是 距离 定时 器 下 次 到 
期 的 时 间 值 。 


如 果 返 回 结 构 curr_value.it_value 的 两 个 字段 均 为 0， 那 么 定时 器 当 
前 处 于 停止 状态 。 如 果 返 回 结 构 curr_value.it_interval 的 两 个 字段 都 是 0， 
那么 该 定时 器 仅 在 curr_value.it_value 给 定 的 时 间 到 期 过 一 次 。 
23.6.4 删除 定时 器 : timer_delete() 


每 个 POSIX 定 时 器 都 会 消耗 少量 系统 资源 。 所 以 ， 一 旦 使 用 完毕 
应 当 用 timer_delete() 来 移 除 定时 器 并 释放 这 些 资源 。 





#define POSIX C SOURCE 199309 
#include <time.h> 


int timer _delete(timer_t timerid); 


Returns 0 on success, or -1 on error 











参数 timerid 是 之 前 调用 timer_create0 时 返回 的 句柄 。 对 于 已 启动 的 
定时 器 ， 会 在 移 除 前 自动 将 其 停止 。 如 果 因 定时 器 到 期 而 已 经 存在 待定 
(pending) 信和 号， 那么 信号 会 保持 这 一 状态 。 (SUSV3 对 此 并 未 加 以 规 
范 ， 所 以 其 他 的 一 些 UNIX 实 现 可 能 会 有 不 同行 为 。) 当 进 程 终止 时 ， 
会 日 动 删 除 所 有 定时 器 。 


23.6.5 ”通过 信号 发 出 通知 


如 果 选 择 通 过 信和 与 来 接收 定时 器 通知 ， 那 么 处 理 这 些 信号 时 既 可 以 
采用 信号 处 理 器 函数 ， 也 可 以 调用 sigwaitinfo0) 或 是 sigtimerdwaitO) 。 接 
收 进程 借助 于 这 两 种 方法 可 以 获得 一 个 siginfo_t 结 构 (21.4 市 ) ， 其 中 
包含 与 信号 相关 的 深入 人 信息。 要 在 信号 处 理 器 函数 中 使 用 这 种 特性 ， 
创建 信号 处 理 器 函数 时 需 设置 SA_SIGINFO 标 志 。) 在 结构 siginfo_t 中 
设置 如 下 字段 。 


e si signo: 包含 由 定时 器 产生 的 信号。 
e si code: 置 为 SIL_TIMER， 表 示 这 是 因 POSIX 定 时 器 到 期 而 产生 的 
la Te 








e si value: 将 该 字段 置 为 以 timer_create0) 创 建 定时 器 时 在 
evp.sigev_value 中 提供 的 值 。 为 evp.sigev_value 指 定 不 同 的 值 ， 可 以 


将 到 期 时 发 送 同类 信号 的 不 同 定 时 器 区 分 开 来 。 
调用 timer_create0 时 ， 通 常 将 evp.sigev_value.sival_ptr 赋 值 为 当前 调 
用 中 参数 timerid 的 地 址 〈 见 程序 清单 23-5) 。 从 而 允许 信号 处 理 器 函数 
《或 sigwaitinfoO 调 用 ) 获得 产生 信号 的 定时 器 ID 。“【 另 外 ， 也 可 以 将 
调用 函数 timer_create0 时 给 定 的 timerid 参 数 置 于 一 结构 中 ， 并 将 结构 地 
址 赋予 evp.sigev_value.sival_ptr。 ) 
Linux 还 为 siginfo_t 结 构 提 供 了 如 下 非 标 准 字段 。 


e si overun: 包含 了 定时 器 洲 出 个 数 《〈 在 23.6.6 节 中 说 明 ) 。 








Linux 还 支持 另 一 个 非 标准 字段 si_timerid， 其 中 包含 一 
个 标识 符 ， 供 系统 内 部 识别 定时 堪 之 用 《与 timer_create0 返 
回 的 ID 不 同 ) 。 对 于 应 用 程序 来 说 没什么 用 处 。 





程序 清单 23-5 所 演示 的 是 使 用 信号 作为 POSIX 定 时 右 的 通知 机 制 。 


23-5: 使 用 信号 进行 POSIX 定 时 器 通知 





























程序 清 


timers/ptmr_sigev_signal.c 
#define POSIX C SOURCE 199309 
#include <signal.h> 
#include <time.h> 
#include “curr_time.h" /* Declares currTime() */ 
#include “itimerspec_from_str.h" /* Declares itimerspecFromStr() */ 
#include “tlpi hdr.h" 


#define TIMER SIG SIGRTMAX /* Our timer notification signal */ 
static void 
D handler(int sig, siginfo t *si, void *uc) 
{ 
timer 七 *tidptr; 


tidptr = si->si value.sival ptr; 


/* UNSAFE: This handler uses non-async-signal-safe functions 
(printf(); see Section 21.1.2) */ 


printf("[%s] Got signal %d\n", currTime("%T"), sig); 
printf(" *sival ptr = 41d\n", (long) *tidptr); 
printf(" timer _getoverrun() = 4d\n", timer getoverrun(*tidptr)); 


} 


int 
main(int argc, char *argv[]) 


struct itimerspec ts; 
struct sigaction sa; 
struct sigevent sev; 
timer t *tidlist; 

int j; 


if (argc < 2) 
usageErr("%s secs[/nsecs][:int-secs[/int-nsecs]]...\n", argv[0]); 


tidlist = calloc(arge - 1, sizeof(timer_t)); 
if (tidlist == NULL) 
errExit("malloc"); 


/* Establish handler for notification signal */ 


sa.sa_flags = SA_SIGINFO; 
sa.Sa Sigaction = handler; 
sigemptyset(&sa.sa_mask); 

© if (sigaction(TIMER_SIG, &sa, NULL) == -1) 
errExit("sigaction"); 


/* Create and start one timer for each command-line argument */ 


sev.sigev notify = SIGEV SIGNAL; /* Notify via signal */ 
sev.sigev signo = TIMER SIG; /* Notify using this signal */ 


for (j = 0; j < argc = 1; j++) { 
©; itimerspecFromStr(argv[j + 1], &ts); 


sev.sigev_value.sival_ptr = &tidlist[j]; 
/* Allows handler to get ID of this timer */ 


@ if (timer _create(CLOCK REALTIME, &sev, &tidlist[j]) == -1) 
errExit ("timer create"); 
printf("Timer ID: %ld (%s)\n", (long) tidlist[j], argv[j + 1]); 
®© if (timer settime(tidlist[j], 0, &ts, NULL) == -1) 
errExit ("timer_settime"); 
} 
© for (;;) /* Wait for incoming timer signals */ 


pause(); 


timers/ptmr_sigev_signal.c 





程序 清单 23-5 程 序 的 每 个 命令 行 参 数 都 为 定时 融 指 定 了 初始 值 及 间 
隔 时 间 。 程 序 的 “用 法 ?输出 中 描述 了 这 些 参数 的 语法 ， 并 在 后 面 的 shell 
会 话 中 做 了 演示 。 程 序 执行 的 步骤 如 下 。 


。 为 用 于 定时 器 通知 的 信号 创建 处 理 器 函数 @。 

。 为 每 一 个 命令 行 参数 ， 创 建 由 并 配备 @@ 一 个 使 用 SIGEV_SIGNAL 通 
知 机 制 的 POSIX 定 时 器 。 至 于 将 命令 行 参 数 转换 G@) 为 itimerspec 结 构 
的 函数 itimerspecFromStr()， 请 参考 程序 清单 23-6。 

。 每 当 一 个 定时 右 到 期 时 ， 都 将 发 送 由 sev.sigev_signo 指 定 的 信号 给 
进程 。 信 和 号 处 理 器 函数 会 将 sev.sigev_value.sival_ptr 中 提供 的 值 〈 定 
时 器 ID，tidlistrj]) 以 及 定时 器 溢出 值 中 显示 出 来 。 

° T 在 循环 中 反复 调用 pause()， 以 等 待定 时 器 
1 期 (6)。 








程序 清单 23-6 中 函数 可 将 程序 23-5 的 命令 行 参数 转化 为 相应 的 
itimerspec 结 构 。 函 数 可 识别 的 字符 串 参 数 格式 在 源码 文件 开始 的 注释 中 
做 了 说 明 (并 在 下 面 的 shell 会 话 中 做 了 演示 )。 


程序 清单 23-6: 将 “时 间 + 间 隔 ” 的 字符 串 转 换 为 iimerspec 的 值 
































timers/itimerspec_from_str.c 


#define POSIX C SOURCE 199309 

#include <string.h> 

#include <stdlib.h> 

#include "“itimerspec from str.h" /* Declares function defined here */ 


/* Convert a string of the following form to an itimerspec structure: 
"value.sec[/value.nanosec][:interval.sec[/interval.nanosec]]". 
Optional components that are omitted cause 0 to be assigned to the 
corresponding structure fields. */ 


void 
itimerspecFromStr(char *str, struct itimerspec *tsp) 


{ 


char *cptr, *spty; 


cptr = strchr(str, ':'); 
if (cptr != NULL) 
*cptr = '\0'; 


sptr = strchr(str, '/'); 
if (sptr != NULL) 
*sptr = '\0'; 


tsp->it_value.tv_sec = atoi(str); 
tsp->it value.tv nsec = (sptr != NULL) ? atoi(sptr + 1) : 0; 
if (cptr == NULL) { 
tsp->it_interval.tv_sec = 0; 
tsp->it_interval.tv_nsec = 0; 
} else { 
sptr = strchr(cptr + 1, '/'); 
if (sptr != NULL) 
*sptr = '\0'; 
tsp->it_interval.tv_sec = atoi(cptr + 1); 
tsp->it_interval.tv_nsec = (sptr != NULL) ? atoi(sptr + 1) : 0; 


timers/itimerspec_from_str.c 


如 下 shell 会 话 演示 了 对 程序 清单 23-5 中 程序 的 调用 ， 创 建 了 一 个 初 
始 到 期 值 为 2 秒 ， 间 隅 时 间 为 5 秒 的 定时 峰 。 


$ ./ptmy_sigev_signal 2:5 

Timer ID: 134524952 (2:5) 

[15:54:56] Got signal 64 SIGRTMAX is signal 64 on this system 
*sival ptr = 134524952 sival_ptr points to the variable tid 
timer_getoverrun() = 0 

[15:55:01] Got signal 64 
*sival ptr = 134524952 
timer_getoverrun() = 0 

Type Control-Z to suspend the process 

[1]+ Stopped ./ptmr_sigev_signal 2:5 


挂 起 程序 后 ， 暂 停 几 秒 钟 ， 在 恢复 程序 运行 之 前 会 有 多 个 定时 器 到 





FIJo 

$ fg 

./ptmr_sigev_ signal 2:5 

[15:55:34] Got signal 64 
*sival ptr = 134524952 
timer _getoverrun() = 

Type Control-C to kill the program 


程序 输出 的 最 后 一 行 表明 发 生 了 5 次 定时 器 溢出 ， 亦 即 在 捕获 上 一 
信号 之 后 定时 器 到 期 了 6 次 。 


23.6.6 ”定时 器 洲 出 


假设 已 经 选择 通过 信号 〈 即 sigev_notify 为 SIGEV_SIGNAL ) 传递 的 
方式 来 接收 定时 器 到 期 通知 。 进 一 步 假 设 ， 在 捕获 或 接收 相关 信号 之 
前 ， 定 时 器 到 期 多 次 。 这 可 能 是 因为 进程 再 次 获得 调度 前 的 延 时 所 致 。 
另外， 不 论 是 直接 调用 sigprocmask()， 还 是 在 信号 处 理 器 函数 里 暗中 处 
理 ， 也 都 有 可 能 堵塞 相关 信和 号 的 发 送 。 如 何 知 道 发 生 了 这 些 定 时 器 溢出 
呢 ? 


也 许 会 认为 使 用 实时 信号 有 助 于 解决 这 个 问题 ， 因 为 可 以 对 实时 信 
号 的 多 个 实例 进行 排队 。 不 过 ， 由 于 对 排队 实时 信号 有 数量 上 的 限制 ， 
结果 证 明 这 种 方法 也 无 法 奏效 。 所 以 POSIX.1b 委 员 会 选用 了 男 一 Dn 
法 : 一 旦 选择 通过 信和 号 来 接收 定时 器 通知 ， 那 么 即便 用 了 实时 信号 ， 也 
绝 不 会 对 该 信号 的 多 个 实例 进行 排 了 从。 相反， 在 接收 信号 后 〈 无 论 是 通 
过 信号 处 理 器 函数 还 是 调用 sigwaitinfo0 ) ， 可 以 获取 定时 器 溢出 计数 ， 
即 在 信号 生成 与 接收 之 间 发 生 的 定时 器 到 期 额外 次 数 。 如 果 上 次 收 到 信 
守 后 定时 器 发 生 了 3 次 到 期 ， 那 么 溢出 计数 是 2。 















































接收 到 定时 器 信号 之 后 ， 有 两 种 方法 可 以 获取 定时 需 洪 出 值 。 


e 调用 timer_getoverrun()， 稍 后 将 会 讨论 。 这 是 由 SUSvV3 指 定 去 获取 
洲 出 计数 的 方法 。 

。 使 用 随 信号 一 同 返回 的 结构 siginfo_t 中 的 si_overrun 字段 值 。 这 种 
方法 可 以 避免 timer_getoverrun0O 的 系统 调用 开销 ， 但 同时 也 是 一 种 
Linux 扩 展 方法 ， 无 法 移植 。 


每 次 收 到 定时 器 信号 后 ， 都 会 重 置 定时 器 汶 出 计数 。 奉 目 处 理 或 接 
收 定时 器 信号 之 后 ， 定 时 费 仅 到 期 一 次 ， 则 海 出 计数 为 0〈 即 无 洲 
ae ee 








#define _POSIX_C SOURCE 199309 
ftinclude <time.h> 


int timer_getoverrun(timer t timerid); 





Returns timer overrun count on success, or -l on error 





函数 timer_getoverrun() 返 回 由 参数 timerid 指 定 定时 器 的 溢出 值 。 








根据 SUSv3 规 定 〈 表 21-1) ， 函 数 timer_getoverrun(O 是 异步 信号 安 
全 的 函数 之 一 ， 故 而 在 信号 处 理 器 函数 内 部 调用 也 是 安全 的 。 


23.6.7 ”通过 线程 来 通知 


SIGEV_THREAD 标 志 人 允许 程序 从 一 个 独立 的 线程 中 调用 函数 来 获 
取 定 时 器 到 期 通知 。 要 理解 这 一 标志 的 含义 ， 需 要 具备 第 29 章 和 第 30 章 
中 关于 POSIX 线 程 的 知识 。 如 果 不 了 解 POSIX 线 程 ， 那 么 在 查看 本 节 示 
例 程序 前 ， 可 能 需要 预先 阅读 一 下 这 些 章节 。 


程序 清单 23-7 演 示 了 SIGEV_THREAD 的 使 用 。 该 程序 的 命令 行 参 
数 与 程序 清单 23-5 相 同 。 所 执行 的 步骤 如 下 。 


。 针对 每 个 命令 行 参 数 ， 程 序 都 创建 @ 并 配备 四 一 个 使 用 了 
SIGEV_THREAD 通 知 机 制 @ 的 POSIX 定 时 器 。 

。 每 当 定时 器 到 期 时 ， 会 在 一 条 独立 线程 中 调用 由 
sev.Ssigev_notify_function 指 定 的 函数 。 调 用 函数 时 ， 使 用 由 
sev.Sigev_value.sival_ptr 指 定 的 值 作为 参数 。 程 序 中 会 将 定时 器 





ID (tidlist[j]) 的 地 址 赋 给 该 字段 @， 以 便 在 调用 通知 函数 时 可 以 
获得 定时 器 ID。 

创建 和 配备 所 有 定时 器 之 后 ， 主 程序 进入 循环 并 等 待定 时 器 到 期 
(8)。 每 次 循环 ， 程 序 都 会 调用 pthread_cond_wait()， 等 待 处 理 定时 
器 通知 的 线程 束 条 件 变 量 (cond) 发 出 信号。 

每 次 定时 器 到 期 都 会 调用 函数 threadFuncOQ)。 在 打印 消息 后 ， 增 加 
全 局 变量 expireCnt 的 值 。 考 外 到 定时 右 可 能 洲 出 ， 会 将 
timer_getoverrun() 的 返回 值 也 加 入 expireCnt 变 量 中 。 〈23.6.6 节 解释 
了 定时 器 漆 出 与 IGEV_SIGNAL 通 知 机 制 之 间 的 关系 。 定 时 器 溢出 
还 可 以 与 SIGEV_THREAD 机 制 协作 使 用 ， 因 为 在 调用 通知 函数 

前 ， 定 时 器 可 能 会 多 次 到 期 。) 通知 函数 就 条 件 变量 (cond) 发 出 
信号 ， 告 知 主 程序 定时 器 到 期 。 


下 面 的 shell 会 话 日 志 展 示 了 对 程序 清单 23-7 中 程序 的 调用 。 在 本 例 
中 ， 程 序 创建 了 两 个 定时 器 : 一 个 定时 需 首 次 到 期 时 间 为 5 秒 ， 并 设置 
了 5 秒 的 时 间 间 隔 ， 另 一 个 初次 到 期 时 间 为 10 秒 ， 并 设置 了 10 秒 的 时 间 


间隔 。 














$ ./ptmr_sigev_thread 5:5 10:10 
Timer ID: 134525024 (5:5) 
Timer ID: 134525080 (10:10) 
[13:06:22] Thread notify 
timer ID=134525024 
timer_getoverrun()=0 
main(}: count = 1 
[13:06:27] Thread notify 
timer ID=134525080 
timer_getoverrun()=0 
main(): count = 2 
[13:06:27] Thread notify 
timer ID=134525024 
timer_getoverrun()=0 
main(): count = 3 
Type Conitrol-Z to suspend the program 
[1]+ Stopped ./ptmr_sigev_thread 5:5 10:10 
$ fg Resume execution 
./ptmr_sigev_thread 5:5 10:10 
[13:06:45] Thread notify 
timer ID=134525024 
timer _getoverrun()=2 There were timer overruns 
main(): count = 6 
[13:06:45] Thread notify 
timer ID=134525080 
timer_getoverrun()=0 
main(): count = 7 
Type Control-C to kill the program 








程序 清单 23-7: 使 用 线程 函数 发 送 POSIX 定 时 器 通知 





timers/ptmy_sigev_thread.c 
#include <signal.h> 
#include <time.h> 
#include <pthread.h> 


#include “curr time.h" /* Declaration of currTime() */ 
#include "tlpi hdr.h" 
#include "itimerspec from str.h" /* Declares itimerspecFromStr() */ 


static pthread_mutex_t mtx = PTHREAD MUTEX_INITIALIZER; 
Static pthread_cond_t cond = PTHREAD COND_INITIALIZER; 


static int expireCnt = 0; /* Number of expirations of all timers */ 
static void /* Thread notification function */ 

GD threadFunc(union sigval sv) 
{ 


timer_t *tidptr; 
int $; 


tidptr = sv.sival ptr; 


printf("[%s] Thread notify\n", currTime("%T")); 
print f(" timer ID=%1ld\n", (long) *tidptr); 
printf(" timer_getoverrun()=%d\n", timer_getoverrun(*tidptr)); 


/* Increment counter variable shared with main thread and signal 
condition variable to notify main thread of the change. */ 


s = pthread mutex _lock(&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex lock"); 


expireCnt += 1 + timer_getoverrun(*tidptr) ; 


s = pthread_mutex_unlock(&mtx) ; 
if (s != 0) 
errExitEN(s, "pthread_mutex_unlock"); 


@ s = pthread cond signal (&cond); 
if (s != 0) 
errExitEN(s, "pthread_cond_signal"); 


} 


int 
main(int argc, char *argv[]) 


struct sigevent sev; 
struct itimerspec ts; 
timer_t *tidlist; 

int s, j; 


OO 


if (argc < 2) 
usageErr("%s secs[/nsecs][:int-secs[/int-nsecs]]...\n", argv[0]); 


tidlist = calloc(argc - 1, sizeof(timer_t)); 
if (tidlist == NULL) 
errExit("malloc"); 


sev.sigev_notify = SIGEV_THREAD; /* Notify via thread */ 
sev.sigev_ notify function = threadFunc; /* Thread start function */ 
sev.sigev_notify_attributes = NULL; 

/* Could be pointer to pthread_attr_t structure */ 


/* Create and start one timer for each command-line argument */ 


for (j = 0; j < argc - 1; j++) { 
itimerspecFromStr(argv[j + 1], &ts); 


sev.sigev_value.sival ptr = &tidlist[j]; 
/* Passed as argument to threadFunc() */ 


if (timer _create(CLOCK REALTIME, &sev, &tidlist[j]) == -1) 
errExit ("timer create"); 
printf("Timer ID: %ld (%s)\n", (long) tidlist[j], argv[j + 1]); 


if (timer_settime({tidlist[j], 0, &ts, NULL) == -1) 
errExit("timer_settime"); 


} 


/* The main thread waits on a condition variable that is signaled 
on each invocation of the thread notification function. We 
print a message so that the user can see that this occurred. */ 


s = pthread mutex lock(&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex lock"); 


for (33) { 
s = pthread_cond_wait(&cond, &mtx); 
if (s != 0) 
errExitEN(s, "pthread cond wait"); 
printf("main(): expireCnt = %d\n", expireCnt); 


timers/ptmy_sigev_thread.c 


23.7 AFA SC PP anh FF ET I A XE a: timerfd 
API 


始 于 版 本 2.6.25，Linux 内 核 提 供 了 男 一 种 创建 定时 器 的 API。Linux 
特有 的 timerfd API， 可 从 文件 描述 符 中 读 取 其 所 创建 定时 器 的 到 期 通 
知 。 因 为 可 以 使 用 select0、poll0 和 epollO0 (将 在 第 63 章 进行 讨论 ) 将 这 
种 文件 描述 符 会 同 其 他 描述 符 一 同 进行 监控 ， 所 以 非常 实用 。 “至 于 说 
本 章 讨论 的 其 他 定时 器 API， 想 要 把 一 个 或 多 个 定时 器 与 一 组 文件 描述 
符 放 在 一 起 同时 监测 ， 可 不 是 件 容易 的 事 。) 


这 组 API 中 的 3 个 新 系统 调用 ， 其 操作 与 23.6 节 所 述 的 


timer_create()、timer_settime() 和 timer_gettimeO 相 类 似 。 


新 加 入 的 第 1 个 系统 调用 是 timerfd_create()， 它 会 创建 一 个 新 的 定时 
器 对 象 ， 并 返回 一 个 指 代 访 对象 的 文件 描述 符 。 





#include <sys/timerfd.h> 


int timerfd_create(int clockid, int flags); 


Returns file descriptor on success, or -1 on error 











参数 clockid 的 值 可 以 设置 为 CLOCK_REALTIME 或 
CLOCK MONOTONIC (参考 表 23-1) 。 


timerfd_createO0 的 最 初 实现 将 参数 flags 预 留 供 未 来 使 用 ， 必 须 设 置 
为 0。 不 过 ，Linux 内 核 从 2.6.27 版 本 开始 支持 下 面 两 种 flags 标 志 。 
TFD_CLOEXEC 

为 新 的 文件 描述 符 设 置 运行 时 关闭 标志 (FD_CLOEXEC) . 与 
4.3.1 节 介绍 的 open0 标 志 O_CLOEXEC 适 用 于 相同 情况 。 


TEFD_NONBLOCK 


为 底层 的 打开 文件 描述 设置 O0 NONBLOCK 标 志 ， 随 后 的 读 操 作 将 
这 样 设置 省 却 了 对 fcnt0 的 额外 调用 ， 却 能 达到 相同 效 


timerfd _create() 8I 42 19 定时 器 使 用 完毕 后 ， 应 调用 close() 关 闭 相 应 
的 文件 描述 符 ， 以 便于 内 核能 够 释放 与 定时 器 相关 的 资源 。 


系统 调用 timerfd_settime() 可 以 配备 (启动 ) 或 解除 〈 停 止 ) 由 文件 
描述 符 fd 所 指 代 的 定时 器 。 





#include <sys/timerfd.h> 


int timerfd_settime(int fd, int flags, const struct itimerspec *new_value, 
struct itimerspec *old_value); 


Returns 0 on success, or -1 on error 














参数 new Value 为 定时 器 指 定 新 设置 。 参 数 old_value 可 用 来 返 
时 器 的 前 一 设置 (细节 请 参考 随后 对 timerfd_gettime() 的 说 明 〉 。 如 果 不 
关心 定时 器 的 前 一 设置 ， 可 将 old_value 置 为 NULL。 两 个 参数 均 指向 
itimerspec 结 构 ， 用 法 与 timer_settime() (参考 23.6.2 节 ) 相同 。 


参数 flags 与 timer_settime() 中 的 对 应 参数 类 似 。 可 以 是 09， 此 时 将 
new_value.it_value 的 值 视 为 相对 于 调用 timerfd_settimeO 时 间 点 的 相对 时 
间 ， 也 可 以 设 为 TFD_TIMER_ABSTIME， 将 其 视 为 一 个 绝对 时 间 (从 
时 钟 的 0 点 开始 测量 ) 。 


系统 调用 timerfd_gettime(O 返 回 文件 描述 符 fd 所 标识 定时 器 的 间隔 及 
剩余 时 间 。 








#include <sys/timerfd.h> 


int timerfd_gettime(int fd, struct itimerspec *curr_value) ; 


Returns 0 on success, or -1 on error 











同 timer _gettime() “FF ， 间 隔 以 及 距离 下 次 到 期 的 时 间 均 返回 
curr_value 指 向 的 结构 itimerspec 中 。 即 使 是 以 TFD_TIMER_ABSTIME 标 
志 创 建 的 绝对 时 间 定 时 器 ，curr_vallue. it_value 字 段 中 返回 值 的 意义 也 
会 保持 不 变 。 如 果 返 回 的 结构 curr_value.it_value 中 所 有 字段 值 均 为 0， 
那么 该 定时 器 已 经 被 解除 。 如 果 返 回 的 结构 curr_value.it_interval 中 两 字 
段 值 均 为 0， 那 么 定时 堪 只 会 到 期 一 次 ， 到 期 时 间 在 curr_value.it_value 
中 给 出 。 





timerfd 与 fork() 及 exec() 之 间 的 交互 


调用 fork0O 期 间 ， 子 进程 会 继承 timerfd_create() 所 创建 文件 描述 符 的 
找 贝 。 这 些 摘 述 符 与 父 进 程 的 对 应 描述 符 均 指 代 相 同 的 定时 占 对 象 ， 任 
一 进程 都 可 读 取 定时 右 的 到 期 信息 。 


timerfd_create() 创 建 的 文件 摘 述 符 能 跨越 exec() 得 以 保存 (除非 将 插 
述 符 置 为 运行 时 关闭 ， 如 27.4 节 所 述 ) ， 己 配备 的 定时 器 在 exec() 之 后 
会 继续 生成 到 期 通知 。 


从 timerfd 文 件 描述 符 读 取 


一 旦 以 timerfd_settime() 启 动 了 定时 右 ， 束 可 以 从 相应 文件 描述 符 中 
调用 read0) 来 读 取 定时 器 的 到 期 信息 。 出 于 这 一 目的 ， 传 给 read0 的 缓冲 
区 必须 足以 容纳 一 个 无 符号 8 字 节 整 型 (uint64_t) 数 。 


在 上 次 使 用 timerfd_settime() 修 改 设置 以 后 ， 或 是 最 后 一 次 执行 
readO0 后 ， 如 果 发 生 了 一 起 到 多 起 定时 器 到 期 事件 ， 那 么 read0 会 立即 返 
回 ， 且 返回 的 缓冲 区 中 包含 了 已 发 生 的 到 期 次 数 。 如 果 并 无 定时 器 到 
期 ，read0 会 一 直 阻 塞 直至 产生 下 一 个 到 期 。 也 可 以 执行 fcntl0 的 
F_SETFL 操 作 (5.3 节 ) 为 文件 描述 符 设 置 O_NONBLOCK 标 志 ， 这 时 的 
读 动 作 是 非 阻塞 式 的 ， 且 如 果 没 有 定时 器 到 期 ， 则 返回 错误 ， 并 将 errno 
值 置 为 EAGAIN。 


如 前 所 述 ， 可 以 利用 select0)、poll0 和 epollO0 对 timerfd 文 件 描述 符 进 
行 监控 。 如 果 定 时 器 到 期 ， 会 将 对 应 的 文件 描述 符 标 记 为 可 读 。 


示例 程序 


程序 清单 23-8 演 示 了 timerfd API 的 使 用 。 该 程序 从 命令 行 取得 两 个 
参数 。 第 1 个 参数 为 必 填 项 ， 用 以 标识 定时 器 的 初始 和 则 隔 时 间 。〔 程 
序 清单 23-6 中 的 函数 itimerspecFromStrO 可 以 用 来 解析 这 一 参数 。) 第 2 
个 参数 是 可 选项 ， 表 示 程 序 退 出 之 前 应 等 待 的 定时 右 过 期 最 大 次 数 ， 其 
默认 值 为 1。 


程序 调用 timerfd_create() 来 创建 一 个 定时 器 ， 并 通过 
timerfd_settime0O 将 其 启动 。 接 着 进入 循环 ， 从 文件 描述 符 中 读 取 定时 器 
到 期 通知 ， 直 人 至 达到 指定 的 定时 右 到 期 次 数 。 每 次 read() 之 后 ， 程 序 都 


























T ee 逝去 时 间 、 读 取 到 的 到 期 次 数 以 及 至 今 为 止 的 
到 期 总 类 


下 面 的 shell 会 话 日 志 中 ， 通 过 命令 行 参数 创建 了 一 个 初始 时 间 为 1 
秒 ， 间 隔 为 1 秒 ， 最 大 到 期 次 数 为 100 次 的 定时 器 。 


$ ./demo_timerfd 1:1 100 

1.000: expirations read: 1; total=1 

2.000: expirations read: 1; total=2 

3.000: expirations read: 1; total=3 

Type Control-Z to suspend program in background for a few seconds 

[1]+ Stopped ./demo timerfd 1:1 100 

$ fg Resume program in foreground 
./demo_timerfd 1:1 100 

14.205: expirations read: 11; total=14 Multiple expirations since last read() 
15.000: expirations read: 1; total=15 

16.000: expirations read: 1; total=16 

Type Controt-C to terminate the program 


从 以 上 结 采 可 以 看 出 ， el e 
在 程序 恢复 运行 之 后 ， 第 1 次 read0 调 用 就 返回 了 所 有 这 些 到 期 


程序 清单 23-8: 使 用 timerfd API 











timers/demo_timerfd.c 


#include <sys/timerfd.h> 

#include <time.h> 

#include <stdint.h> /* Definition of uint64 t */ 
#include "“itimerspec from str.h" /* Declares itimerspecFromStr() */ 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


struct itimerspec ts; 

struct timespec start, now; 
int maxExp, fd, secs, nanosecs; 
uint64 t numExp, totalExp; 
ssize t s; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s secs[/nsecs][:int-secs[/int-nsecs]] [max-exp]\n", argv[0]); 


itimerspecFromStr{argv[1], &ts); 
maxExp = (argc > 2) ? getInt(argv[2], GN GT 0, "max-exp") : 1 


fd = timerfd_create(CLOCK_REALTIME, 0); 
if (fd == -1) 
errExit("timerfd create"); 


if (timerfd settime(fd, 0, &ts, NULL) == -1) 
errExit("timerfd_settime"); 


if (clock gettime(CLOCK MONOTONIC, &start) == -1) 
errExit("clock_gettime") ; 


for (totalExp = 0; totalExp < maxExp;) { 


/* Read number of expirations on the timer, and then display 
time elapsed since timer was started, followed by number 
of expirations read and total expirations so far. */ 


s = read(fd, &numExp, sizeof(uint64_t)); 
if (s != sizeof(uint64_t)) 
errExit("read"); 


totalExp += numExp; 


if (clock gettime(CLOCK MONOTONIC, &now) == -1) 
errExit("clock gettime"); 


secs = now.tv_sec - start.tv_sec; 
nanosecs = now.tv_nsec - start.tv_nsec; 
if (nanosecs < 0) { 

secs--; 

nanosecs += 1000000000; 


} 


print f("%d.%03d: expirations read: %llu; total=%llu\n", 
secs, (nanosecs + 500000) / 1000000, 
(unsigned long long) numExp, (unsigned long long) totalExp); 


} 


exit(EXIT_ SUCCESS); 


timers/demo_timerfd.c 


23.8 ”总 结 


进程 可 以 使 用 setitimer() 或 alarm() 来 设置 定时 器 ， 以 便于 在 经 历 指定 
的 一 段 实际 (或 进程 》 时 间 后 收 到 信和 号 通知 。 定 时 器 的 用 途 之 一 是 为 系 
统 调 用 的 阻塞 设 定 时 间 上 限 。 


应 用 程序 如 需 暂 停 执行 一 段 特 定 间 隔 的 实际 时 间 ， 可 以 使 用 各 种 合 
适 的 休眠 函数 。 


Linux 2.6 所 实现 的 POSIX.1b 扩 展 为 高 精度 时 钟 和 定时 器 定义 了 一 套 
API。POSIX.1lb 定 时 器 比 传统 (settimer()) UNIX 定 时 器 更 具 优 势 ， 可 
以 : 创建 多 个 定时 器 ; 选择 定时 器 到 期 时 的 通知 信号 ; 获取 定时 器 溢出 
计数 ， 以 便 判 断 自 上 次 到 期 通知 后 定时 器 是 否 又 发 生 了 多 次 到 期 ;选择 
通过 执行 线程 函数 而 非 递 送信 号 来 获取 定时 器 通知 。 


Linux 特 有 的 timerfd API 提 供 了 一 组 创建 定时 器 的 接口 ， 与 POSIX 定 
时 器 API 相 类 似 ， 但 允许 从 文件 描述 符 中 读 取 定时 器 通知 。 还 可 使 用 
select0、pollO0 和 epoll0 来 监控 这 些 描述 符 。 


更 多 信息 
在 每 个 函数 的 原理 (rationael) 部 分 ，SUSv3 就 本 章 所 述 〈 标 准 ) 


定时 器 和 休眠 接口 一 一 指出 其 要 点 所 在 。[Callmeister, 1995] 则 探讨 了 
POSIX.1b 时 钟 和 定时 器 。 














23.9 ”练习 


23-1. 尽管 Linux 将 alarmO0 实 现 为 系统 调用 ， 但 这 当 属 屿 足 。 请 用 
setitimer() 实 现 alarm()。 


23-2. 试 着 将 程序 清单 23-3 (t_nanosleep.c) 程序 置 于 后 台 运 行 ， 
并 设置 60 秒 的 休眠 间隔 ， 同 时 使 用 如 下 命令 发 送 尽 可 能 多 的 SIGINT 信 


号 给 后 台 进 程 : 
$ while true; do kill -INT pid; done 


应 该 能 注意 到 程序 休眠 时 间 要 长 于 预期 。 将 nanosleepO) 用 
clock_gettime() 〈 使 用 CLOCK_REALTIME 时 钟 ) 和 设置 
TIMER_ABSTIME 标 志 的 clock_nanosleep0 〇 来 替换 。〔( 此 练习 需要 Linux 
2.6 版 本 。) 反复 测试 修改 后 的 程序 ， 并 解释 新 老 程 序 间 的 差别 。 


23-3. 编写 一 个 程序 验证 : 如 果 调 用 timer_create() 时 将 参数 evp 置 为 
NULL， 那 么 这 就 等 同 于 将 evp 设 为 指 同 sigevent 结 构 的 指针 ， 并 将 该 结 
构 中 的 sigev_notify 置 为 SIGEV_SIGNAL， 将 sigev_signo 置 为 
SIGALRM， 将 si_value.sival_int 置 为 定时 器 ID。 








23-4. 修改 程序 清单 23-5 (ptmr_sigev_signal.c) 中 程序 ， 并 用 
sigwaitinfoO 蔡 换 信号 处 理 器 函数 。 





DFPE: 内 核 调度 所 为 。 


第 24 章 ”进程 的 创建 


本 章 以 及 随后 的 3 章 将 探讨 进程 的 创建 和 终止 ， 以 及 进程 执行 新 程 
序 的 过 程 。 本 章 主要 讨论 进程 的 创建 ， 不 过 ， 在 切入 正题 之 前 ， 将 首先 
概括 一 下 这 4 章 所 涵盖 的 主要 系统 调用 。 





24.1 fork()、exit()、wait() 以 及 execve() 的 人 简介 


本 章 以 及 随后 几 章 的 议题 会 集中 在 fork()、exit()、wait0 以 及 
execve() 这 几 个 系统 调用 上 。 上 述 每 种 系统 调用 都 各 有 变 体 ， 后 续 会 一 
一 论 及 。 此 处 将 首先 对 这 4 个 系统 调用 及 其 典型 用 法 简单 加 以 介绍 


。 系统 调用 fork0 人 允许 一 进程 〈 父 进程 ) 创建 一 新 进程 〈 子 进程 ) 。 
具体 做 法 是 ， 新 的 子 进 程 几 近 于 对 父 进程 的 翻版 : 子 进程 获得 父 进 
程 的 栈 、 数 据 段 、 堆 和 执行 文本 段 (6.377) 的 拷贝 。 可 将 此 视 为 
把 父 进程 一 分 为 二 ， 术 语 fork 也 由 此 得 名 。 

。 库 函数 exit (Satis) 终止 一 进程 ， 将 进程 占用 的 所 有 资源 (内 存 、 
文件 描述 符 等 ) 归还 内 核 ， 区 其 进行 再 次 分 配 。 参 数 status 为 一 整 
型 变量 ， 表 示 进 程 的 退出 状态 。 父 进 程 可 使 用 系统 调用 wait0 来 获 
取 访 状态。 








库 函 数 exit0 位 于 系统 调用 _exit0 之 上 。 第 25 章 将 解释 
二 者 之 间 的 差异 。 这 里 只 是 强调 ， 在 调用 fork0 之 后 ， 父 
子 进程 中 一 般 只 有 一 个 会 通过 调用 exitO 退 出 ， 而 另 一 进程 
则 应 使 用 _exitO 终 止 。 





。 系统 调用 wait (&status) 的 目的 有 二 : 其 一 ， 如 果子 进程 尚未 调用 
exitO 终 止 ， 那 么 waitO 会 挂 起 父 进程 直至 子 进程 终止， R=, fut 
程 的 终止 状态 通过 wait() 的 status 参 数 返 回 。 

。 系统 调用 execve(pathname，argv，envp) 加 载 一 个 新 程序 〈 路 径 名 
为 pathname， 人 参数 列表 为 argv， 环 境 变 量 列表 为 envp) 到 当前 进 
程 的 内 存 。 这 将 丢弃 现存 的 程序 文本 段 ， 并 为 新 程序 重新 创建 栈 、 
数据 段 以 及 堆 。 通 党 将 这 一 动作 称 为 执行 (execing) 一 个 新 程序 。 
稍 后 会 介绍 构建 于 execve0 之 上 的 多 个 库 函 数 ， 每 种 都 为 编程 接口 
提供 了 实用 的 变 体 。 在 彼此 差异 无 关 安 由 的 场合 ， 循 例会 将 此 类 函 
数 统称 为 exec()， 尽管 实际 上 并 没有 以 之 合 8 名 的 系统 调用 或 者 库 子 








数 。 


其 他 一 些 操 作 系 统 则 将 fork0 和 exec0 的 功能 合 二 为 一 ， 形 成 单一 的 
spawn 操 作 创建 一 个 新 进程 并 执行 指定 程序 。 比 较 而 言 ，UNIX 的 方 
案 通 常 更 为 简单 和 优雅 。 两 步 走 的 策略 使 得 API 更 为 简单 (系统 调用 
fork() 无 需 参 数 ) ， 程 序 也 得 以 在 这 两 步 之 间 执 行 一 些 其 他 操作 ， 因 而 
更 具 弹 性 。 男 外 ， 只 执行 forkO 而 不 执行 execO 的 场景 也 颇 为 常见 。 








SUSv3 所 详细 规定 的 posix_spawn0 函 数 ， 束 将 fork() 
和 exec0 的 功能 结合 起 来 ， 但 规范 并 未 对 实现 此 函数 做 强 
制 要 求 。Linux 的 glibc 函数 库 实 现 了 该 函数 以 及 SUSv3 中 
的 其 他 几 个 相关 API。 将 posix_spawnO0 纳 入 SUSv3， 意 在 为 
缺乏 交换 (swap) 设施 或 内 存 管理 单元 (memory- 
management units) 的 人 硬件 架构 〈 磐 入 式 系 统 大 多 如 此 ) 编 
写 具 备 可 移植 性 的 应 用 程序 。 在 此 类 架构 上 实现 传统 意义 
的 forkO0， 即 便 存 在 可 能 性 ， 难 度 也 很 大 。 


图 24-1 对 forkO0、exit0、waitO 以 及 exece0 之 间 的 相互 协同 作 了 总 
m ERANI T shell 执 行 一 条 命令 所 历经 的 步骤 : shell 读 取 命 令 ， 进 
行 各 种 处 理 ， 随 之 创建 子 进程 以 执行 该 命令 ， 如 此 循环 不 已 。) 


父 进程 执行 
程序 A 


| 





了 进程 执行 

1 

TERR Aa 

NBR Hp 
SHER ASAE tbh 

执行 其 他 动作 
了 进程 可 能 于 此 处 执行 
进一步 的 动作 


execue(B, ...) 
(mji) 





A RATA TT RUT- (JRE) 
发 送信 号 SIGCHLD 








exit(status) 


图 24-1: 概述 函数 fork0、exit0、wait0 和 execve0O 的 协同 使 用 


图 中 对 execve0O 的 调用 并 非 必 须 。 有 时 ， 让 子 进 程 继续 执行 与 父 进 
程 相 同 的 程序 反而 会 有 妙用 。 最 终 ， 两 种 情况 殊途同归 : 总 是 要 通过 调 
用 exit()〔 或 接收 一 个 信号 ) 来 终止 子 进程 ， 而 父 进 程 可 调用 wait() 来 获 
取 其 终止 状态 。 


同样 ， 对 waitO 的 调用 也 属于 可 选项 。 父 进程 可 以 对 于 进程 不 邮 不 
问 ， 继 续 我 行 我 素 。 不 过 ， 由 后 续 内 容 可 知 ， 对 wait0 的 使 用 通常 也 是 
不 可 或 缺 的 ， 每 每 在 SIGCHLD 信 和 号 的 处 理 程序 中 使 用 。 当 了 于 进程 终止 
时 ， 内 核 会 为 其 父 进程 产生 此 类 信和 号 默认 的 处 理 是 忽略 SIGCHLD 信 
号 ， 下 图 将 此 标记 为 可 选 ， 原 因 正在 于 此 ) 。 








24.2 ”创建 新 进程 : fork() 


在 诸多 应 用 中 ， 创 建 多 个 进程 是 任务 分 解 时 行 之 有 效 的 方法 。 例 
如 ， 某 一 网 络 服务 需 进 程 可 在 侦 听 客户 端 请 求 的 同时 ， 为 处 理 每 一 请 求 
而 创建 一 新 的 子 进 程 ， 与 此 同时 ， 服 务 需 进程 会 继续 侦 听 更 多 的 客户 端 
连接 请 求 。 以 此 类 手法 分 解 任务 ， 通 常会 简化 应 用 程序 的 设计 ， 同 时 提 
高 了 系统 的 并 发 性 。《 即 ， 可 同时 处 理 更 多 的 任务 或 请 求 。) 


系统 调用 fork0O 创 建 一 新 进程 (child) ， 几 近 于 对 调用 进程 
(parent) 的 翻版 。 








ftinclude <unistd.h> 


pid t fork(void); 


In parent: returns process ID of child on success, or -1 on error; 
in successfully created child: always returns 0 














理解 forkO 的 诀 穷 是 ， 要 意识 到 ， 完 成 对 其 调用 后 将 存在 两 个 进 
程 ， 且 每 个 进程 都 会 从 fork0 的 返回 处 继续 执行 。 


这 两 个 进程 将 执行 相同 的 程序 文本 段 ， 但 却 各 自 拥 有 不 同 的 栈 段 、 
数据 段 以 及 堆 段 拷贝 。 子 进程 的 栈 、 数 据 以 及 栈 段 开始 时 是 对 父 进 程 内 
存 相 应 各 部 分 的 完全 复制 。 执 行 fork0 之 后 ， 每 个 进程 均 可 修改 各 自 的 
栈 数据 、 以 及 堆 段 中 的 变量 ， 而 并 不 影响 男 一 进程 。 


程序 代码 则 可 通过 fork0 的 返回 值 来 区 分 父 、 子 进程 。 在 父 进 程 
中 ，forkO0 将 返回 新 创建 子 进 程 的 进程 ID。 鉴 于 父 进程 可 能 需要 创建 ， 
进而 追踪 多 个 子 进 程 〈 通 过 wait0 或 类 似 方法 ) ， 这 种 安排 还 是 很 实用 
的 。 而 forkO 在 子 进程 中 则 返回 0。 如 有 必要 ， 子 进程 可 调用 getpidO 以 获 
取 自 身 的 进程 ID， 调 用 getppid0 以 获取 父 进程 ID。 


当 无 法 创建 子 进 程 时 ，fork0 将 返回 -1。 失 败 的 原因 可 能 在 于 ， 进 程 
数量 要 么 超出 了 系统 针对 此 真实 用 户 Creal user ID) 在 进程 数量 上 所 施 
加 的 限制 (RLIMIT_NPROC，36.3 节 将 对 此 加 以 描述 ) ， 要 么 是 触及 允 
许 该 系统 创建 的 最 大 进程 数 这 一 系统 级 上 限 。 

















调用 forkO 时 ， 有 时 会 采用 如 下 习惯 用 语 : 


pid t childPid; /* Used in parent after successful fork() 
to record PID of child */ 
switch (childPid = fork()) { 
case -1: /* fork() failed */ 
/* Handle error */ 


case 0: /* Child of successful fork() comes here */ 
/* Perform actions specific to child */ 


default: /* Parent comes here after successful fork() */ 
/* Perform actions specific to parent */ 


} 


调用 fork0O 之 后 ， 系 统 将 率先 “垂青 ”于 哪个 进程 〈 即 调度 其 使 用 
CPU) ， 是 无 法 确定 的 ， 意 识 到 这 一 点 极为 重要 。 在 设计 拙劣 的 程序 
中 ， 这 种 不 确定 性 可 能 会 导 臻 所谓“ 竞争 条 件 (race condition) ”的 错 
误 ，24.2 节 会 对 此 做 进一步 说 明 。 


程序 清单 24-1 展 示 了 fork0 的 用 法 。 该 程序 创建 一 子 进程 ， 并 对 继承 
目 fork0 的 全 局 及 目 动 变量 拷贝 进行 修改 。 


使 用 sleep() 存 在 于 由 父 进程 所 执行 的 代码 中 ) ， 意 在 允许 子 进程 
先 于 父 进程 获得 系统 调度 并 使 用 CPU， 以 便 在 父 进程 继续 运行 之 前 完成 
自身 任务 并 退出 。 要 想 确保 这 一 结果 ，sleep() 的 这 种 用 法 并 非 万 无 一 
失 ，24.5 节 中 的 方法 更 胜 一 筹 。 


运行 程序 清单 24-1 中 程序 ， 其 输出 如 下 。 
$ ./t_fork 


PID=28557 (child) idata=333 istack=666 
PID=28556 (parent) idata=111 istack=222 


以 上 输出 表明 ， 子 进程 在 forkO 时 拥有 了 自己 的 栈 和 数据 段 找 贝 ， 
且 其 对 这 些 段 中 变量 的 修改 将 不 会 影响 父 进程 。 
































程序 清单 24-1: 调用 fork() 


procexec/t_fork.c 
#include "tlpi_hdr.h" 


static int idata = 111; /* Allocated in data segment */ 
int 
main(int argc, char *argv[]) 
{ 
int istack = 222; /* Allocated in stack segment */ 


pid_t childPid; 


switch (childPid = fork()) { 
case -1: 
errExit("fork"); 


case 0: 
idata *= 3; 
istack *= 3; 
break; 


default: 
sleep(3); /* Give child a chance to execute */ 
break; 


} 


/* Both parent and child come here */ 


printf("PID=%1d %s idata=%d istack=%d\n", (long) getpid(), 
{childPid == 0) ? "(child) " : "(parent)", idata, istack); 


exit (EXIT_SUCCESS); 


procexec/t_fork.c 
24.2.1 父 、 子 进程 间 的 文件 共享 


执行 fork0 时 ， 子 进程 会 获得 父 进 程 所 有 文件 摘 述 符 的 副本 。 这 些 
副本 的 创建 方式 类 似 于 dup0， 这 也 意味 着 父 、 子 进程 中 对 应 的 描述 符 均 
指向 相同 的 打开 文件 句柄 CEN open file description， 详 见 5.4 节 译注 ) 。 
正如 5.4 节 所 述 ， 打 开 文 件 句 柄 包含 有 当前 文件 偏 移 量 〈 由 read()、 
write0 和 1]lseekO 修 改 ) 以 及 文件 状态 标志 《由 open0 设 置 ， 通 过 fcntl0 的 
F_SETFL 操 作 改 变 ) 。 一 个 打开 文件 的 这 些 属 性 因 之 而 在 父子 进程 间 实 
现 了 共享 。 举 例 来 说 ， 如 果子 进程 更 新 了 文件 偶 移 量 ， 那 么 这 种 改变 也 
会 影响 到 父 进程 中 相应 的 描述 符 。 


程序 清单 24-2 所 展示 的 正 是 这 样 一 个 事实 ; fork0 之 后 ， 这 些 属性 














将 在 父子 进程 之 间 共 享 。 该 程序 使 用 mkstemp0 打 开 一 个 临时 文件 ， 接 
着 调用 fork() 以 创建 子 进程 。 子 进程 改变 文件 偏 移 量 以 及 文件 状态 标 
志 ， 最 后 退出 。 父 进程 随即 获取 文件 偏 移 量 和 标志 ， 以 验证 其 可 以 观察 
到 由 子 进程 所 造成 的 变化 。 此 程序 运行 结果 如 下 : 


$ ./fork_file_sharing 

File offset before fork(): 0 

O APPEND flag before fork() is: off 
Child has exited 

File offset in parent: 1000 

O APPEND flag in parent is: on 


关于 程序 清单 24-2 为 何 要 将 lseekO 的 返回 值 强制 转换 为 1ong long, 
参见 5.10 节 。 



































程序 清单 24-2: 在 父子 进程 间 共 享 文件 偏 移 量 和 打开 文件 状态 标志 

















procexec/fork file sharing.c 


#include <sys/stat.h> 
#include <fcntl.h> 

#include <sys/wait.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


int fd, flags; 
char template[] = "/tmp/testXXXXXX"; 


setbuf(stdout, NULL); /* Disable buffering of stdout */ 


fd = mkstemp(template); 
if (fd == - 
errExit("mkstemp"); 


printf("File offset before fork(): %lld\n", 
(long long) lseek(fd, 0, SEEK CUR)); 


flags = fcntl(fd, F_GETFL); 
if (flags == -1) 
errExit("fcntl - F_GETFL"); 
printf("O_APPEND flag before fork() is: %s\n", 
(flags & O_APPEND) ? "on" : “off"); 


switch (fork()) { 
case -1: 
errExit("fork"); 


case 0: /* Child: change file offset and status flags */ 
if (lseek(fd, 1000, SEEK SET) == -1) 
errExit("lseek”"); 


flags = fcntl(fd, F_GETFL); /* Fetch current flags */ 
if (flags == -1) 
errExit("fcntl - F GETFL"); 
flags |= 0 APPEND; /* Turn O APPEND on */ 
if (fcntl(fd, F_SETFL, flags) == -1) 
errExit("fcntl - F_SETFL"); 
_exit (EXIT_SUCCESS); 


default: /* Parent: can see file changes made by child */ 
if (wait(NULL) == -1) 

errExit("wait"); 

printf("Child has exited\n"); 


/* Wait for child exit */ 


~— 


printf("File offset in parent: %lld\n", 
(long long) lseek({fd, 0, SEEK_CUR)); 


flags = fcntl(fd, F_GETFL); 
if (flags == -1) 
errExit("fcntl - F_GETFL"); 
printf("O APPEND flag in parent is: %s\n", 
(flags & 0 APPEND) ? "on" : "off"); 
exit(EXIT_SUCCESS); 


procexec/fork_file_sharing.c 


父子 进程 间 共 部 打开 文件 属性 的 妙用 屡见不鲜 。 例 如 ， 假 设 父子 进 
程 同 时 写 入 一 文件 ， 共 享 文件 侦 移 量 会 确保 二 者 不 会 覆盖 彼此 的 输出 内 
容 。 不 过 ， 这 并 不 能 阻止 父子 进程 的 输出 随意 混杂 在 一 起 。 要 想 规避 这 
一 现象 ， 需 要 进行 进程 间 同步 。 比 如 ， 父 进程 可 以 使 用 系统 调用 wait() 
来 暂停 运行 并 等 待 子 进程 退出 。shell 就 是 这 么 做 的 :只 有 当 执 行 命令 的 
子 进程 退出 后 ，shell 才 会 打印 出 提示 符 《〈《 除 非 用 户 在 命令 行 最 后 加 上 & 
从 以 显 式 在 后 台 运 行 命令 ) 。 


如 果 不 需 要 这 种 对 文件 摘 述 符 的 共享 方式 ， 那 么 在 设计 应 用 程序 
时 ， 应 于 fork0O 调 用 后 注意 两 点 : 其 一 ， 令 父 、 子 进程 使 用 不 同 的 文件 
描述 符 ， 其 二 ， 各 上 自立 即 关 闭 不 再 使 用 的 摘 述 符 《〈 亦 即 那些 经 由 其 他 进 
程 使 用 的 摘 述 符 ) 。 如 果 进 程 之 一 执行 了 exec(0， 那 么 27.4 节 所 擅 述 的 
执行 时 关闭 功能 Cclose-on-exec) 也 会 很 有 用 处 。 图 24-2 展 示 了 这 些 步 














a) 调用 /ork0 之 前 的 描述 符 和 父 进 程 文件 描述 符 打开 文件 表 
打开 文件 表 条 日 (执行 时 关闭 标志 ) (文件 偏 移 量 ， 状 态 标志 ) 


b) 调用 Crk0 之 后 的 描述 符 


be 
子 进程 所 复制 的 


描述 符 


c) 分 别 在 父 进程 和 子 进程 中 
关闭 不 用 的 描述 符 之 后 
( 父 进程 的 ?和 子 进 程 的 ?) 
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图 24-2: 执行 forkO 期 间 对 文件 描述 符 的 复制 ， 以 及 关闭 不 再 使 用 的 描述 符 











24.2.2 ”fork0 的 内 存 语 义 


从 概念 上 说 来 ， 可 以 将 forkO 认 作对 父 进程 程序 段 、 数 据 段 、 堆 段 
以 及 栈 段 创建 拷贝 。 的 确 ， 在 一 些 早期 的 UNIX 实 现 中 ， 此 类 复制 确实 





是 原 汁 原味 : 将 父 进程 内 存 找 贝 至 交换 空间 ， 以 此 创建 新 进程 映像 
(Cimage) ， 而 在 父 进 程 保 持 目 身 内 存 的 同时 ， 将 换 出 映像 置 为 子 进 
程 。 不 过 ， 真 要 是 简单 地 将 父 进 程 虚拟 内 存 页 拷贝 到 新 的 子 进程 ， 那 惑 
大 浪费 了 。 原 因 有 很 多 ， 其 中 之 一 是 : fork() 之 后 常常 伴随 着 exec(), 这 
会 用 新 程序 符 换 进程 的 代码 段 ， 并 重新 初始 化 其 数据 段 、 堆 段 和 栈 段 。 
大 部 分 现代 UNIX 实 现 〈 包 括 Linux) 采用 两 种 技术 来 避免 这 种 浪费 。 


。 内 核 (Kernel) 将 每 一 进程 的 代码 段 标 记 为 只 读 ， 从 而 使 进程 无 法 
修改 自身 代码 。 这 样 ， 父 、 子 进程 可 共享 同一 代码 段 。 系 统 调 用 
fork0 在 为 子 进 程 创建 代码 段 时 ， 其 所 构建 的 一 系列 进程 级 页 表 项 
(page-table entries) 均 指 癌 与 父 进程 相同 的 物理 内 存 页 帧 。 

。 对 于 父 进程 数据 段 、 堆 段 和 栈 段 中 的 各 页 ， 内 核 采 用 写 时 复制 
(copy-on-write) 技术 来 处 理 。〈[Bach, 1986] 和 [Bovert & Cersati, 
2005] 描 述 了 写 时 复制 的 实现 。) 最 初 ， 内 核 做 了 一 些 设置 ， 令 这 
些 段 的 页 表 项 指 问 与 父 进程 相同 的 物理 内 存 页 ， 并 将 这 些 页 面 自身 
标记 为 只 读 。 调 用 fork0O 之 后 ， 内 核 会 捕获 所 有 父 进程 或 子 进程 针 
对 这 些 页 面 的 修改 企图 ， 并 为 将 要 修改 的 〈about-to-be-modified ) 
页 面 创建 拷贝 。 系 统 将 新 的 页 面 找 贝 分 配给 遭 内 核 捕 获 的 进程 ， 还 
会 对 子 进程 的 相应 页 表 项 做 适当 调整 。 从 这 一 刻 起 ， 父 、 子 进程 可 
E E tate 
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图 24-3: 对 一 共享 写 时 复制 页 进行 修改 前 后 的 页 表 
控制 进程 的 内 存 需 求 


通过 将 fork0 5 waitO 组 合 使 用 ， 可 以 控制 一 个 进程 的 内 存 需 求 。 
进程 的 内 存 需 求 量 ， 亦 即 进程 所 使 用 的 虚拟 内 存 页 范围 ， 受 到 多 种 因素 
的 影响 ， 例 如 ， 调 用 函数 ， 或 从 函数 返回 时 栈 的 变化 情况 ， 对 exec0) 的 
调用 ， 以 及 因 调 用 mallocO0 和 free0 而 对 堆 所 做 的 修改 这 点 对 这 里 的 
讨论 有 着 特殊 意义 。 


假设 以 程序 清单 24-3 所 示 方 式 调用 fork0 和 wait0)， 且 将 对 某 函 数 
funcO 的 调用 置 于 括号 之 中 。 由 执行 程序 可 知 ， 由 于 所 有 可 能 的 变化 都 
发 生 于 子 进程 ， 故 而 从 对 func() 的 调用 之 前 开始 ， 父 进程 的 内 存 使 用 量 
将 保持 不 变 。 这 一 用 法 的 实用 性 则 归于 如 下 理由 。 


。 行 已 知 funcO 导 致 内 存 泄露 ， 或 是 引发 推 内存 的 过 度 碎 户 化 ， 该 拉 
术 则 可 以 避免 这 些 问 题 。《 要 是 无 法 访问 funcO 的 源码 ， 想 要 处 理 
这 些 问题 也 就 无 从 谈 起 。) 

。 假设 某 一 算法 在 做 树 状 分 析 (tree analysis) 的 同时 需要 进行 内 存 分 
配 《〈 例 如 ， 游 戏 程序 需要 分 析 一 系列 可 能 的 招 法 以 及 对 方 的 应 























F) 。 本 可 以 调用 free0 来 释放 所 有 已 分 配 的 内 存 ， 不 过 在 某 些 情 

况 下 ， 使 用 此 处 所 描述 的 技术 会 更 为 简单 ， 返 回 〈 父 进程 ) ， 且 调 

用 者 〈 父 进程 ) 的 内 存 需 求 并 无 改变 。 

如 程序 清单 24-3 的 实现 所 示 ， 必 须 将 funcO 的 返回 结果 置 于 exitO 的 8 
位 传 出 值 中 ， 父 进程 调用 wait0 可 获得 该 值 。 不 过 ， 也 可 以 利用 文件 、 
管道 或 其 他 一 些 进程 间 通 信 技 术 ， 使 fnc0 返 回 更 大 的 结果 集 吕 。 


程序 清单 24-3: 调用 函数 而 不 改变 进程 的 内 存 需 求 量 











from procexec/footprint.c 
pid t childPid; 
int status; 


childPid = fork{); 
if (childPid == -1) 
errExit("fork"); 


if (childPid == 0) /* Child calls func() and */ 
exit (func(arg)); /* uses return value as exit status */ 


/* Parent waits for child to terminate. It can determine the 
result of func() by inspecting ‘status’. */ 


if (wait(&status) == -1) 
errExit("wait"); 
from procexec/footprint.c 


24.3 ”系统 调用 vfork( 


在 早期 的 BSD 实 现 中 ，forkO 会 对 父 进程 的 数据 段 、 堆 和 栈 施 行 严 
格 的 复制 。 如 前 所 述 ， 这 是 一 种 浪费 ， 尤 其 是 在 调用 fork() 后 立即 执行 
exec() 的 情况 下 。 出 于 这 一 原因 ，BSD 的 后 期 版 本 引入 了 vforkO 系 统 调 
用 ， 尽 管 其 运作 含义 稍微 有 些 不 同 〈 实 则 有 些 怪 异 ) ， 但 效率 要 远 高 于 
BSD fork()。 现 代 UNIX 采 用 写 时 复制 技术 来 实现 fork()， 其 效率 较 之 于 
早期 的 forkO 实 现 要 高 出 许多 ， 进 而 将 对 vforkO 的 需求 剔除 列 尽 。 虽 然 如 
此 ，Linux (如 同 许多 其 他 的 UNIX 实 现 一 样 ) 还 是 提供 了 具有 BSD 语 义 
的 vforkO 系 统 调用 ， 以 期 为 程序 提供 尽 可 能 快 的 fork 功 能 。 不 过 ， 鉴 于 
vfork0O 的 怪异 语义 可 能 会 导致 一 些 难以 察觉 的 程序 缺陷 (bug) ， 除 非 
能 给 性 能 带 来 重大 提升 〈 这 种 情况 发 生 的 概率 极 小 ) ， 否 则 应 当 尽 量 避 
免 使 用 这 一 调用 。 


类 似 于 fork0，vfork0 可 以 为 调用 进程 创建 一 个 新 的 子 进程 。 然 而 ， 
vforkO 是 为 子 进程 立即 执行 execO 的 程序 而 专门 设计 的 。 

















#include <unistd.h> 


pid t vfork(void); 
In parent: returns process ID of child on success, or -1 on error; 
in successfully created child: always returns 0) 











r vfork() 因 为 如 下 两 个 特性 而 更 具 效 紊 ， 这 也 是 其 与 fork() 的 区 别 所 
Eis 


。 无 需 为 子 进 程 复 制 虚拟 内 存 页 或 页 表 。 相 反 ， 子 进程 共享 父 进 程 的 
内 存 ， 直 至 其 成 功 执行 了 exec0 或 是 调用 _exitO 退 出 。 
。 在 子 进 程 调 用 exec0 或 _exit0 之 前 ， 将 暂停 执行 父 进程 。 


这 两 点 还 男 有 深意 : 由 于 子 进程 使 用 父 进程 的 内 存 ， 因 此 子 进 程 对 
数据 段 、 扒 或 栈 的 任何 改变 将 在 父 进程 恢复 执行 时 为 其 所 见 。 此 外 ， 如 
果子 进程 在 vfork() 与 后 续 的 exec0 或 _exit0 之 间 执 行 了 函数 返回 ， 这 同 
样 会 影响 到 父 进 程 。 这 与 6.8 节 所 描述 的 例子 〈 试 图 以 longjmpO 进 入 一 
个 已 经 执行 了 返回 的 函数 中 ) 相 类 似 。 同 样 相 似 的 还 有 这 一 乱 局 的 收场 
一 一 以 典型 的 段 错误 (SIGSEGV) 而 告终 。 














在 不 影响 父 进程 的 前 提 下 ， 子 进程 能 在 vforkO 与 execO 之 间 所 做 的 
操作 屈指 可 数 。 其 中 包括 对 打开 文件 描述 符 进 行 操作 《但 不 能 施 之 于 
stdio 文件 流 ) 。 因 为 系统 是 在 内 核 空 间 为 每 个 进程 维护 文件 描述 符 表 
(5.497) ， 且 在 vforkO 调 用 期 间 将 复制 该 表 ， 所 以 子 进程 对 文件 描述 符 
的 操作 不 会 影响 到 父 进程 。 





SUSvVv3 指 出 ， 在 如 下 情况 下 程序 行为 未 定义 : a) 修改 
了 除 用 于 存储 vforkO 返 回 值 的 pid_t 型 变量 之 外 的 任何 数 
Ha; b) 从 调用 vfork0O 的 函数 中 返回 ; c) 在 成 功 地 调用 
_exit0 或 执行 execO 之 前 ， 调 用 了 任何 其 他 函数 。 


28.2 节 在 介绍 系统 调用 clone0 时 将 会 提 及 ， 由 fork0) 或 
vfork() 创 建 的 子 进程 还 具有 少量 其 他 进程 属性 的 自 有 找 
贝 。 








vforkO 的 语义 在 于 执行 该 调用 后 ， 系 统 将 保证 子 进 程 先 于 父 进程 获 
得 调度 以 使 用 CPU。24.2 节 曾经 提 及 forkO 是 无 法 保证 这 一 点 的 ， 父 、 子 
进程 均 有 可 能 率先 获得 调度 。 


程序 清单 24-4 展 示 了 vfork() 的 用 法 ， 将 其 区 分 于 fork() 的 两 种 语义 特 
性 显露 无 吐 ， 子 进程 共享 父 进程 的 内 存 ， 父 进程 会 一 直 挂 起 直至 子 进程 
终止 或 调用 exec()。 运 行 该 程序 ， 其 输出 结果 如 下 : 


$ ./t_vfork 

Child executing Even though child slept, parent was not scheduled 
Parent executing 

istack=666 


由 输出 的 最 后 一 行 可 知 ， 子 进程 对 变量 istack 的 修改 影响 了 父 进程 
的 对 应 变量 。 























程序 清单 24-4: 使 用 vfork() 











procexec/t_vfork.c 
#include “tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


int istack = 222; 


switch (vfork()) { 
case -1: 
errExit("vfork"); 


case 0: /* Child executes first, in parent's memory space */ 
sleep(3); /* Even if we sleep for a while, 
parent still is not scheduled */ 
write(STDOUT FILENO, "Child executing\n", 16); 
istack *= 3; /* This change will be seen by parent */ 
_exit(EXIT SUCCESS); 


default: /* Parent is blocked until child exits */ 
write(STDOUT FILENO, "Parent executing\n", 17); 
printf("istack=%d\n", istack); 
exit(EXIT_SUCCESS); 
} 
} 


procexec/t_vfork.c 


除非 速度 绝对 重要 的 场合 ， 新 程序 应 当 售 vfork0 而 取 forkO0。 原 因 在 
于 ， 当 使 用 写 时 复制 语义 实现 fork0 〈 大 部 分 现代 UNIX 实 现 皆 是 如 此 ) 
时 ， 在 速度 几 近 于 vfork() 的 同时 ， 又 避免 了 vfork() 的 上 述 怪异 行 止 。 
(28.3 节 会 给 出 fork(0) 与 VforkO 在 速度 方面 的 某 些 比较 。) 


SUSv3 将 vforkO 标 记 为 已 过 时 ，SUSv4 则 进一步 将 其 从 规范 中 删 
除 。 对 于 vtforkO 运 作 的 诸多 细节 ，SUSv3 颇 有 些 语 需 不 详 ， 因 而 可 能 将 
其 实现 为 对 fork() 的 调用 。 如 此 一 来 ， 那 么 vfork0 的 BSD 语 义 将 不 复 存 
在 。 一 些 UNIX 系 统 还 真 就 把 vfork() 实 现 为 对 fork() 的 调用 ，Linux 系 统 在 
内 核 2.0 及 其 之 前 的 版 本 中 也 是 如 此 。 


在 使 用 时 ， 一 般 应 立即 在 vfork() 之 后 调用 exec()。 如 果 exec() 执 行 失 
败 ， 子 进程 应 调用 _exit0) 退 出 。 (vfork0O 产 生 的 子 进程 不 应 调用 exit0) 退 
HH, 因为 这 会 叶 致 对 父 进程 stdio 组 冲 区 的 刷新 和 关闭 。 25.4 市 将 会 详 述 
pe 


vforkO 的 其 他 用 法 ， 尤 其 当 其 依赖 于 内 存 共享 以 及 进程 调度 方面 的 
独特 语义 时 ， 将 可 能 破坏 程序 的 可 移植 性 ， 其 中 尤 以 将 vfork0 实 现 为 简 











单调 用 forkO 的 情况 为 甚 。 


24.4 fork(0 之 后 的 竞争 条 件 (Race Condition) 


调用 forkO 后 ， 无 法 确定 父 、 子 进程 间 谁 将 率先 访问 CPU. 在 多 
处 理 嚣 系统 中 ， 它 们 可 能 会 同时 各 目 访 问 一 个 CPU。) 就 应 用 程序 而 
言 ， 如 果 为 了 产生 正确 的 结果 而 或 明 或 瞳 (implicitly or explicitly) 地 依 
赖 于 特定 的 执行 序列 ， 那 么 将 可 能 因 竞 争 条 件 (5.1 节 曾 论 及 ) 而 导致 
失败 。 由 于 此 类 问题 的 发 生 取决 于 内 核 根据 系统 当时 的 负载 而 做 出 的 调 
度 决 定 ， 故 而 往往 难以 发 现 。 


可 以 用 程序 清单 24-5 中 程序 来 验证 这 种 不 确定 性 。 该 程序 循环 使 
用 fork(0 来 创建 多 个 子 进程 。 在 每 个 forkO 调 用 后 ， 父 、 子 进程 都 会 打印 
一 条 信息 ， 其 中 包含 循环 计数 峰值 以 及 标识 父 / 子 进程 身份 的 字符 串 。 
例如 ， 如 果 要 求 程 序 只 产生 一 个 子 进程 ， 其 结果 可 能 如 下 : 


$ ./fork_whos_on first 1 
0 parent 
0 child 


可 以 使 用 该 程序 来 生成 大 量子 进程 ， 并 且 分 析 其 输出 ， 观 察 父 、 子 
进程 间 每 次 到 底 由 谁 率先 输出 了 结果 。 在 某 一 Linux/x86-32 2.2.19 系 统 
上 令 此 程序 生成 一 百 万 个 子 进程 ， 其 分 析 结 果 表 明 ， 除 去 332 次 之 外 ， 
都 是 由 父 进 程 先行 输出 结果 ( 占 总 数 的 99.97%) 。 

















对 程序 清单 24-5 运 行 结果 进行 分 析 的 脚本 为 
procexec/fork_whos_on_first.count.swk， 在 随 本 书 发 布 的 源 
代码 中 提供 。 


依据 这 一 结果 可 以 推测 ， 在 Linux 2.2.19 中 ，fork0 之 后 总 是 继续 执 
行 父 进程 。 而 子 进程 之 所 以 在 0.03% 的 情况 中 首先 输出 结果 ， 是 因为 父 
进程 在 有 机 会 输出 消息 之 前 ， 其 CPU 时 间 片 (CPU time slice) 就 到 期 
了 。 换 言 之 ， 如 果 该 程序 所 代表 的 情况 总 是 依赖 于 如 下 假设 ， 即 fork0) 
之 后 总 是 调度 父 进 程 ， 那 么 程序 通常 可 以 正常 运行 ， 不 过 每 3000 次 将 会 











出 现 一 次 错误 。 当 然 ， 如 宋 硕 望 父 进程 能 在 调度 于 进程 前 执行 大 量 工 
作 ， 那 么 出 错 的 可 能 性 将 会 大 增 。 在 一 个 复杂 程序 中 调试 这 样 的 错误 会 
很 困难 。 











程序 清单 24-5: fork() 之 后 ， 父 、 子 进程 竞争 输出 信息 








procexec/fork_whos_on_first.c 


#include <sys/wait.h> 
#include “tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


int numChildren, j; 
pid_t childPid; 


if (argc > 1 && strcmp(argv[1], "--help") == 0) 
usageErr("%s [num-children]\n", argv[0]); 


numChildren = (argc > 1) ? getInt(argv[1], CN GT 0, “num-children") : 1; 
setbuf(stdout, NULL); /* Make stdout unbuffered */ 


for (j = 0; j < numChildren; j++) { 
switch (childPid = fork()) { 
case -1: 
errExit("fork"); 


case 0: 
printf("%d child\n", j); 
_exit(EXIT_SUCCESS) ; 


default: 
printf("%d parent\n", j); 
wait(NULL) ; /* Wait for child to terminate */ 
break; 
} 
} 
exit(EXIT SUCCESS); 


procexec/fork_whos_on_first.c 


虽然 Linux 2.2.19 总 是 在 fork0O 之 后 继续 运行 父 进程 ， 但 在 其 他 UNIX 
实现 上 ， 甚 至 不 同 版 本 的 Linux 内 核 之 间 ， 却 不 能 视 其 为 理所当然 。 在 
内 核 稳定 版 2.4 系 列 中 ， 一 度 曾 试验 性 地 推出 了 一 个 “fork0O 之 后 由 子 进 程 
先 运行 ”的 补丁 ， 其 调度 结果 与 内 核 2.2.19 完 全 相反 。 虽 然 这 一 改变 之 后 
又 为 2.4 系 列 内 核 所 舍弃 ， 不 过 后 来 还 是 在 Linux 2.6 中 采用 ， 因 此 ， 程 序 


假定 于 2.2.19 内 核 的 行为 会 在 内 核 2.6 中 遭 到 推翻 。 

fork0 之 后 对 父 、 子 进程 的 调度 谁 先 谁 后 ? RARI AZ? WE 
的 一 些 实验 又 推翻 了 内 核 开 发 者 天 于 这 一 问题 的 评估 。 从 Linux 2.6.32 开 
始 ， 父 进程 再 度 成 为 fork0 之 后 ， 默 认 情 况 下 率先 调度 的 对 象 。 将 Linux 
专 有 文件 /proc/sys/kernel/sched_child_runs_first 设 为 非 0 值 可 以 改变 该 默 
认 设 置 。 


要 了 解 支持 “fork() 之 后 先 调度 子 进程 ”行为 的 理由 ， 可 
考虑 当 fork0O 产 生 的 子 进程 立即 执行 execO 时 “ 写 时 复制 ”所 
发 生 的 情况 。 此 时 ， 一 方面 父 进 程 在 fork() 之 后 继续 修改 数 
据 页 和 栈 页 ， 另 一 方面 内 核 要 为 子 进程 复制 那些 “将 要 修 
改 ” 的 页 。 由 于 子 进程 一 旦 获得 调度 会 立即 执行 exec()， 故 
而 这 一 页 复制 动作 纯 属 浪费 。 基 于 这 一 论点 ， 先 调度 子 进 
程 的 决策 更 佳 。 如 此 一 来 ， 等 到 下 次 调度 到 父 进 程 时 ， 惑 
无 需 复制 内 存 页 了。 在 一 个 繁忙 的 Linux/X86-32 系 统 上 

《内 核 版 本 为 2.6.30) ， 利 用 程序 清单 24-5 中 程序 创建 一 百 
万 个 子 进程 ， 结 果 表 明子 进程 率先 输出 的 情况 占 总 数 的 
99.98%。 (这 一 百分比 的 精确 值 取决 于 诸如 系统 负载 之 类 
的 因素 。) 在 其 他 UNIX 实 现 中 测试 该 程序 的 结果 则 表明 ， 
对 于 由 哪 一 进程 在 fork0 之 后 率先 获得 调度 的 问题 ， 各 系统 
的 处 理 规 则 差异 巨大 。 

















Linux 2.6.32 改 回 “forkO0 之 后 移 调 度 父 进程 >， 其 论据 则 
基于 如 下 有 发现: fork0 之 后 ， 父 进程 在 CPU 中 正 处 于 活跃 状 
态 ， 并 且 其 内 存 管理 信息 也 被 置 于 人 硬件 内 存 管理 单元 的 转 
译 后 备 绥 冲 器 (TLB, translation look-aside buffer) 中 。 所 
以 ， 先 运行 父 进 程 将 提高 性 能 。 在 非 正 式 场合 下 ， 针 对 分 
别 采 取 上 述 两 种 行为 的 内 核 构建 版 本 进行 了 时 间 上 度量， 其 








结果 也 证 实 了 这 一 点 。 





忆 之 ， 值 得 强调 的 是 :两 种 行为 则 的 性 能 差异 很 小 ， 
对 于 大 部 分 应 用 程序 并 无 影响 。 


上 述 讨论 清楚 地 阐明 ， 不 应 对 fork() 之 后 执行 父 、 子 进程 的 特定 顺 
序 做 任何 假设 。 知 确 需 保 证 某 一 特定 执行 顺序 ， 则 必须 采用 某 种 同步 技 
术 。 后 续 各 章 将 会 介绍 多 种 同步 技术 ， 其 中 包括 信和 号 量 
(semaphore) 、 文 件 锁 (file lock) 以 及 进程 间 经 由 管道 (pipe) AA 
县 发 送 。 接 下 来 会 描述 另 一 种 方法 ， 那 束 是 使 用 信和 号 (signal) 。 








24.5 ”同步 信号 以 规避 竞争 条 件 


调用 fork0 之 后 ， 如 果 进 程 某 甲 需 等 待 进程 某 乙 完成 某 一 动作 ， 屠 
么 某 乙 〈 即 活动 进程 ) 可 在 动作 完成 后 向 某 甲 发 送信 号 ， 某 甲 则 等 待 即 
a 


程序 清单 24-6 演 示 了 这 一 技术 。 该 程序 假设 父 进程 必须 等 待 子 进 和 
完成 某 些 动作 。 如 果 是 子 进程 反 过 来 要 等 待 父 进程 ， 那 么 将 父 、 子 进程 
中 与 信号 相关 的 调用 对 掉 即 可 。 父 、 子 进程 其 至 可 能 多 次 互 发 信号 以 协 
调 彼此 行为 ， 尽 管 实际 上 更 有 避 能 果 用 信号 量 、 文 件 锁 或 消息 传递 等 技 
术 来 进行 此 类 协调 。 


























[Stevens & Rago, 2005] 建议 将 此 类 同 步 方 法 《阻塞 信 
号 ， 发 送信 号 ， 捕 获 信 号 ) 封装 为 一 组 标准 的 进程 同步 函 
数 。 这 一 做 法 的 优点 在 于 ， 如 果 有 意 ， 后 续 可 以 其 他 进程 
间 通 信 〈IPC) 机 制 蔡 换 信号 的 使 用 。 








需要 注意 : 程序 清单 24-6 在 fork0 之 前 就 阻塞 了 同步 信号 
(SIGUSR1) 。 若 父 进程 试图 在 fork0 之 后 阻塞 该 信号 ， 则 避 之 唯恐 不 
及 的 竞争 条 件 恐 怕 将 不 Hm. 《此 程序 假设 与 子 进 程 的 信号 掩 码 状态 
TR; 如 有 必要 ， 可 以 在 fork0 之 后 的 子 进 程 中 解除 对 SIGUSR1 的 阻 
塞 。) 


如 下 shell 会 话 日 志 Aog) 则 展示 了 程序 清单 24-6 的 运行 情况 : 


-/fork_sig sync 

17:59:02 5173] Child started - doing some work 
17:59:02 5172] Parent about to wait for signal 
17:59:04 5173] Child about to signal parent 
1 


$ 
[ 
[ 
[ 
[17:59:04 5172] Parent got signal 





程序 清单 24-6: 利用 信号 来 同步 进程 间 动 作 











procexec/fork_sig sync.c 
#include <signal.h> 
#include "curr time.h" /* Declaration of currTime() */ 
#include “tlpi hdr.h" 


#define SYNC SIG SIGUSR1 /* Synchronization signal */ 
static void /* Signal handler - does nothing but return */ 
handler({int sig) 

{ 

} 

int 


main(int argc, char *argv[]) 


pid t childPid; 
sigset_t blockMask, origMask, emptyMask; 
struct sigaction sa; 


setbuf(stdout, NULL); /* Disable buffering of stdout */ 


sigemptyset (&blockMask) ; 

sigaddset (&blockMask, SYNC SIG); /* Block signal */ 

if (sigprocmask(SIG BLOCK, &blockMask, &origMask) == -1) 
errExit ("sigprocmask"); 


sigemptyset(&sa.sa_mask); 

sa.sa_ flags = SA RESTART; 

sa.sa_handler = handler; 

if (sigaction(SYNC_SIG, &sa, NULL) == -1) 
errExit("sigaction") ; 


switch (childPid = fork()) { 
case -1: 
errExit("fork"); 


case 0: /* Child */ 


/* Child does some required action here... */ 


printf("[%s %1d] Child started - doing some work\n", 
currTime("%T"), (long) getpid()); 

sleep(2); /* Simulate time spent doing some work */ 

/* And then signals parent that it's done */ 

printf("[%s %ld] Child about to signal parent\n", 
currTime("%T"), (long) getpid()); 

if (kill(getppid(), SYNC_SIG) == -1) 

errExit("kill"); 
/* Now child can do other things... */ 
_exit(EXIT SUCCESS); 
default: /* Parent */ 


/* Parent may do some work here, and then waits for child to 
complete the required action */ 


printf("[%s %ld] Parent about to wait for signal\n", 
currTime("%T"), (long) getpid()); 
sigemptyset (&emptyMask) ; 
if (sigsuspend(&emptyMask) == -1 && errno != EINTR) 
errExit("sigsuspend") ; 
printf("[%s %1ld] Parent got signal\n", currTime("%T"), (long) getpid()); 
/* If required, return signal mask to its original state */ 


if (sigprocmask(SIG SETMASK, &origMask, NULL) == -1) 
errExit("sigprocmask") ; 


/* Parent carries on to do other things... */ 


exit(EXIT SUCCESS); 


procexec/fork_sig_sync.c 


246 总结 


系统 调用 fork0O 通 过 复制 一 个 与 调用 进程 〈 父 进程 ) 几乎 完全 一 致 
的 拷贝 来 创建 一 个 新 进程 〈 子 进程 ) 。 系 统 调用 vforkO 是 一 种 更 为 高 效 
的 fork() 版 本 ， 不 过 因为 其 语义 独特 一 一 vforkO 产 生 的 子 进程 将 使 用 父 进 
程 内 存 ， 直 至 其 调用 exec() 或 退出 ， 于 此 同时 ， 将 会 挂 起 (suspended) 
父 进程 ， 所 以 应 尽量 避免 使 用 。 


调用 fork0 之 后 ， 不 应 对 父 、 子 进程 获得 调度 以 使 用 CPU 的 先后 顺 
序 有 所 依赖 。 对 执行 顺序 做 出 假设 的 程序 易于 产生 所 谓 “ 竞 争 条 件 ” 的 错 
误 。 由 于 此 类 错误 的 产生 依赖 于 诸如 系统 负载 之 类 的 外 部 因素 ， 故 而 其 
发 现 和 调试 将 非常 困难 。 


更 多 信息 
[Bach, 1986] 和 [Goodheart & Cox, 1994] 论述 了 UNIX 系 统 中 fork()、 


execve()、wait0 以 及 exitO0 的 实现 细节 。[Bovert & Cesati, 2005] 和 [Love， 
2010] 则 就 进程 的 创建 和 终止 提供 了 专属 于 Linux 系 统 的 实现 细节 。 





24.7 练习 


24-1. 程序 在 执行 完 如 下 一 系列 forkO 调 用 后 会 产生 多 少 新 进程 
《假定 没有 调用 失败 ) ? 
fork(); 


fork(); 
fork(); 


24-2. 编写 一 个 程序 以 便 验 证 调用 vfork0 之 后 ， 子 进程 可 以 关闭 一 
文件 描述 符 《〈 例 如 : 描述 符 0) 而 不 影响 对 应 父 进 程 中 的 文件 描述 符 。 

24-3. 假设 可 以 修改 程序 源 代 码 ， 如 何在 某 一 特定 时 刻 生成 一 核心 
tet Ccore dump) 文件 ， 而 同时 进程 得 以 继续 执行 ? 


24-4. 在 其 他 UNIX 实 现 上 实验 程序 清单 24- 
5 (fork_whos_on_first.c) 中 的 程序 ， 并 判断 在 执行 forkO 后 这 些 系统 是 
如 何 调度 父子 进程 的 。 


24-5. 假定 在 程序 清单 24-6 的 程序 中 ， 子 进程 也 需要 等 待 父 进 程 完 
成 某 些 操作 。 为 确保 达成 这 一 目的 ， 应 如 何 修改 程序 ? 











ORBLE: 针对 游戏 程序 的 分 析 结 果 而 言 。 


第 25 曹 ”进程 的 终 


本 童 所 述 为 进程 的 退出 过 程 。 首 先 说 明 如 何 调用 exit0 和 _exitO 以 终 
止 一 个 进程 。 接 着 讨论 运用 退出 处 理 程 序 Cexit handler) ， 在 进程 调用 
exit() 时 自动 执行 清理 动作 。 最 后 ， 将 探讨 fork()、stdio 绥 冲 区 以 及 exit() 
之 间 的 某 些 交互 。 


25.1 进程 的 终止 : _exit() 和 exit() 


通常 ， 进 程 有 两 种 终止 方式 。 其 一 为 异常 (abnormal) 终止 ， 如 
20.1 节 所 述 ， 由 对 一 信号 的 接收 而 引发 ， 该 信号 的 默认 动作 为 终止 当前 
进程 ， 可 能 产生 核心 转 储 (core dump) 。 此 外 ， 进 程 可 使 用 _exit() 系 统 
调用 正常 (normally) 终止 。 





#include <unistd.h> 


void exit(int status); 











_exit() 的 status 参 数 定义 了 进程 的 终止 状态 (termination status) , 42 
进程 可 调用 wait0 以 获取 该 状态 。 虽 然 将 其 定义 为 int 类 型 ， 但 仅 有 低 8 位 
可 为 父 进程 所 用 。 按 照 惯例 ， 终 止 状态 为 0 表示 进程 “ 功 成 喘 退 ”"， 而 非 0 
值 则 表示 进程 因 异 常 而 退出 。 对 非 0 返 回 值 的 解释 则 并 无 定 例 ; 不 同 的 
应 用 程序 自 成 一 派 ， 并 会 在 文档 中 加 以 描述 。SUSVv3 规 定 有 两 个 常量 : 
EXIT_SUCCESS(0) 和 EXIT_FAILURE(1)， 本 书 中 大 部 分 程序 就 采用 了 
这 二 约定 s 


调用 _exitO 的 程序 总 会 成 功 终止 〈 即 ，_exitO 从 不 返回 ) 。 














虽然 可 将 0 一 255 之 间 的 任意 值 赋 给 _exit() 的 status 参 
数 ， 并 传递 给 父 进程 ， 不 过 如 取 值 大 于 128 将 在 shell 脚 本 中 
引发 混乱 。 原 因 在 于 ， 当 以 信号 (signal) 终止 一 命令 时 ， 
shell 会 将 变量 $? 置 为 128 与 信号 值 之 和 ， 以 表征 这 一 事 
实 。 如 果 这 与 进程 调用 _exitO 时 所 使 用 的 相同 status 值 混杂 
起 来 ， 将 令 shell 无 法 区 分 。 











程序 一 般 不 会 直接 调用 _exit0)， 而 是 调用 库 函 数 exit()， 它 会 在 调用 
_exit() 前 执行 各 种 动作 。 





#include <unistd.h> 


void exit(int status); 





exit() 会 执行 的 动作 如 下 。 


。 调用 退出 处 理 程序 (通过 atexit0 和 on_exit() 注 册 的 函数 ) ， 其 执行 
顺序 与 注册 顺序 相反 《 见 25.3 节 ) 。 

。 刷新 stdio 流 缓冲 区 。 

。 使 用 由 status 提 供 的 值 执行 _exit() 系 统 调用 。 


与 专属 于 UNIX 的 _exit0 不 同 ，exitO 则 属于 标准 C 语 言 
函数 库 ， 也 就 是 说 ， 所 有 的 C 语 言 实现 都 文 持 exitO)。 


程序 的 另 一 种 终止 方法 是 从 main0 函 数 中 返回 (return) ， 或 者 或 
明 或 暗 地 一 直 执 行 到 main() 函 数 的 结尾 处 DO。 执 行 return n 等 同 于 执行 对 
exit(n) 的 调用 ， 因 为 调用 main0 的 运行 时 函数 会 将 main0 的 返回 值 作为 
exit 的 参数 。 


存在 一 种 情况 ， 从 main0 函 数 中 返回 与 调用 exitO 并 不 
相同 。 如 果 在 退出 的 处 理 过 程 中 所 执行 的 任何 步骤 需要 访 
问 main() 函 数 的 本 地 变量 ， 那 么 从 main() 函 数 中 返回 会 导致 
未 定义 的 行为 。 例 如 ， 在 调用 setvbufO 或 setbuffO 〈 见 13.2 
节 ) 时 引用 了 main 函 数 的 本 地 变量 ， 就 会 发 生 这 种 情况 。 





执行 未 指定 返回 值 的 return， 或 是 无 声 无 居 地 执行 到 main() 函 数 结 
尾 ， 同 样 会 导致 main() 的 调用 者 执行 exit() 函 数 ， 不 过 ， 视 所 支持 的 不 同 


C 语 言 标准 版 本 ， 以 及 所 使 用 的 不 同 编译 器 选项 ， 其 结果 也 有 上 所 不 同 。 


。 C89 标准 未 就 上 述 情况 下 的 行为 进行 定义 ， 程 序 可 以 返回 任意 的 
status 值 。Linux gce 的 默认 行为 就 是 如 此 ， 程 序 的 退出 状态 是 取 自 
于 栈 或 特定 CPU 寄存 器 中 的 随机 值 。 应 避免 以 这 一 方式 终止 程序 。 

© C99 标准 则 要 求 ， 执 行 至 main 函数 结尾 处 的 情况 应 等 同 于 调用 
exit(0)。 如 果 使 用 gcc-std=c99 在 Linux 中 编译 程序 ， 将 会 获得 这 种 效 
R, 


25.2 ”进程 终止 的 细节 


无 论 进 程 是 否 正常 终止 ， 都 会 发 生 如 下 动作 。 


关闭 所 有 打开 文件 描述 符 、 目 录 流 《〈18.8 节 ) 、 信 息 目 录 描 述 符 
【参考 手册 页 catopen(3) 和 catgets(3)) > WR CF 字符 集 ) 转换 摘 述 
符 〈 见 iconv_open(3) 手 册页 ) 。 
作为 文件 描述 符 关 闭 的 后 果 之 一 ， 将 释放 该 进程 所 持 有 的 任何 文件 
Bh (第 55 章 ) 。 

分 离 detach) 任何 已 连接 的 System VIER PIPER, 且 对 应 于 各 段 
的 shm_ nattch 计 数 器 值 将 减 一 。 (参考 48.8 市 
进程 为 每 个 System V 信 号 量 所 设置 的 semadj 什 将 会 被 加 到 信和 号 量 值 
中 (参考 47.8 节 ) 。 
如 果 该 进程 是 一 个 管理 终端 (terminal〉 的 管理 进程 ， 那 么 系统 会 
同 该 终端 前 台 (foreground) 进程 组 中 的 每 个 进程 发 送 SIGHUP 信 
eae 会 与 会 话 (session) 脱离 。34.6 市 将 就 此 进行 深入 讨 
将 关闭 该 进程 打开 的 任何 POSIX 有 名 信号 量 ， 类 似 于 调用 
sem_close()。 
将 关闭 该 进程 打开 的 任何 POSIX 消 息 队 列 ， 类 似 于 调用 
mq_close(). 
作为 进程 退出 的 后 果 之 一 ， 如 果 某 进程 组 成 为 孤儿 ， 且 该 组 中 存在 
任何 已 停止 进程 (stopped processes) ， 则 组 中 所 有 进程 都 将 收 到 
SIGHUP 信 号 ， 随 之 为 SIGCONT 信 号 。34.7.4 节 将 深入 讨论 这 一 
点 。 





移 除 该 进程 通 前 过 mlock(0) 或 mlockall() (50.277) 所 建立 的 任何 内 存 
锁 。 
取消 该 进程 调用 mmapO 所 创建 的 任何 内 存 映射 (mapping) 。 


25.3 ”退出 处 理 程序 


有 时 ， 应 用 程序 需要 在 进程 终止 时 目 动 执行 一 些 操作 。 试 以 一 个 应 
用 程序 库 为 例 ， 如 果 进 程 使 用 了 该 程序 库 ， 那 么 在 进程 终止 前 该 库 需 要 
自动 执行 一 些 清理 动作 。 因 为 库 本 喘 对 于 进程 何 时 以 及 如 何 退 出 并 无 控 
制 权 ， 也 无 法 要 求 主 程序 在 退出 前 调用 库 中 特定 的 清理 函数 ， 故 而 也 不 
能 保证 一 定 会 执行 清理 动作 。 解 决 这 一 问题 的 方法 之 一 是 使 用 退出 处 理 
程序 (exit handler) 。 老 版 System V 手册 则 使 用 术语 “程序 终止 过 


fE” (program termination routine) 。 











退出 处 理 程序 是 一 个 由 程序 设计 者 提供 的 函数 ， 可 于 进程 生命 周期 
的 任意 时 点 注册 ， 并 在 该 进程 调用 exit0 正 常 终止 时 自动 执行 。 如 果 程 序 
直接 调用 _exit() 或 因 信号 而 异常 终止 ， 则 不 会 调用 退出 处 理 程序 。 


当 进 程 收 到 信和 号 而 终止 时 ， 将 不 会 调用 退出 处 理 程 
序 。 这 一 事实 一 定 程度 上 限制 了 它们 的 效用 。 此 时 最 佳 的 
应 对 方式 英 若 为 可 能 发 送 给 进程 的 信号 建立 信号 处 理 程 
序 ， 并 于 其 中 设置 标志 位 ， 令 主 程序 据 此 来 调用 exit()。 
为 exit0 不 属于 表 21-1 所 列 的 异步 信号 安全 〈async- signal- 
safe) 函数 ， 所 以 通常 不 能 在 信号 处 理 程序 中 对 其 发 起 调 
用 。 即 便 如 此 ， 还 是 无 法 处 理 SIGKILL 信 号， 因为 无 法 改 
变 SIGKILL 的 默认 行为 。 这 也 是 应 该 避免 使 用 SIGKILL 来 
终止 进程 的 另 一 原因 (如 20.2 节 所 述 ) 。 建 议 使 用 信和 号 
SIGTERM， 这 也 是 kill 命 令 默 认 发 送 的 信和 号。 











注册 退出 处 理 程 序 


GNU C 语 言 函数 库 提供 两 种 方式 来 注册 退出 处 理 程 序 。 第 一 种 方法 
是 使 用 由 SUSv3 定 义 的 atexitO 函 数 。 








#include <stdlib.h> 


int atexit(void (*func)(void)); 


Returns 0 on success, Or nonzero on error 





函数 atexit() 将 func 加 到 一 个 函数 列表 中 ， 进 程 终 止 时 会 调用 该 函数 
列表 的 所 有 函数 。 应 将 函数 func 定 义 为 不 接受 任何 参数 ， 也 无 返回 值 ， 
一 般 格 式 如 下 : 


void 
func (void) 


/* Perform some actions */ 


} 





注意 atexitO 在 出 错时 返回 非 0 值 〈 不 一 定 是 -1) 。 


可 以 注册 多 个 退出 处 理 程序 (甚至 可 以 将 同一 函数 注册 多 次 ) 。 当 
应 用 程序 调用 exit0 时 ， 这 些 函 数 的 执行 顺序 与 注册 顺序 相反 。 这 一 设 
计 很 符合 多 辑 ， 因 为 ， 一 般 情 况 下 较 早 注册 的 函数 所 执行 的 是 更 为 基本 
的 清理 动作 ， 可 能 需要 在 调用 后 续 注 册 的 函数 后 再 执行 。 


本 质 上 ， 可 以 在 退出 处 理 程序 中 执行 任何 希望 的 动作 ， 包 括 注册 附 
加 的 退出 处 理 程 序 ， 并 将 其 置 于 留待 调用 的 剩余 函数 列表 的 头 部 。 不 
过 ， 一 旦 有 任 一 退出 处 理 程序 无 法 返回 无 论 因为 调用 了 _exit() 还 是 
进程 因 收 到 信号 而 终止 (例如 ， 退 出 处 理 程序 调用 函数 raise()) ， 那 么 
了 怠 不 会 再 调用 剩余 的 处 理 程序 。 此 外 ， 调 用 exit0 时 通 篆 需要 执行 的 剩余 
动作 也 将 不 再 执行 。 














SUSv3 规 定 ， 若 退出 处 理 程序 自身 调用 exit)， 其 结果 
未 定义 。 在 Linux 上 ， 会 照常 调用 剩余 的 退出 处 理 程序 。 不 
过 ， 在 某 些 系统 上 ， 这 将 导致 对 所 有 退出 处 理 程序 的 再 次 
调用 ， 并 引发 无 限 循环 调用 (直至 栈 溢 出 将 该 进程 杀 

死 ) 。 为 保障 可 移植 性 ， 应 用 程序 应 避免 在 退出 处 理 程 序 
内 部 调用 exit()。 


SUSv3 要 求 系统 实现 应 允许 一 个 进程 能 够 注册 至 少 32 个 退出 处 理 程 
序 。 使 用 系统 调用 sysconf(_SC_ATEXIT_MAX)， 应 用 程序 即 可 确定 由 
实现 所 定义 的 可 注册 退出 处 理 程序 的 数量 上 限 。 (但 是 ， 并 无 方法 获知 
有 多 少 已 注册 的 处 理 程 序 。〉 通过 运用 动态 分 配 链表 将 已 注册 的 处 理 程 
序 串 接 起 来 ，glibc 人 允许 注册 的 退出 处 理 程序 数量 近乎 于 无 限 。 对 于 
Linux，Ssysonf(_SC_ATEXIT_MAX) 返 回 2147482647 CEN, 32 位 有 符号 
整 型 数 的 最 大 值 ) 。 换 言 之 ， 在 触及 可 注册 函数 数量 的 这 一 上 限 前 ， 总 
会 有 其 他 原因 【〈 例 如， 内 存 不 足 ) SPENCE AP AR Tot 


通过 fork0 创 建 的 子 进程 会 继承 父 进 程 注册 的 退出 处 理 函数 。 而 进 
程 调用 exec() 时 ， 会 移 除 所 有 已 注 册 的 退出 处 理 程 序 。 (这 是 结果 势 所 
必然 ， 因 为 exec(O) 会 蔡 换 包括 退出 处 理 程序 在 内 的 所 有 原 程序 代码 


段 。 





无 法 取消 经 由 atexit() 或 on_exit()( 见 稍 后 的 描述 ) 注册 
FAYE He Ab. ANI, FT UA SB HE ET BE 
之 前 检查 全 局 执行 标志 是 否 置 位 ， 或 者 清除 该 标志 来 屏蔽 
退出 处 理 程序 。 





经 由 atexit() 注 册 的 退出 处 理 程序 会 受到 两 种 限制 。 其 一 ， 退 出 处 理 
程序 在 执行 时 无 法 获知 传递 给 exit0 的 状态 。 有 了 时候， 知道 状态 是 必要 
的 ; 例如 ， 退 出 处 理 程 序 会 视 进程 退出 成 功 与 否 而 执行 不 同 的 动作 。 其 
二 ， 无 法 给 退出 处 理 程 序 指定 参数 。 如 果 拥 有 这 一 特性 ， 退 出 处 理 程序 
ne eet eee ene 
IS PAI BY 0 


为 摆脱 这 些 限制 ，glibc 提 供 了 一 个 〈 非 标准 的 ) TIE: 


on_exit()。 

















#define _BSD_SOURCE /* Or: #define _SVID SOURCE */ 
#include <stdlib.h> 


int on_exit(void (*func)(int, void *), void *arg); 


Returns 0 on success, Or nonzero on error 











函数 on_exitO 的 参数 func 是 一 个 指针 ， 指 网 如 下 类 型 的 函数 : 


void 
func(int status, void *arg) 


/* Perform cleanup actions */ 


} 


调用 时 ， 会 传递 两 个 参数 给 func0O: 提供 给 exit() 的 status 参数 和 注 
册 时 供给 on_exit0 的 一 份 arg 参数 拨 贝 。 虽 然 定 义 为 指针 类 型 ， 参 数 
arg 的 意义 仍然 可 由 设计 者 文 配 。 可 将 其 用 作 指 同 itd) 的 指针 ， 同样 ， 
过 审慎 地 强制 转换 ， 也 可 将 其 作为 整 型 或 其 他 标量 类 型 使 用 。 


类 似 于 atexit()，on_exitO 出 错时 返回 非 0 值 〈( 不 一 定 是 -1) o 


如 同 atexit() 一 样 ， 通 过 on_exit() 可 以 注册 多 个 退出 处 理 程序 。 使 用 
ME re 的 函数 位 于 同一 函数 列表 。 如 果 在 程序 中 同时 用 
到 了 这 两 种 方式 ， 则 会 按照 使 用 这 两 个 方法 注册 的 相反 顺序 来 执行 相应 
的 退出 处 理 程序 。 


里 然 比 atexit() 更 灵活 ， 但 对 于 要 保障 可 移植 性 的 程序 来 说 ， 还 是 应 
避 倪 使 用 on_exit()。 因 为 并 无 标准 涵盖 到 它 ， 并 且 几 乎 也 没有 其 他 UNIX 
实现 支持 这 一 用 法 。 


程序 范例 


程序 清单 25-1 展 示 了 如 何 利用 atexit() 和 on_exit() 注 册 退 出 处 理 程 序 
的 例子 。 运 行程 序 会 得 到 如 下 输出 结果 : 


$ ./exit_handlers 

on exit function called: status=2, arg=20 
atexit function 2 called 

atexit function 1 called 

on exit function called: status=2, arg=10 























程序 清单 25-1: 使 用 退出 处 理 程序 














procexec/exit_handlers.c 


#define BSD SOURCE /* Get on_exit() declaration from <stdlib.h> */ 


#include <stdlib.h> 
#include “tlpi_hdr.h" 


static void 
atexitFunc1(void) 


{ 


printf("atexit function 1 called\n"); 


static void 
atexitFunc2 (void) 


{ 
} 


printf("atexit function 2 called\n"); 


static void 
onexitFunc(int exitStatus, void *arg) 


{ 


printf("on exit function called: status=%d, arg=%ld\n", 


exitStatus, (long) arg); 
} 
int 
een argc, char *argv[]) 


if (on_exit(onexitFunc, (void *) 10) != 0) 


fatal("on exit 1"); 

if (atexit(atexitFunc1) != 0) 
fatal("atexit 1"); 

if (atexit(atexitFunc2) != 0) 
fatal("atexit 2"); 


if (on_exit(onexitFunc, (void *) 20) != 0) 


fatal("on exit 2"); 


exit(2); 


procexec/exit_handlers.c 


25.4 ”fork()、stdio 缕 冲 区 以 及 _exit() 之 间 的 交互 


程序 清单 25-2 生 成 的 输出 结果 乍 看 颇 令 人 费解 。 当 程序 标准 输出 定 
加 到 终端 时 ， 会 看 到 预期 的 结 采 : 


$ ./fork_stdio_buf 
Hello world 
Ciao 


AND, SEEE BP PEIN, SEARO: 


$ ./fork_stdio_ buf > a 
$ cat a 

Ciao 

Hello world 

Hello world 


以 上 输出 中 有 两 件 怪 事 : printfO 的 输出 行 出 现 了 两 次 ， 且 write(O) 的 
输出 先 于 printf()。 














程序 清单 25-2: fork() 与 stdio 绥 冲 区 的 交互 


procexec/fork_stdio_buf.c 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


printf("Hello world\n"); 
write(STDOUT FILENO, "Ciao\n", 5); 


if (fork() == -1) 
errExit("fork"); 


/* Both child and parent continue execution here */ 
exit(EXIT_SUCCESS) ; 


procexec/fork_stdio_buf.c 


要 理解 为 什么 printfO 的 输出 消息 出 现 了 两 次 ， 首 先 要 记 住 ， 是 在 进 
程 的 用 户 空 间 内 存 中 (参考 13.2 节 ) 维护 stdio 缓冲 区 的 。 因 此 ， 通 过 
forkO 创 建 子 进程 时 会 复制 这 些 缓冲 区 。 当 标准 输出 定向 到 终端 时 ， 因 
为 缺 省 为 行 缓冲 ， 所 以 会 立即 显示 函数 printfO 输 出 的 包含 换行 符 的 字符 








串 。 不 过 ， 当 标准 输出 重 定 同 到 文件 时 ， 由 于 缺 省 为 块 缓冲 ， 所 以 在 本 
例 中 ， 当 调用 fork0 时 ，Pprintf0 输 出 的 字符 串 仍 在 父 进程 的 stdio 缓冲 区 
中 ， 并 随 子 进程 的 创建 而 产生 一 份 副本 。 父 、 子 进程 调用 exit() 时 会 刷新 
SAW stdio 缓冲 区 ， 从 而 导致 重复 的 输出 结果 。 


可 以 采用 以 下 任 一 方法 来 避免 重复 的 输出 结果 。 


。 作为 针对 stdio 缓冲 区 问题 的 特定 解雇 方案 ， 可 以 在 调用 fork() 之 前 
使 用 函数 fush(0) 来 刷新 stdio 组 种 区 。 作 为 另 一 种 选择 ， 也 可 以 使 用 
setvbufO 和 setbufO 来 关闭 stdio 流 的 缓冲 功能 。 

。 子 进程 可 以 调用 _exitO 而 非 exit()， 以 便 不 再 刷新 stdio 绥 冲 区 。 这 一 
技术 例证 了 一 个 更 为 通用 的 原则 : 在 创建 子 进程 的 应 用 中 ， 典 型 情 
况 下 仅 有 一 个 进程 〈 一 般 为 父 进程 ) 应 通过 调用 exitO 终 止 ， 而 其 
他 进程 应 调用 _exitO 终 止 ， 从 而 确保 只 有 一 个 进程 调用 退出 处 理 程 
序 并 刷新 stdio 绥 剖 区 ， 这 也 算是 众望 所 归 吧 。 


还 存在 其 他 方法 ， 可 以 《有 时 很 有 必要 ) 允许 父子 进 
程 都 调用 exit0。 例 如 ， 可 以 设计 这 样 的 退出 处 理 程 序 ， 即 
使 是 从 多 个 进程 中 调用 ， 它 们 也 能 够 正确 地 处 理 ， 或 者 令 
应 用 程序 仪 在 调用 fork0 之 后 才 去 安装 退出 处 理 程序 。 此 
外 ， 有 时 可 能 确实 希望 所 有 的 应 用 程序 都 在 fork() 之 后 刷新 
stdio 绥 冲 区 。 这 时 ， 可 以 见 机 行事 ， 要 么 选择 使 用 exit() 来 
终止 进程 ， 要 么 在 每 个 进程 中 均 显 式 调用 fflush()。 














程序 清单 25-2 中 write0 的 输出 并 未 出 现 两 次 ， 这 是 因为 write0 会 将 
数据 直接 传 给 内 核 缓冲 区 ，fork() 不 会 复制 这 一 缓冲 区 。 








程序 输出 重 定 向 到 文件 时 出 的 第 二 件 怪事 ， 原 因 现 在 也 清楚 了 。 
write0 的 输出 结果 先 于 printfO 而 出 现 ， 是 因为 write0 会 将 数据 立即 传 给 
内 核 高 速 缓存 ， 而 printfO 的 输出 则 需要 等 到 调用 exit 0 刷新 stdio 绥 冲 区 
时 。 《如 13.7 节 所 述 ， 通 常 ， 在 混合 使 用 stdio 函 数 和 系统 调用 对 同一 文 





件 进 行 VO 处 理 时 ， 需 要 特别 齐 愤 。) 


25.5 ”总结 


进程 的 终止 分 为 正常 和 异常 两 种 。 异 常 终 止 可 能 是 由 于 某 些 信号 引 
起 ， 其 中 的 一 些 信 号 还 可 能 导致 进程 产生 一 个 核心 转 储 文件 。 


正名 的 终止 可 以 通过 调用 _exit0 完 成 ， 更 多 的 情况 下 ， 则 是 使 用 
_exit0 的 上 层 函 数 exit0 完 成 。_exit0 和 exitO 都 需要 一 个 整 型 参数 ， 其 低 
8 位 定义 了 进程 的 终止 状态 。 依 照 惯例 ， 状 态 0 用 来 表示 进程 成 功 完成 ， 
非 0 则 表示 异常 退出 。 


不 管 进程 正常 终止 与 否 ， 内 核 都 会 执行 多 个 清理 步骤 。 调 用 exit0 正 
常 终止 一 个 进程 ， 将 会 引发 执行 经 由 atexit0 和 on_exitO 注 册 的 退出 处 理 
程序 〈 执 行 顺序 与 注册 顺序 相反 ) ， 同 时 刷新 stdio 绥 冲 区 。 

更 多 信息 


请 参考 24.6 节 所 列 的 深入 信息 来 源 。 








25.6 ”练习 


如 果子 进程 调用 exit(-1)， 父 进程 将 会 看 到 何 种 退出 状态 (由 
WEXITSTATUSO 返 回 ) ? 





QD 译 者 注 : 即 main0 函 数 尾部 无 return 语 句 。 


第 26 音 ”监控 子 进程 


在 很 多 应 用 程序 的 设计 中 ， 父 进程 需要 知道 其 某 个 子 进程 于 何 时 改 
变 了 状态 一 一 子 进程 终止 或 因 收 到 信号 而 停止 。 本 章 描 述 两 种 用 于 监控 
子 进程 的 技术 : 系统 调用 wait0 (RESA) 以 及 信号 SIGCHLD。 








26.1 ”等待 子 进程 

对 于 许多 需要 创建 子 进程 的 应 用 来 说 ， 父 进程 能 够 监测 子 进程 的 终 
al 必要 的 。wait0 以 及 吞 干 相 关 的 系统 调用 提供 了 这 
一 功能 。 
26.1.1 系统 调用 wait() 


系统 调用 wait( 等 待 调用 进程 的 任 一 子 进程 终止 ， 同 时 在 参数 status 
所 指 癌 的 缓冲 区 中 返回 该 子 进程 的 终止 状态 。 





#include <sys/wait.h> 


pid t wait(int *slalus); 


Returns process ID of terminated child, or -1 on error 











系统 调用 wait() 执 行 如 下 动作 。 


1. 如 果 调 用 进程 并 无 之 前 未 被 等 待 的 子 进程 终止 ， 调 用 将 一 直 
KAZE, BRR THEA IL. WRI OA THERA IE, wait( a7 
Rp% [El 


2. WRstatus EF, WARTTA ERE E eS Estatus 
指向 的 整 型 变量 返回 。26.1.3 节 将 讨论 自 status 返 回 的 信息 。 

3. 内 核 将 会 为 父 进程 下 所 有 子 进程 的 运行 总 量 妃 加 进程 CPU 时 间 
(10.7 市 ) 以 及 资源 使 用 数据 。 

4. 将 终止 子 进程 的 ID 作为 waitO 的 结果 返回 。 

出 错时 ，waitO 返 回 -1。 可 能 的 错误 原因 之 一 是 调用 进程 并 无 之 前 


未 被 等 待 的 @ 子 进程 ， 此 时 会 将 ermo 置 为 ECHILD。 换 言 之 ， 可 使 用 如 
下 代码 中 的 循环 来 等 待 调用 进程 的 所 有 子 进程 退出 。 











while ((childPid = wait(NULL)) != -1) 
continue; 

if (errno != ECHILD) /* An unexpected error... */ 
errExit ("wait"); 


程序 清单 26-1 演 示 了 waitO 的 用 法 。 该 程序 创建 多 个 子 进程 ， 每 个 
子 进程 对 应 于 一 个 〈 整 型 ) 命令 行 参数 。 每 个 子 进 程 休眠 厦 干 秒 后 退 
出 ， 休 虐 时 间 分 别 由 相应 各 命令 行 参数 指定 。 与 此 同时 ， 在 创建 所 有 的 
子 进 程 之 后 ， 父 进程 循环 调用 wait0 来 监控 这 些 子 进程 的 终止 。 而 直到 
wait() 返 回 -1 时 才 会 退出 循环 。 (这 并 非 唯一 的 手段 ， 另 一 种 退出 循环 
的 方法 是 当 记 录 终 止 子 进程 数量 的 变量 numDead 与 创建 的 子 进程 数目 相 
同时 ， 也 会 退出 循环 。〉 以 下 shell 会 话 日 志 显 示 了 使 用 该 程序 创建 3 个 
子 进程 时 的 情况 。 
$ ./multi wait 7 1 4 
[13:41:00] child 1 started with PID 21835, sleeping 7 seconds 


] 
[13:41:00] child 2 started with PID 21836, sleeping 1 seconds 
[13:41:00] child 3 started with PID 21837, sleeping 4 seconds 
] 
] 














[13:41:01] wait() returned child PID 21836 (numDead=1) 
[13:41:04] wait() returned child PID 21837 (numDead=2) 
[13:41:07] wait() returned child PID 21835 (numDead=3) 
No more children - bye! 


如 果 于 同一 时 点 存在 多 个 子 进 程 退出 ，SUSv3 并 未 对 
waitO 处 理 这 些 子 进程 的 顺序 加 以 规定 ， 换 言 之 ， 该 顺序 取 
决 于 具体 实现 。 即 使 不 同 的 Linux 内 核 版 本 之 间 ， 行 为 也 有 
所 不 同 。 























程序 清单 26-1: 创建 并 等 待 多 个 子 进程 





procexec/multi_wait.c 


#include <sys/wait.h> 

#include <time.h> 

#include "curr _time.h" /* Declaration of currTime(} */ 
#include “tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
{ 
int numDead; /* Number of children so far waited for */ 
pid t childPid; /* PID of waited for child */ 
int j; 
if (argc < 2 || strcmp{argv[1], “--help") == 0) 
usageErr("%s sleep-time...\n", argv[0]); 
setbuf(stdout, NULL); /* Disable buffering of stdout */ 
for (j = 1; j < argc; j++) { /* Create one child for each argument */ 
switch (fork()) { 
case -1: 
errExit ("fork"); 
case 0: /* Child sleeps for a while then exits */ 


printf("[%s] child %d started with PID %ld, sleeping %s " 
"seconds\n", currTime("%T"), j, (long) getpid(), argv[j]); 

sleep(getInt(argv[j], GN NONNEG, “sleep-time")); 

_exit(EXIT SUCCESS); 


default: /* Parent just continues around loop */ 
break; 
} 


} 


numDead = 0; 
for (;;) { /* Parent waits for each child to exit */ 
childPid = wait(NULL); 
if (childPid == -1) { 
if (errno == ECHILD) { 
printf("No more children - bye!\n"); 
exit(EXIT_SUCCESS) ; 
} else { /* Some other (unexpected) error */ 
errExit("wait"); 
} 
} 


numDead++; 
printf("[%s] wait() returned child PID %ld (numDead=%d)\n", 
currTime("%T"), (long) childPid, numDead); 


procexec/multi_wait.c 


26.1.2 ”系统 调用 waitpid() 
系统 调用 wait() 存 在 诸多 限制 ， 而 设计 waitpidO 则 意 在 突破 这 些 限 


制 |。 


。 如 果 父 进程 已 经 创建 了 多 个 子 进程 ， 使 用 wait0 将 无 法 等 待 某 个 特 
定子 进程 的 完成 ， 只 能 按 顺 序 等 待 下 一 个 子 进程 的 终止 。 

。 如 果 没 有 子 进程 退出 ，wait0 总 是 保持 阻塞 。 有 了 时候 会 希望 执行 非 
阻塞 的 等 待 : 是 否 有 子 进程 退出 ， 立 判 可 知 。 

。 使 用 waitO 只 能 发 现 那些 已 经 终止 的 子 进 程 。 对 于 子 进程 因 某 个 信 
号 〈 如 SIGSTOP 或 SIG TTIN) 而 停止 ， 或 是 已 停止 子 进 程 收 到 
SIGCONT 信 号 后 恢复 执行 的 情况 就 无 能 为 力 了 。 











#include <sys/wait.h> 


pid_t waitpid(pid_t pid, int *slalus, int options); 


Returns process ID of child, 0 (see text), or -1 on error 











waitpid() 与 wait(0) 的 返回 值 以 及 参数 status 的 意义 相同 。 (对 status 
中 返回 值 的 解释 请 参考 26.1.3 节 。) 参数 pid 用 来 表示 需要 等 待 的 具体 子 


。 如 宁 pid 大 于 0， 表 示 等 竺 进程 ID 为 pid 的 子 进 程 。 
。 如 末 pid 等 于 0， 则 等 待 与 调用 进程 〈 父 进程 ) 同一 个 进程 组 
(process group) 的 所 有 子 进 程 。34.2 节 将 描述 进程 组 的 概念 。 
° oe” 则 会 等 待 进程 组 标识 符 与 pid 绝 对 值 相等 的 所 有 子 
Te 
。 如 果 pid 等 于 -1， 则 等 竺 任意 子 进程 。wait(&status) 的 调用 与 
waitpid(-1, &status, 0) 等 价 。 


参数 options 是 一 个 位 掩 码 Chitmask) ， 可 以 包含 〈 按 位 或 操作 ) 0 
个 或 多 个 如 下 标志 均 在 SUSv3 中 加 以 规范 〉。 


WUNTRACED 


除了 返回 终止 子 进程 的 信息 外 ， 还 返回 因 信和 号 而 停止 的 子 进程 信 








息 
JOY 


WCONTINUED ( 自 Linux2.6.10 以 来 ) 


Fa De E E E 


Ho 








WNOHANG 


如 末 参 数 pid 所 指定 的 子 进程 并 未 发 生 状 态 改 变 ， 则 立即 返回 ， 而 
不 会 阻 蹇 ， 亦 即 poll〈 轮 询 ) 。 在 这 种 情况 下 ，waitpid0 返 回 0。 如 宁 调 
用 进程 并 无 与 pid 匹 配 的 子 进 程 ， 则 waitpid0 报 错 ， 将 错误 号 置 为 
ECHILD 。 


程序 清单 26-3 演 示 了 waitpid() 的 使 用 。 





SUSv3 在 其 对 waitpidO 的 原理 阐述 中 特别 指出 ， 
WUNTRACED 的 名 称 是 源 于 BSD 的 历史 产物 。BSD AW 
种 停止 进程 的 方法 : 作为 系统 调用 ptrace0) 退 踪 的 结果 ， 或 
者 因 收 到 一 个 信号 而 停止 。 当 通过 ptrace() 追 踪 一 个 子 进程 
IN, ASA CBR SIGKILL 之 外 的 ) 任何 信号 都 会 造成 子 进 程 
停止 ， 接 着 会 将 信号 SIGCHLD 发 给 父 进程 。 即 使 子 进 程 
忽略 这 些 信号 ， 这 一 行为 仍 会 发 生 。 不 过 ， 如 果子 进程 阻 
塞 了 这 些 信 号 《除非 是 无 法 阻塞 的 SIGSTOP 信 和 号) ， 子 进 
程 就 不 会 停止。 


26.1.3 ”等 待 状态 值 


由 wait0 和 waitpidO 返 回 的 status 的 值 ， 可 用 来 区 分 以 下 子 进 程 事 


e ene (或 exit()) 而 终止 ， 并 指定 一 个 整 型 值 作为 退出 


。 子 进程 收 到 未 处理 信号 而 终止 。 

。 子 进程 因为 信号 而 停止 ， 并 以 WUNTRACED 标 志 调 用 waitpid()。 

。 子 进程 因 收 到 信号 SIGCONT 而 恢复 ， 并 以 WCONTINUED 标 志 调 用 
waitpid(). 


此 处 用 术语 “等 待 状态 ”(wait status) 来 涵盖 上 述 所 有 情况 ， 而 使 
用 “终止 状态 ”(termination status) 的 称谓 来 指 代 前 两 种 情况 。 (在 shell 
中 ， 可 通过 读 取 $3? 变量 值 来 获取 上 次 执行 命令 的 终止 状态 。) 


虽然 将 变量 status 定 义 为 整 型 (int) ， 但 实际 上 仅 使 用 了 其 最 低 的 2 
对 这 2 个 字 节 的 填充 方式 取决 于 子 进程 所 及 生 的 基体 事件 ， 如 
26-1LATAN o 











15 < 一 一 一 上 比特 一 一 一 8 7 0 


正常 终止 退出 状态 (0 一 255) 








为 信号 所 杀 终止 信和 号 (1 二 0) 
人 内核 转 储 (core dumped) 标志 
为 信号 所 停止 


通过 信号 恢复 执行 OxFFFF 


图 26-1: 自 wait0 和 waitpidO 的 status 参 数 所 返回 的 值 





图 26-1 所 示 为 Linux/x86-32 下 等 待 状态 值 的 格式 。 不 同 
的 实现 版 本 细节 会 有 所 不 同 。SUSv3 并 未 对 信息 格式 做 出 
具体 规定 ， 也 未 规定 只 能 使 用 status 变 量 的 最 低 2 个 字 节 。 
要 保证 应 用 程序 的 可 移植 性 ， 应 总 是 使 用 本 节 介 绍 的 宏 
(macro) 来 获取 相应 的 值 ， 而 不 应 直接 按 位 读 取 其 内 容 。 











头 文件 <sys/waith> 定 义 了 用 于 解析 等 待 状态 值 的 一 组 标准 宏 。 对 目 


wait() 或 waitpidO 返 回 的 status 值 进行 处 理 时 ， 以 下 列表 中 各 宏 只 有 一 个 
会 返回 真 〈true) 值 。 如 列表 所 示 ， 另 有 其 他 宏 可 对 status 值 做 进一步 
HAT 
WIFEXITED (status) 

A FEE IE is 2 UI I Ctrue) 。 此 时 ， 安 


WEXITSTATUS(status) 返 回 子 进程 的 退出 状态 。《〈 如 25.1 节 所 述 ， 父 进 
程 仅 关注 子 进程 退出 状态 的 最 低 8 位 。) 
WIFSIGNALED (status) 

Aaa Ss ANT EE RA (true) 。 此 时 ， 安 
WTERMSIG(status) 返 回 导 致 子 进程 终止 的 信号 编号 。 若 子 进程 产生 内 


核 转 储 文 件 ， 则 宏 WCOREDUMP(status) 返 回 真 值 (true) 。SUSv3 并 未 
规范 宏 WCOREDUMP(O， 不 过 大 部 分 UNIX 实 现 均 支持 该 宏 。 

















WIFSTOPPED (status) 


若 子 进程 因 信号 而 停止 ， 则 此 宏 返 回 为 真 值 Crue) 。 此 时 ， 安 
WSTOPSIG(status) 返 回 导 致 子 进程 停止 的 信号 编号 。 


WIFCONTINUED (status) 


藻 子 进程 收 到 SIGCONT 而 恢复 执行 ， 则 此 宏 返 回 真 值 (true)。 自 
Linux 2.6.10 之 后 开始 支持 该 宏 。 


注意 : 尽管 上 述 宏 的 参数 也 以 status 命 名 ， 不 过 此 处 所 指 只 是 简单 
的 整 型 变量 ， 而 非 像 wait0 和 waitpidO0 所 要 求 的 那样 是 指 同 整 型 的 指针 。 


示例 程序 


程序 清单 26-2 中 的 函数 printWaitStatus0) 使 用 了 上 述 所 有 宏 。 此 函 
数 分 析 并 输出 了 等 待 状态 值 的 内 容 。 


程序 清单 26-2: 输出 waitO 及 相关 调用 返回 的 状态 值 






































一 一 procexec/pirint wait status.c 
#define GNU SOURCE /* Get strsignal() declaration from <string.h> */ 

#include <string.h> 

#include <sys/wait.h> 

#include "“print_wait_status.h" /* Declaration of printWaitStatus() */ 

#include "tlpi hdr.h" 


/* NOTE: The following function employs printf(), which is not 
async-signal-safe {see Section 21.1.2). As such, this function is 
also not async-signal-safe (i.e., beware of calling it from a 
SIGCHLD handler). */ 


void /* Examine a wait() status using the W* macros */ 
printWaitStatus(const char *msg, int status) 


{ 
if (msg != NULL) 
printf("%s", msg); 


if (WIFEXITED(status)) { 
printf("child exited, status=%d\n", WEXITSTATUS(status)); 


} else if (WIFSIGNALED(status)) { 
printf("child killed by signal %d (%s)", 
WIERMSIG(status), strsignal(WTERMSIG(status))); 
#ifdef WCOREDUMP /* Not in SUSv3, may be absent on some systems */ 
if (WCOREDUMP(status)) 
printf(" (core dumped)"); 
#endif 
printf("\n"); 


} else if (WIFSTOPPED({status)) { 
printf("child stopped by signal %d (%s)\n", 
WSTOPSIG(status), strsignal(WSTOPSIG(status))); 


#ifdef WIFCONTINUED /* SUSv3 has this, but older Linux versions and 
some other UNIX implementations don't */ 
} else if (WIFCONTINUED(status)) { 
printf("child continued\n"); 


#endif 
} else { /* Should never happen */ 
printf("what happened to this child? (status=%x)\n", 
(unsigned int) status); 
} 
} 


procexec/print_wait_status.c 


程序 清单 26-3 使 用 了 printWaitStatus() 函 数 。 该 程序 创建 了 一 个 子 进 
程 ， 该 子 进 程 会 循环 调用 pause() 在 此 期 间 可 以 辣子 进程 发 送信 号 〉， 





但 如 朱 在 命令 行 中 指定 了 整 王 参数， 则 子 进程 会 立即 退出 ， 并 以 该 整 型 
值 作为 退出 状态 。 同 时 ， 父 进程 通过 waitpid() 监 控 子 进程 ， 打 印 子 进程 
返回 的 状态 全 并 将 其 作为 参数 传 逆 给 printWaitStatus(。 一 旦 发 现 子 进程 
己 正常 退出 ， 亦 或 因 茶 一 信号 而 终止 ， 父 进程 会 随即 退出 。 


如 下 shell 会 话 展示 了 执行 程序 清单 26-3 程 序 的 几 个 例子 。 首 先 ， 创 
建 一 子 进 程 并 立即 退出 ， 且 其 状态 值 为 23: 
$ ./child_status 23 
Child started with PID = 15807 


waitpid() returned: PID=15807; status=0x1700 (23,0) 
child exited, status=23 


接 下 来 ， 在 后 台 运 和 村 该 程序 ， 并 辣子 进程 发 送 SIGSTOP 和 
SIGCONT 信 号。 














$ ./child_status & 
[1] 15870 


$ Child ae with PID = 15871 
kill -STOP 1 


$ waitpid() aan PID=15871; status=0x137f (19,127) 
child stopped by signal 19 (Stopped (signal)) 

kill -CONT 15871 

$ waitpid() returned: PID=15871; status=Oxffff (255,255) 
child continued 


输出 的 最 后 两 行 只 会 在 Linux 2.6.10 及 其 之 后 的 内 核 版 本 中 出 现 ， 因 
为 早期 内 核 并 不 支持 waitpidO0 的 WCONTINUED 选 项 。 (由 于 后 台 运 行 
e a a 起， 故而 该 shell 会 话 稍微 有 些 难 
以 阅读 。) 


接着 ， 再 发 送 SIGABRT 信 号 来 终止 子 进程 : 


kill -ABRT 15871 

$ waitpid() returned: PID=15871; status=0x0006 (0,6) 

child killed by signal 6 (Aborted) 

Press Enter, in order lo see shell notification thal background job has terminated 
[1]+ Done ./child_ status 

$ ls -1 core 

ls: core: No such file or directory 

$ ulimit -c Display RLIMIT_CORE limit 
0 








虽然 SIGABRT 的 默认 行为 是 产生 一 个 内 核 转 储 文件 并 终止 进程 ， 
但 这 里 并 未 产生 转 储 文件 。 这 是 由 于 屏蔽 内 核 转 储 所 致 ， 如 以 上 命令 


ulimit 的 输出 所 示 ， 将 RLIMIT_CORE 资 源 软 限制 〈 见 36.3 节 ) BNO, 
该 限制 规定 了 转 储 文件 大 小 的 最 大 值 。 


再 次 重复 同一 实验 ， 不 过 这 次 在 发 送信 号 SIGABRT 给 子 进 程 之 
前 ， 放 开 了 对 转 储 文件 大 小 的 限制 。 





$ ulimit -c unlimited Allow core dumps 

$ ./child_status & 

[1] 15902 

$ Child started with PID = 15903 

kill -ABRT 15903 Send SIGABRT toe child 


$ waitpid() returned: PID=15903; status=0x0086 (0,134) 
child killed by signal 6 (Aborted) (core dumped) 
Press Enter, in order to see shell notification that background job has terminated 


[1]+ Done ./child_status 
$ ls -1 core This time we get a core dump 
-IW------- 1 mtk users 65536 May 6 21:01 core 





程序 清单 26-3: 使 用 waitpidO 获 取 子 进程 状态 











procexec/child_status.c 


#include <sys/wait.h> 
#include "print wait status.h" /* Declares printWaitStatus() */ 
#include “tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int status; 
pid t childPid; 


if (argc > 1 && strcmp{argv[1], "--help") == 0) 
usageErr("%s [exit-status]\n", argv[0]); 


switch (fork()) { 
case -1: errExit("fork"); 


case 0: /* Child: either exits immediately with given 
status or loops waiting for signals */ 

printf("Child started with PID = %ld\n", (long) getpid(}); 
if (argc > 1) /* Status supplied on command line? */ 

exit(getInt(argv[1], 0, “exit-status")); 
else /* Otherwise, wait for signals */ 

for (33) 

pause() ; 

exit(EXIT FAILURE); /* Not reached, but good practice */ 


default: /* Parent: repeatedly wait on child until it 
either exits or is terminated by a signal */ 
for (;;) { 

childPid = waitpid(-1, &status, WUNTRACED 

#ifdef WCONTINUED /* Not present on older versions of Linux */ 
| WCONTINUED 
#endif 
); 
if (childPid == -1) 
errExit ("waitpid"); 


/* Print status in hex, and as separate decimal bytes */ 


printf("waitpid() returned: PID=%ld; status=0x%04x (%d,%d)\n", 
(long) childPid, 
(unsigned int) status, status >> 8, status & Oxff); 
printWaitStatus(NULL, status); 


if (WIFEXITED({status) || WIFSIGNALED(status)) 
exit (EXIT_SUCCESS); 


procexec/child_ status.c 


26.1.4 ”从 信号 处 理 程序 中 终止 进程 


如 表 20-1 所 列 ， 默 认 情况 下 茶 些 信号 会 终止 进程 。 有 时 ， 可 能 希望 
在 进程 终止 之 前 执行 一 些 清理 步骤 。 为 此 ， 可 以 设置 一 个 处 理 程序 
Chandler) 来 捕获 这 些 信 号， 随即 执行 清理 步骤 ， 再 终止 进程 。 如 朱 这 
么 做 ， 需 要 牢记 的 是 : 通过 wait0 和 waitpid0 调 用 ， 父 进程 依然 可 以 获取 
子 进程 的 终止 状态 。 例 如 ， 如 果 在 信号 处 理 程序 中 调用 
_exit(EXIT_SUCCESS)， 父 进程 会 认为 子 进程 是 正常 终止 。 








如 采 需 要 通知 父 进程 自己 因 菜 个 信和 号 而 终止 ， 那 么 子 进 程 的 信号 处 
理 程序 应 首先 将 目 己 废除 ， 然 后 再 次 发 出 相同 信号 ， 该 信号 这 次 将 终止 
这 一 子 进 程 。 信 和 号 处 理 程序 需 包含 如 下 代码 : 


void 
handler(int sig) 


/* Perform cleanup steps */ 


signal{sig, SIG DFL); /* Disestablish handler */ 
raise(sig); /* Raise signal again */ 


26.1.5 “系统 调用 waitid() 


与 waitpid0 类 似 ，waitid0 返 回 子 进程 的 状态 。 不 过 ，waitid0 提 供 
了 waitpidO 所 没有 的 扩展 功能 。 访 系统 调用 源 于 系统 V (System V) ， 
不 过 现在 已 获 SUSv3 采 用 ， 并 从 版 本 2.6.9 开 始 ， 将 其 加 入 Linux 内 核 。 


在 Linux 2.6.9 之 前 ， 通 过 glibc 实现 提供 了 一 版 
waitid()。 然 而 ， 由 于 完全 实现 该 接口 需要 内 核 的 支持 ， 
此 glibc 版 实现 并 未 提供 比 waitpid0 更 多 的 功能 。 





#include <sys/wait.h> 


int waitid(idtype t zdtype, id_t id, siginfo t *infop, int options); 


Returns 0 on success or if WNOHANG was specified and 
there were no children to wait for, or -1 on crror 

















参数 idtype 和 id 指定 需要 等 竺 哪些 子 进 程 ， 如 下 所 未 。 


。 如 果 idtype 为 P_ALL， 则 等 每 任何 子 进程 ， 同 时 忽略 id 值 。 
。 如 果 idtype 为 P_ PID， 则 等 街 进程 ID 为 id 进程 的 子 进程 。 
。 如 采 idtype 为 P PGID， 则 等 待 进程 组 ID 为 id 各 进程 的 所 有 子 进 程 。 





请 注意 ， 与 waitpid0 不 同 ， 不 能 靠 指 定 id 为 0 来 表示 与 
调用 者 属于 同一 进程 组 的 所 有 进程 。 相 反 ， 必 须 以 
getpgrp(O 的 返回 值 来 显 式 指 定 调用 者 的 进程 组 ID。 





waitpid) waitid0 最 显著 的 区 别 在 于 ， 对 于 应 该 等 竺 的 子 进 程 事 
件 ，waitid0 可 以 更 为 精确 地 控制 。 可 通过 在 options 中 指定 一 个 或 多 个 如 
下 标识 《〈 按 位 或 运算 ) 来 实现 这 种 控制 。 








WEXITED 

等 待 已 终止 的 子 进程 ， 而 无 论 其 是 否 正常 返回 。 
WSTOPPED 

等 待 已 通过 信号 而 停止 的 子 进程。 
WCONTINUED 





等 待 经 由 信号 SIGCONT 而 恢复 的 子 进程 。 
以 下 附加 标识 也 可 以 通过 按 位 或 运算 加 入 options 中 。 
WNOHANG 


与 其 在 waitpid0 中 的 意义 相同 。 如 果 匹 配 id 值 的 子 进 程 中 并 无 状态 
信息 需要 返回 ， 则 立即 返回 (一 个 轮 询 ) 。 此 时 ，waitid0 返 回 0。 如 果 
调用 进程 并 无 子 进程 与 id 的 值 相 匹配 ， 则 waitid 调 用 失败 ， 且 错误 号 为 
ECHILD。 








WNOWAIT 


通常 ， 一 旦 通过 waitid() 来 等 待 子 进程 ， 那 么 必然 会 去 处 理 所 请 “ 状 
态 事 件 ”。 不 过 ， 如 果 指 定 了 WNOWAIT， 则 会 返回 子 进程 状态 ， 但 子 
进程 依然 处 于 可 等 待 的 《waitable) 状态 ， 稍 后 可 再 次 等 待 并 获取 相同 
= 


Ho 





执行 成 功 ，waitid0 返 回 0， 且 会 更 新 指针 infop 所 指 辐 的 siginfo_t 结 
构 ， 以 包含 子 进程 的 相关 信息 。 以 下 是 结构 siginfo_t 的 字段 情况 。 


si_code 


该 字段 包含 以 下 值 之 一 :， CLD_EXITED， 表 示 子 进程 已 通过 调用 
_exitO 而 终止 ，CLD_KILLED， 表 示 子 进程 为 某 个 信号 所 杀 ; 
CLD_STOPPED， 表 示 子 进程 因 某 个 信号 而 停止 ，CLD_CONTINUED， 
表示 (之 前 停止 的 ) 子 进程 因 接收 到 CSIGCONT) 信号 而 恢复 执行 。 











si_pid 
该 字段 包含 状态 发 生变 化 子 进程 的 进程 ID。 


si_signo 





总 是 将 该 字段 置 为 SIGCHLD。 
si_status 


该 字段 要 么 包含 传递 给 _exit0) 的 子 进程 退出 状态 ， 要 么 包含 导致 子 
进程 停止 、 继 续 或 终止 的 信号 值 。 可 以 通过 读 取 si_code 值 来 判定 具体 包 
含 的 是 哪 一 种 类 型 的 信息 。 


si_uid 


该 字段 包含 子 进程 的 真正 用 户 ID。 大 部 分 其 他 UNIX 实 现 不 会 设置 
该 字段 o 








在 Solaris 系统 中 ， 此 结构 还 包含 两 个 附加 字段 : 
si_stime 和 si_utime， 分 别 包 含 子 进程 使 用 的 系统 和 用 户 
CPU 时 间 。SUSv3 并 不 要 求 waitid0 处 理 这 两 个 字段 。 


waitid() 操 作 的 一 处 细节 需要 进一步 淤 清 。 如 果 在 options 中 指定 了 
WNOHANG， 那 么 waitid0 返 回 0 意 味 着 以 下 两 种 情况 之 一 : 在 调用 时 子 





进程 的 状态 已 经 改变 〈 关 于 子 进 程 的 相关 信息 保存 在 infop 指 针 所 指向 的 
结构 siginfo tH) ， 或 者 没有 任何 子 进程 的 状态 有 所 改变 。 对 于 没有 任 
何 子 进程 改变 状态 的 情况 ， 一 些 UNIX 实 现 (包括 Linux)〉 会 将 siginfo_t 
结构 内 容 清 0。 这 也 是 区 分 两 种 情况 的 方法 之 一 : 检查 si_pid 的 值 是 否 为 
0。 不 季 的 是 ，SUSv3 并 未 规范 这 一 行为 ， 一 些 UNIX 实 现 此 时 会 保持 结 
构 siginfo_t 原 封 不 动 。( 未 来 针对 SUSv4 的 勘误 表 可 能 会 增加 在 这 种 情 

况 下 将 si_pid 和 si_signo 置 0 的 要 求 。) 区 分 这 两 种 情况 唯一 可 移植 的 方 

在 调用 waitid0 之 前 就 将 结构 siginfo_t 的 内 容 置 为 0， 正 如 以 下 代 

人 码 所 示 : 


siginfo t info; 








memset(&info, 0, sizeof(siginfo_t)); 
if (waitid(idtype, id, &info, options | WNOHANG) == -1) 
errExit ("waitid"); 
if (info.si_pid == 0) { 
/* No children changed state */ 
} else { 
/* A child changed state; details are provided in 'info' */ 
} 


26.1.6 ”系统 调用 wait30 和 wait4(0) 


系统 调用 wait30 和 wait40) 执 行 与 waitpid0 类 似 的 工作 。 主 要 的 语义 
差别 在 于 ，wait30 和 wait40 在 参数 rusage 所 指 癌 的 结构 中 返回 终止 子 进 
程 的 资源 使 用 情况 。 其 中 包括 进程 使 用 的 CPU 时 间 总 量 以 及 内 存 管 理 的 
统计 数据 。36.1 节 将 在 介绍 系统 调用 getrusage() 时 详细 讨论 rusage 结 构 。 





#define BSD SOURCE /* Or #define XOPEN SOURCE 500 for wait3() */ 
#include <sys/resource.h> 
#include <sys/wait.h> 


pid t wait3(int *status, int options, struct rusage *rusage); 
pid t wait4(pid t pid, int *status, int options, struct rusage *rusage); 


Both return process ID of child, or -1 on error 











除了 对 参数 rusage 的 使 用 之 外 ， 调 用 wait30 等 同 于 以 如 下 方式 调用 
waitpid(): 


waitpid(-1, &status, options); 


与 之 相 类 似 ， 对 wait40 的 调用 等 同 于 对 waitpid0 的 如 下 调用 : 


waitpid(pid, &status, options); 


换言之 ，wait30) 等 待 的 是 任意 子 进 程 ， 而 wait40 则 可 以 用 于 等 待 选 
定 的 一 个 或 多 个 子 进程 。 


在 一 些 UNIX 实 现 中 ，wait30 和 wait40 仅 返回 已 终止 子 进程 的 资源 
使 用 情况 。 而 对 于 Linux 系 统 ， 如 果 在 options 中 指定 了 WUNTRACED 选 
项 ， 则 还 可 以 获取 到 停止 子 进程 的 资源 使 用 信息 。 


这 两 个 系统 调用 的 名 称 来 自 于 它们 所 使 用 参数 的 个 数 。 虽 然 源 自 
BSD 系 统 ， 不 过 现在 大 部 分 的 UNIX 实现 都 支持 它们 。 这 两 个 系统 调用 
均 未 获得 SUSv3 标准 的 接纳 。 〈SUSv2 标准 纳入 了 wait30， 但 将 其 标 
BAOT e 

















本 书 一 般 会 避免 使 用 wait30 和 wait40。 通 常情 况 下 ， 此 类 调用 所 返 
a eeu 此 外 ， 未 获 业 界 标准 的 接纳 也 会 限制 其 可 
移植 性 。 


26.2 ”孤儿 进程 与 僵尸 进程 


短 。 





父 进 程 与 子 进程 的 生命 周期 一 般 都 不 相同 ， 父 、 子 进程 间 互 有 长 
这 就 引出 了 下 面 两 个 问题 。 


谁 会 是 孤儿 (orphan) 子 进程 的 父 进程 ?进程 ID 为 1 的 众 进 程 之 祖 
init 会 接管 孤儿 进程 。 换 言 之 ， 某 一 子 进程 的 父 进程 终止 后 ， 
对 getppidO) 的 调用 将 返回 1。 这 是 判定 某 一 子 进程 之 “生父 ”是 否 “ 在 
世 ”*” 的 方法 之 一 (前 提 是 假设 该 子 进程 由 init 之 外 的 进程 创建 〉。 














使 用 参数 PR_SET_PDEATHSIG 调 用 Linux 特 有 的 系统 
调用 prcdtO0， 将 有 可 能 导致 某 一 进程 在 成 为 孤儿 时 收 到 特定 


信和 号 。 





在 父 进程 执行 wait0 之 前 ， 其 子 进程 就 已 经 终止 ， 这 将 会 发 生 什 
A? 此 处 的 要 点 在 于 ， 即 使 子 进程 已 经 结束 ， 系 统 仍然 允许 其 父 进 
程 在 之 后 的 某 一 时 刻 去 执行 wait0， 以 确定 该 子 进程 是 如 何 终止 
的 。 内 核 通过 将 子 进程 转 为 僵尸 进程 (zombie) 来 处 理 这 种 情况 。 
这 也 意味 着 将 释放 子 进程 所 把 持 的 大 部 分 资源 ， 以 便 供 其 他 进程 重 
新 使 用 。 该 进程 所 唯一 保留 的 是 内 核 进程 表 中 的 一 条 记录 ， 其 中 包 
售 了 子 进程 ID、 终 止 状态 、 资 源 使 用 数据 〈36.1 节 ) 等 信息 。 


至 于 僵尸 进程 名 称 的 由 来 ， 则 源 于 UNIX 系统 对 电影 情 市 的 效仿 

















一 一 无 法 通过 信和 号 来 杀 死 僵尸 进程 ， 即 便 是 〈 银 弹 ) SIGKILL。 这 就 确 
保 了 父 进 程 总 是 可 以 执行 wait0 方 法 。 











当 父 进程 执行 wait0 后 ， 由 于 不 再 需要 子 进程 所 剩余 的 最 后 信息 ， 





故而 内 核 将 删除 僵尸 进程 。 另 一 方面 ， 如 果 父 进程 未 执行 waitO 随 即 退 


出 ， 


那么 init 进 程 将 接管 子 进 程 并 自动 调用 wait0， 从 而 从 系统 中 移 除 僵 


性 进程 。 


如 果 父 进程 创建 了 茶 一 子 进 程 ， 但 并 未 执行 wait()， 那 么 在 内 核 的 
进程 表 中 将 为 该 子 进 程 永 久保 留 一 条 记录 。 如 果 存 在 大 量 此 类 僵尸 进 
程 ， 它 们 势必 将 填 满 内 核 进程 表 ， 从 而 阻 码 新 进程 的 创建 。 既 然 无 法 用 
信号 杀 死 僵 刻 进程 ， 那 么 从 系统 中 将 其 移 除 的 唯一 方法 就 是 杀 挥 它们 的 
父 进程 〈 或 等 待 其 父 进程 终止 ) ， 此 时 init 进 程 将 接管 和 等 待 这 些 僵 己 
进程 ， 从 而 从 系统 中 将 它们 清理 挥 。 


在 设计 长 生命 周期 的 父 进程 〈 例 如 : 会 创建 众多 子 进程 的 网 络 服务 
器 和 Shell) 时 ， 这 些 语义 具有 重要 意义 。 换 句 话 说， 在 此 类 应 用 中 ， 父 
进程 应 执行 wait0 方 法 ， 以 确保 系统 总 是 能 够 清理 那些 死去 的 子 进程 ， 
避免 使 其 成 为 长 寿 僵 尸 。 如 26.3.1 节 所 述 ， 父 进程 在 处 理 SIGCHLD 信 和 号 
时 ， 对 wait0 的 调用 既 可 同步 ， 也 可 异步 。 


程序 清单 26-4 展示 了 一 个 僵尸 进程 的 创建 ， 以 及 发 送 SIGKILL 信 
号 无 法 杀 死 僵尸 进程 的 例子 。 运 行 这 一 程序 的 输出 如 下 : 


$ ./make_zombie 

Parent PID=1013 

Child (PID=1014) exiting 

1013 pts/4 00:00:00 make zombie Output from ps{ 1) 
1014 pts/4 00:00:00 make_zombie <defunct> 

After sending SIGKILL to make_zombie (PID=1014): 

1013 pts/4 00:00:00 make_zombie Output from ps{ 1) 
1014 pts/4 00:00:00 make zombie <defunct> 


P D Fih, ps(1) Arran h MIF E <defunct> RaR HEE MEAR 


JO 











程序 清单 26-4 使 用 system() 函 数 来 执行 通过 字符 串 参 数 
传 入 的 shell 命 令 。27.6 节 将 会 详细 描述 system() 函 数 。 
































程序 清单 26-4: 创建 一 个 僵尸 子 进程 














procexec/make_zombie.c 


#include <signal.h> 
#include <libgen.h> /* For basename() declaration */ 
#include "tlpi hdr.h" 


#define CMD SIZE 200 


int 


main(int argc, char *argv[]) 


{ 


char cmd[CMD_SIZE]; 
pid t childPid; 


setbuf(stdout, NULL); /* Disable buffering of stdout */ 
printf("Parent PID=%1ld\n", (long) getpid()); 


switch (childPid = fork()) { 
case -1: 
errExit("fork"); 


case 0: /* Child: immediately exits to become zombie */ 
printf("Child (PID=%1d) exiting\n", (long) getpid()); 
_exit(EXIT_ SUCCESS); 

default: /* Parent */ 


sleep(3); /* Give child a chance to start and exit */ 
snprintf(cmd, CMD SIZE, "ps | grep %s", basename(argv[0])); 
cmd[CMD_SIZE - 1] = ‘\o'; /* Ensure string is null-terminated */ 
system(cmd) ; /* View zombie child */ 


/* Now send the "sure kill" signal to the zombie */ 


if (kill(childPid, SIGKILL) == -1) 
errMsg("kill"); 


sleep(3); /* Give child a chance to react to signal */ 
printf("After sending SIGKILL to zombie (PID=%ld):\n", (long) childPid); 
system(cmd); /* View zombie child again */ 


exit(EXIT SUCCESS); 


procexec/make_zombie.c 


26.3 SIGCHLD 信 号 


子 进程 的 终止 属 异步 事件 。 父 进程 无 法 预知 其 子 进程 何 时 终止 。 
(即使 父 进程 向 子 进程 发 送 SIGKILL 信 号 ， 子 进程 终止 的 确切 时 间 还 依 
赖 于 系统 的 调度 : 子 进程 下 一 次 在 何 时 使 用 CPU。) 之 前 已 经 论 及 ， 父 
进程 应 使 用 wait() (或 类 似 调 用 )〉 来 防止 僵尸 子 进程 的 累积 ， 以 及 采用 
如 下 两 种 方法 来 避免 这 一 问题 。 


。 父 进程 调用 不 带 WNOHANG 标 志 的 wait()， 或 waitpid0) 方 法 ， 此 时 
如 果 尚 无 已 经 终止 的 子 进程 ， 那 么 调用 将 会 阻 窜 。 

。 父 进程 周期 性 地 调用 带 有 WNOHANG 标 志 的 waitpi dO ， 执 行 针 对 已 
终止 子 进程 的 非 阻塞 式 检查 〈 轮 询 ) 。 


这 两 种 方法 使 用 起 来 都 有 所 不 便 。 一 方面 ， 可 能 并 不 希望 父 进程 以 
阻塞 的 方式 来 等 待 子 进 程 的 终止 。 另 一 方面 ， 反 复 调 用 非 阻 塞 的 
waitpid0 会 造成 CPU 资源 的 浪费 ， 并 增加 应 用 程序 设计 的 复杂 度 。 为 了 
规避 这 些 问 题 ， 可 以 采用 针对 SIGCHLD 信 和 号 的 处 理 程序 。 


26.3.1 为 SIGCHLD 建 立信 号 人 处理 程序 


无 论 一 个 子 进程 于 何 时 终止 ， 系 统 都 会 向 其 父 进程 发 送 SIGCHLD 
信号 。 对 该 信号 的 默认 处 理 是 将 其 忽略 ， 不 过 也 可 以 安装 信号 处 理 程序 
来 捕获 它 。 在 处 理 程序 中 ， 可 以 使 用 wait) (或 类 似 方法 ) 来 收拾 僵尸 
进程 。 不 过 ， 使 用 这 一 方法 时 需要 掌握 一 些 窍门 。 


由 20.10 节 和 20.12 节 可 知 ， 当 调用 信和 号 处 理 程序 时 ， 会 暂时 将 引发 
调用 的 信号 阻塞 起 来 《除非 为 sigaction0 指 定 了 SA_NODEFER 标 志 ) ， 
且 不 会 对 SIGCHLD 之 流 的 标准 信号 进行 排队 处 理 。 这 样 一 来 ， 当 
SIGCHILD 信 号 处 理 程序 正在 为 一 个 终止 的 子 进 程 运 行 时 ， 如 果 相 继 有 
两 个 子 进程 终止 ， 即 使 产生 了 两 次 SIGCHLD 信号 ， 父 进程 也 只 能 捕获 
到 一 个 。 结 果 是 ， 如 果 父 进程 的 SIGCHLD 信 号 处 理 程序 每 次 只 调用 一 
次 wait0， 那 么 一 些 僵尸 子 进程 可 能 会 成 为 “漏网 之 鱼 ”。 


解决 方案 是 : 在 SIGCHLD 处 理 程 序 内 部 循环 以 WNOHANG 标 志 来 
调用 waitpid0， 直 至 再 无 其 他 终止 的 子 进程 需要 处 理 为 止 。 通 常 
SIGCHLD 处 理 程序 都 简单 地 由 以 下 代码 组 成 ， 仅 仅 捕获 已 终止 子 进程 











而 不 关心 其 退出 状态 。 


while (waitpid(-1, NULL, WNOHANG) > 0) 
continue; 


上 述 循环 会 一 直 持 续 下 去 ， 直 至 waitpid0 返 回 0， 表 明和 再 无 僵尸 子 进 
或 -1， 表 示 有 错误 发 生 《〈 可 能 是 ECHILD， 意 即 再 无 更 多 的 子 
进程 》 a 


SIGCHLD 处 理 程序 的 设计 问题 


假设 创建 SIGCHLD 处 理 程序 的 时 候 ， 该 进程 已 经 有 子 进程 终止 。 
那么 内 核 会 立即 为 父 进程 产生 SIGCHLD 信 号 吗 ? SUSv3 对 这 一 点 并 未 规 
定 。 一 些 源 自 系统 V (System V) 的 实现 在 这 种 情况 下 会 产生 SIGCHLD 
信号 ; 而 男 一 些 系统 ， 包 括 Linux， 则 不 这 么 做 。 为 保障 可 移植 性 ， 应 
用 应 在 创建 任何 子 进程 之 前 就 设置 好 SIGCHLD 处 理 程序 ， 将 这 一 隐患 
消解 于 无 形 。 无疑 ， 这 也 是 顺 其 自然 的 处 事 之 道 。) 


需要 更 深入 考虑 的 问题 是 可 重 入 性 Creentrancy) 。21.1.2 市 特别 指 
出 ， 在 信号 处 理 程序 中 使 用 系统 调用 (如 waitpid0 ) 可 能 会 改变 全 局 变 
= ermo 的 值 。 当 主 程序 企图 显 式 设置 errno (5435.1 节 对 getpriority() 
的 讨论 ) 或 是 在 系统 调用 失败 后 检查 errno 值 时 ， 这 一 变化 会 与 之 发 生 冲 
突 。 出 于 这 一 原因 ， 有 时 在 编写 SIGCHLD 信 号 处 理 程序 时 ， 需 要 在 一 
进入 处 理 程序 时 就 使 用 本 地 变量 来 保存 ermo 值 ， 而 在 返回 前 加 以 恢复 。 
请 参考 程序 清单 26-5。 


范例 程序 


程序 清单 26-5 提 供 了 一 个 更 为 复杂 的 SIGCHLD 信 号 处 理 程序 示例 。 
该 处 理 程序 为 所 捕获 的 每 个 子 进程 输出 进程 号 及 其 等 待 状态 LQ)。 为 了 模 
拟 调用 处 理 程序 期 间 产生 多 个 SIGCHLD 信 号 而 无 法 排队 的 效果 ， 利 用 
sleep0 调 用 人 为 地 拉 长 了 处 理 程序 的 执行 时 间 。 主 程序 为 每 个 〈( 整 
型 ) 命令 行 参 数 创建 一 个 子 进程 4)。 每 个 子 进程 持续 休眠 其 对 应 命令 行 
参数 所 指定 的 秒 数 ， 随 即 退 出 思 。 从 程序 下 面 的 执行 例子 可 以 看 出 ， 尽 
管 有 3 个 子 进 程 退 出 ， 而 父 进程 只 捕获 到 两 次 SIGCHLD 信 和 号 。 
$ ./multi_SIGCHLD 1 2 4 
16:45:18 Child 1 (PID=17767) exiting 


16:45:18 handler: Caught SIGCHLD First invocation of handler 
16:45:18 handler: Reaped child 17767 - child exited, status=0 




















16:45:19 Child 2 (PID=17768) exiting These children terminate during... 


16:45:21 Child 3 (PID=17769) exiting first invocation of handler 
16:45:23 handler: returning End of first invocation of handler 
16:45:23 handler: Caught SIGCHLD Second invocation of handler 


16:45:23 handler: Reaped child 17768 - child exited, status=0 
16:45:23 handler: Reaped child 17769 - child exited, status=0 
16:45:28 handler: returning 

16:45:28 All 3 children have terminated; SIGCHLD was caught 2 times 


请 注意 ， 在 程序 清单 26-5 中 ， 在 创建 子 进程 之 前 使 用 了 
sigprocmask() 来 阻塞 SIGCHLD 信 号 @。 这 一 做 法 确保 了 父 进 程 中 
sigsuspendO 循 环 的 正确 操作 。 如 果 以 此 方式 未 能 阻塞 SIGCHLD 信 和 号 ， 

而 某 一 子 进程 义 在 对 numLiveChildren 的 检查 和 执行 sigsuspend0) 调 用 (也 
可 以 是 pause() 调 用 ) 之 间 终 止 ， 那 么 sigsuspend0O) 调 用 会 永远 阻塞 ， 等 待 
a a CARIASO. 22.90 PEHR SERIA E pF 
































程序 清单 26-5: 通过 SIGCHLD 信 号 处 理 程序 捕获 已 终止 的 子 进程 


























procexec/multi_SIGCHLD.c 
#include <signal.h> 
#include <sys/wait.h> 
#include “print_wait_status.h" 
#include “curr _time.h" 
#include "tlpi_hdr.h" 


static volatile int numLiveChildren = 0; 
/* Number of children started but not yet waited on */ 


static void 
sigchldHandler(int sig) 


int status, savedErrno; 
pid_t childPid; 


/* UNSAFE: This handler uses non-async-signal-safe functions 
(printf(), printWaitStatus(), currTime(); see Section 21.1.2) */ 


savedErrno = errno; /* In case we modify ‘errno’ */ 
printf("%s handler: Caught SIGCHLD\n", currTime("4%T")); 


while ((childPid = waitpid(-1, &status, WNOHANG)) > 0) { 
printf("%s handler: Reaped child %ld - ", currTime("%T"), 
(long) childPid); 
printWaitStatus (NULL, status); 
numLiveChildren--; 


} 


if (childPid == -1 && errno != ECHILD) 
errMsg ("waitpid"); 


© sleep(5); /* Artificially lengthen execution of handler */ 
printf("%s handler: returning\n", currTime("%T")); 


errno = savedErrno; 


} 


int 

main(int argc, char *argv[]} 

{ 
int j, sigCnt; 
sigset_t blockMask, emptyMask; 
struct sigaction sa; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s child-sleep-time...\n", argv[0]); 


setbuf(stdout, NULL); /* Disable buffering of stdout */ 


sigCnt = 0; 
numLiveChildren = argc - 1; 


sigemptyset(&sa.sa_mask); 

Sa.sa_flags = 0; 

sa.sa_handler = sigchldHandler; 

if (sigaction(SIGCHLD, &sa, NULL) == -1) 
errExit("sigaction"); 


/* Block SIGCHLD to prevent its delivery if a child terminates 
before the parent commences the sigsuspend() loop below */ 


sigemptyset (&blockMask) ; 
sigaddset (&blockMask, SIGCHLD); 
© if (sigprocmask{SIG SETMASK, &blockMask, NULL) == -1) 
errExit("sigprocmask"); 


® for (j = 1; j < argc; j++) { 
switch (fork()) { 
case -1: 
errExit("fork"); 


case 0: /* Child - sleeps and then exits */ 
© sleep(getInt(argv[j], GN NONNEG, "child-sleep-time")); 
printf("%s Child %d (PID=%ld) exiting\n", currTime("%T"), 
j, (long) getpid()); 
_exit(EXIT SUCCESS); 


default: /* Parent - loops to create next child */ 
break; 


} 


/* Parent comes here: wait for SIGCHLD until all children are dead */ 


sigemptyset(&emptyMask) ; 
while (numLiveChildren > 0) { 
© if (sigsuspend(&emptyMask) == -1 && errno != EINTR) 
errExit ("sigsuspend”) ; 
sigCnt++; 


} 


printf("%s All %d children have terminated; SIGCHLD was caught " 
"Sd times\n", currTime("%T"), argc - 1, sigCnt); 


exit(EXIT_SUCCESS); 


procexec/multi_SIGCHLD.c 


26.3.2 ” 回 己 停止 的 子 进程 发 送 SIGCHLD 信 和 号 


正如 可 以 使 用 waitpid(0) 来 监测 已 停止 的 子 进 程 一 样 ， 当 信和 号 导致 子 
进程 停止 时 ， 父 进程 也 就 有 可 能 收 到 SIGCHLD 信号 。 调 用 sigaction() 
设置 SIGCHLD 信和 号 处 理 程序 时 ， 如 传 入 SA_NOCLDSTOP 标志 即 可 控 
制 这 一 行为 。 若 未 使 用 该 标志 ， 系 统 会 在 子 进 程 停止 时 向 父 进程 发 送 
SIGCHLD 信号 ; 反之 ， 如 末 使 用 了 这 一 标志 ， 那 么 就 不 会 因子 进程 的 
停止 而 发 出 SIGCHLD 信 号 。 (22.7 节 中 对 signal() 的 实现 就 未 指定 
SA NOCLDSTOP, ) 








因为 默认 情况 下 会 忽略 信号 SIGCHLD， 
SA_NOCLDSTOP 标 志 仪 在 设置 SIGCHLD 信 号 处 理 程序 时 
A ARS. MH., SA _NOCLDSTOP 只 对 SIGCHLD 信 号 起 
ER. 





SUSv3 也 允许 ， 当 信号 SIGCONT 导 致 已 停止 的 子 进程 恢复 执行 
时 ， 向 其 父 进程 发 送 SIGCHLD 信 号 。 (相当 于 waitpid0 的 
WCONTINUED 标 志 。 ) 始 于 版 本 2.6.9，Linux 内 核实 现 了 这 一 特性 。 


26.3.3 忽略 终止 的 子 进程 


更 有 可 能 像 这 样 处 理 终止 子 进程 : 将 对 SIGCHLD 的 处 置 
(disposition) 显 式 置 为 SIG_IGN， 系 统 从 而 会 将 其 后 终止 的 子 进程 立 
即 删 除 ， 毋 庸 转 为 僵尸 进程 。 这 时 ， 会 将 子 进 程 的 状态 弃 之 不 问 ， 故 而 
所 有 后 续 的 wait()( 或 类 似 ) 调用 不 会 返回 子 进程 的 任何 信息 。 





注意 ， 虽 然 对 信号 SIGCHLD 的 默认 处 置 就 是 将 其 忽 
略 ， 但 显 式 设置 对 SIG_IGN 标 志 的 处 置 还 是 会 导致 这 里 所 
描述 的 行为 差异 。 在 这 方面 ， 对 信号 SIGCHLD 的 处 理 非常 
独特 ， 不 同 于 其 他 信号 。 





如 同 许多 UNIX 实现 一 样 ， 在 Linux 系统 中 将 对 SIGCHLD 信号 的 
处 置 置 为 SIG_IGN 并 不 会 影响 任何 既 有 僵尸 进程 的 状态 ， 对 它们 的 等 
待 仍 然 要 照常 进行 。 在 其 他 一 些 UNIX 实现 中 (例如 Solaris 8) ， 将 对 
SIGCHLD 的 处 置 设置 为 SIG_IGN 确 实 会 删除 所 有 已 有 的 僵尸 进程 。 


信号 SIGCHLD 的 SIG_IGN 语 义 由 来 已 入 ， 源 于 系统 V (System 
V) 。SUSv3 也 规定 了 此 处 所 描述 的 行为 ， 不 过 原始 的 POSIX.1 标准 对 
此 则 未 作 表 述 。 因 此 ， 在 一 些 较 老 的 UNIX 实现 中 ， 久 略 SIGCHLD 并 
不 影响 僵尸 进程 的 创建 。 要 防止 产生 僵尸 进程 ， 唯 一 完全 可 移植 的 方法 
就 是 (可 能 是 从 SIGCHLD 信号 处 理 程 序 的 内 部 ) 调用 waitO 或 者 
waitpid(). 


老 版 本 Linux 内 核实 现 与 SUSv3 标 准 的 差异 


SUSv3 规 定 ， 如 果 将 对 SIGCHLD 的 处 置 设置 为 SIG_IGN， 那 么 将 丢 
弃 子 进程 的 资源 使 用 信息 ， 且 车 指定 RUSAGE_CHILDREN 标 志 调 用 
getrusage() 函 数 ， 其 返回 总 量 中 也 将 不 包含 该 项 信息 (36.1 节 ) 。 然 
而 ， 在 版 本 2.6.9 之 前 的 Linux 内 核 中 ， 还 是 会 记录 子 进程 的 CPU 使 用 时 
间 以 及 资源 的 使 用 情况 ， 并 可 通过 getrusage0O 调 用 获取 。 这 一 违规 行为 
直至 Linux 2.6.9 才 得 以 修正 。 











将 对 SIGCHLD 的 处 置 设置 为 SIG_IGN 还 会 阻止 times() 
《10.7 节 ) 返回 的 结构 中 包含 子 进 程 的 CPU 使 用 时 间 。 不 
过 ， 在 Linux 2.6.9 之 前 ，timesO 所 返回 的 信息 同样 存在 违规 

AT Alo 


SUSv3 规 定 ， 如 果 将 对 SIGCHLD 的 处 置 设置 为 SIG_IGN， 同 时 ， 
父 进程 已 终止 的 子 进 程 中 并 无 处 于 僵尸 状态 且 未 被 等 待 的 情况 ， 那 么 
wait) (或 waitpid()) 调用 将 一 直 阻 塞 ， 直 至 所 有 子 进 程 都 终止 ， 届 时 该 
调用 将 返回 错误 ECHILD。Linux 2.6 符 合 这 一 要 求 。 不 过 在 Linux 2.4 以 
及 更 早期 的 版 本 中 ，waitO 只 会 阻塞 到 下 一 个 子 进 程 终止 的 时 刻 ， 随 即 
返回 该 子 进 程 的 进程 ID 及 状态 〈 亦 即 ， 此 行为 与 未 将 对 SIGCHLD 信 和 号 
的 处 置 置 为 SIG_IGN 时 一 样 ) 。 


sigaction() 的 SA_NOCLDWAIT 标 志 





SUSv3 规 定 了 SA_NOCLDWAIT 标志 ， 可 在 调用 sigaction() 对 
SIGCHLD 信 和 号 的 处 置 进行 设置 时 使 用 此 标志 。 设 置 该 标志 的 作用 类 似 
于 将 对 SIGCHLD 的 处 置 置 为 SIG_IGN 时 的 效果 。Linux 2.4 及 其 早期 版 本 
并 未 实现 该 标志 ， 直 至 Linux 2.6 才 实现 对 其 支持 。 


将 对 SIGCHLD 的 处 置 置 为 SIG_IGN 与 采用 SA_NOCLDWAIT 之 间 最 
主要 的 区 别 在 于 ， 当 以 SA_NOCLDWAIT 设置 信号 处 理 程序 时 ，SUSv3 
并 未 规定 系统 在 子 进程 终止 时 是 否 同 其 父 进程 发 送 SIGCHLD 信 号 。 换 
言 之 ， 当 指定 SA_NOCLDWAIT 时 人 允许 系统 发 送 SIGCHLD 信 号 ， 则 应 用 
程序 即 可 捕捉 这 一 信号 〈 尽 管 由 于 内 核 已 经 丢弃 了 僵尸 进程 ， 造 成 
SIGCHLD 处 理 程序 无 法 用 wait(0) 来 获得 子 进程 状态 ) 。 在 包括 Linux 在 内 
的 一 些 UNIX 实 现 中 ， 内 核 确实 会 为 父 进程 产生 SIGCHLD 信 号。 而 在 另 
一 些 UNIX 实 现 中 ， 则 不 会 。 














当 为 SIGCHLD 信号 设置 SA_NOCLDWAIT 标志 时 ， 
老 版 本 Linux 内 核 的 行为 细节 同样 与 SUSv3 不 符 ， 正 如 之 


前 在 将 对 SIGCHLD 的 处 置 置 为 SIG_IGN 处 所 讨论 的 那样 。 


系统 V 的 SIGCLD 信 号 


Linux 系统 中 ， 信 号 SIGCLD 与 信号 SIGCHLD 意义 相同 。 之 所 以 
两 个 名 称 并 存 ， 是 由 历史 原因 造成 的 。SIGCHLD 信 号 源 自 BSD，POSIX 
标准 采用 了 这 一 名 称 ， 同 时 对 BSD 信 号 模型 做 了 大 量 标准 化 工作 。 系 统 
V 则 提供 了 相应 的 SIGCLD 信 号 ， 在 语义 上 稍 许 有 些 不 同 。 


BSD SIGCHLD 信 号 与 系统 V SIGCLD 间 的 主要 差别 在 于 ， 将 信号 处 
置 为 SIG_IGN 时 不 同 的 处 理 方式 。 


。 在 历史 《和 一 些 现代 ) 的 BSD 实 现 中 ， 即 使 忽略 了 SIGCHLD 信 
号 ， 系 统 仍 会 继续 将 无 人 等 竺 的 子 进 程 变 为 僵尸 进程 。 

。 在 系统 V 上 ， 使 用 signal() 而 非 sigaction()〉 忽略 SIGCLD 信 号 将 导 
致 子 进程 在 终止 时 不 会 转 为 僵尸 进程 。 


如 前 所 述 ， 原 始 的 POSIX.1 标 准 对 于 忽略 SIGCHLD 的 后 果 未 作 规 
定 ， 从 而 也 认可 了 系统 V 的 行为 。 而 今 ， 系 统 V 的 行为 已 成 为 SUSv3 标 
准 的 一 部 分 〈 不 过 将 仍然 使 用 SIGCHLD 的 名 称 ) 。 衍 生 自 系统 V 的 现代 
系统 实现 中 对 该 信号 使 用 了 SIGCHLD 这 一 标准 名 称 ， 同 时 继续 提供 具 
有 相同 含义 的 SIGCLD 信号 。 关 于 SIGCLD 的 更 多 信息 可 参考 [Stevens 
& Rago, 2005]. 








26.4 总 结 


使 用 wait0 和 waitpidO0 (以 及 其 他 相关 函数 ) ， 父 进程 可 以 得 到 其 终 
止 或 停止 子 进程 的 状态 。 该 状态 表明 子 进 程 是 正常 终止 〈( 帝 有 表示 成 功 
或 失败 的 退出 状态 ) ， 还 是 异常 中 止 ， 因 收 到 某 个 信号 而 停止 ， 还 是 因 
收 到 SIGCONT 信 号 而 恢复 执行 。 


如 果子 进程 的 父 进程 终止 ， 那 么 子 进程 将 变 为 孤儿 进程 ， 并 为 进程 
ID 为 1 的 init 进 程 接管 。 


子 进 程 终止 后 会 变 为 僵尸 进程 ， 仅 当 其 父 进程 调用 wait) (或 类 似 
函数 ) 获取 子 进程 退出 状态 时 ， 才 能 将 其 从 系统 中 删除 。 在 设计 长 时 间 
运行 的 程序 ， 诸 如 shell 程 序 以 及 守护 进程 (daemon) 时 ， 应 总 是 捕获 其 
所 创建 子 进程 的 状态 ， 因 为 系统 无 法 杀 死 僵尸 进程 ， 而 未 处 理 的 僵尸 进 
程 最 终 将 塞 满 内 核 进程 表 。 


捕获 终止 子 进程 的 一 般 方 法 是 为 信号 SIGCHLD 设 置信 号 处 理 程 
序 。 当 子 进程 终止 时 《也 可 选择 子 进程 因 信号 而 停止 时 ) ， 其 父 进程 会 
收 到 SIGCHLD 信 和 号。 还 有 另 一 种 移植 性 稍 差 的 处 理 方法 ， 进 程 可 选择 
将 对 SIGCHLD 信 号 的 处 置 置 为 忽略 〈SIG_IGN) ， 这 时 将 立即 丢弃 终 
止 子 进程 的 状态 (因此 其 父 进 程 从 此 也 无 法 获取 到 这 些 信息 ) ， 子 进程 
也 不 会 成 为 僵尸 进程 。 


更 多 信息 
请 参考 列 于 24.6 节 中 的 更 多 信息 来 源 。 




















26.5 ”练习 


26-1. 编写 一 程序 以 验证 当 一 子 进 程 的 父 进程 终止 时 ， 调 用 
getppid0 将 返回 1〈 进 程 init 的 进程 ID) 。 


26-2. 假设 存在 3 个 相互 关联 的 进程 《祖父 、 父 及 子 进程 )》 ， 祖 父 
进程 没有 在 父 进程 退出 之 后 立即 执行 wait0， 所 以 父 进程 变 成 僵尸 进 
程 。 那 么 请 指出 孙 进 程 何 时 被 init 进 程 收 养 〈 即 孙 进 程 调用 getppid() 将 
eis ， 是 在 父 进程 终止 后 ， 还 是 祖父 进程 调用 wait0) 后 ?请 编写 程序 
验证 结果 。 


26-3. 使 用 waitid0 蔡 换 程序 清单 26-3〈child_status.c) 中 的 
waitpid0)。 和 需要 将 对 函数 print WaitStatus() 的 调用 蕉 换 为 打印 waitid() 所 
返回 siginfo_t 结 构 中 相关 字段 的 代码 。 


26-4. 程序 清单 26-4 (make_zombie.c) 调用 了 sleep()， 以 便 人 允许 子 
进程 在 父 进 程 执行 函数 system() 前 得 到 机 会 去 运行 并 终止 。 这 一 方法 理 
论 上 存在 产生 竞争 条 件 的 可 能 。 修 改 此 程序 ， 使 用 信和 号 来 同步 父子 进程 
以 消除 该 竞争 条 件 。 











OME: 原文 为 “if on (previously unwaited-for) child of the calling 
process has yet terminated” . 


@) 译 者 注 : 此 处 原文 为 previously unwaited-for. 


第 27 章 ”程序 的 执行 


承接 前 几 章 对 于 进程 创建 和 终止 的 探讨 ， 本 章 首先 将 介绍 系统 调用 
execve()， 通 过 该 调用 ， 进 程 能 以 全 新 程序 来 蔡 换 当前 运行 的 程序 ， 接 
Le 讨论 函数 system() 的 实现 ， 该 函数 可 允许 调用 者 执行 任意 shell 命 








27.1 执行 新 程序 : execve() 


系统 调用 execve() 可 以 将 新 程序 加 载 到 某 一 进程 的 内 存 空 间 。 在 这 
一 操作 过 程 中 ， 将 丢弃 旧 有 程序 ， 而 进程 的 栈 、 数 据 以 及 堆 段 会 被 新 程 
序 的 相应 部 件 所 蔡 换 。 在 执行 了 各 种 C 语 言 函 数 库 的 运行 时 启动 代码 以 
及 程序 的 初始 化 代码 后 ， 例 如 ，C++ 静 态 构造 函数 ， 或 者 以 gcc 
constructor 属 性 〈 见 42.4 节 ) 声明 的 C 语 言 函 数 ， 新 程序 会 从 main() 函 数 
处 开始 执行 。 


由 fork() 生 成 的 子 进 程 对 execve0) 的 调用 最 为 频繁 ， 不 以 fork() 调 用 
为 先导 而 单独 调用 execve() 的 做 法 在 应 用 中 实 属 罕见 。 


基于 系统 调用 execve()， 还 提供 了 一 系列 冠 以 exec 来 命名 的 上 层 库 
函数 ， 虽 然 接口 方式 各 异 ， 但 功能 相同 。 通 常 将 调用 这 些 函 数 加 载 一 个 
新 程序 的 过 程 称 作 exec 操 作 ， 或 是 简单 地 以 exec0) 来 表示 。 下 面 将 先 描 
述 execve0， 然 后 再 对 相关 库 函 数 进行 说 明 。 























ftinclude <unistd.h> 


int execve(const char *pathname, char *const argu[], char *const envp[]); 





Never returns on success; returns -1 on error 








参数 pathname 包 含 准 备 载 入 当前 进程 空间 的 新 程序 的 路 径 名 ， 既 可 
以 是 绝对 路 径 《〈 冠 之 以 /) ， 也 可 以 是 相对 于 调用 进程 当前 工作 目录 
(current working directory) 的 相对 路 径 。 


参数 argv 则 指定 了 传递 给 新 进程 的 命令 行 参数 。 该 数组 对 应 于 C 语 
言 main0) 函 数 的 第 2 个 参数 (argv) ， 且 格式 也 与 之 相同 : 是 由 字符 串 指 
针 所 组 成 的 列表 ， 以 NULL 结 束 。argv[0] 的 值 则 对 应 于 命令 名 。 通 常情 
况 下 ， 该 值 与 pathname 中 的 basename (路径 名 的 最 后 部 分 》 相同。 


最 后 一 个 参数 envp 指 定 了 新 程序 的 环境 列表 。 参 数 envp 对 应 于 新 程 
序 的 environ 数 组 : 也 是 由 字符 串 指 针 组 成 的 列表 ， 以 NULL 结 束 ， 所 指 
向 的 字符 串 格式 为 name=value (6.7 节 ) 。 








Linux 所 特有 的 /proc/PID/exe 文 件 是 一 个 符号 链接 ， 包 
售 PID 对 应 进程 中 正在 运行 可 执行 文件 的 绝对 路 径 名 。 








调用 execve0 之 后 ， 因 为 同一 进程 依然 存在 ， 所 以 进程 ID 仍 保持 不 
变 。 如 28.4 节 所 述 ， 还 有 少量 其 他 的 进程 属性 也 未 发 生变 化 。 


如 有 果 对 pathname 所 指定 的 程序 文件 设置 了 set-user-ID (set-group- 
ID) 权限 位 ， 那 么 系统 调用 会 在 执行 此 文件 时 将 进程 的 有 效 
(effective) HP CH) ID 置 为 程序 文件 的 属 主 《〈 组 ) ID。 利 用 这 一 机 
制 ， 可 令 用 户 在 运行 特定 程序 时 临时 获取 特权 。 《参考 9.3 节 ) 。 


无 论 是 否 更 改 了 有 效 ID， 也 不 管 这 一 变化 是 否 生效 ，execve(0) 都 会 
以 进程 的 有 效用 户 ID 去 履 盖 已 保存 的 〈saved) set-user-ID， 以 进程 的 有 
HIDE m OIRA (saved) set-group-ID。 


由 于 是 将 调用 程序 取而代之 ， 对 execve() 的 成 功 调用 将 永 不 返回 ， 
而 且 也 无 需 检 查 execve0 的 返回 值 ， 因 为 该 值 总 是 雷 打 不 动 地 等 于 -1。 
实际 上 ， 一 旦 函数 返回 ， 就 表明 发 生 了 错误 。 通 常 ， 可 以 通过 errmo 来 判 
断 出 错 原 因 。 可 能 自 errmno 返 回 的 错误 如 下 : 


EACCES 


BS Hpathname?X A fs m — AE regular) 文件 ， 未 对 该 文件 赋予 
可 执行 权限 ， 或 者 因为 pathname 中 某 一 级 目录 不 可 搜索 (not 
searchable) 〈 即 ， 关 闭 了 该 目录 的 可 执行 权限 ) 。 还 有 一 种 可 能 ， 是 
以 MS_NOEXEC 标 志 〈14.8.1 节 ) RER “mount) 文件 所 在 的 文件 系 
统 ， 从 而 导致 这 一 错误 。 


ENOENT 


pathname 所 指 代 的 文件 并 不 存在 。 


ENOEXEC 


尽管 对 pathname 所 指 代 文 件 赋予 了 可 执行 权限 ， 但 系统 却 无 法 识别 
其 文件 格式 。 一 个 脚本 文件 ， 如 果 没 有 包含 用 于 指定 脚本 解释 器 


























(interpreter) 《以 字符 故 开 头 ) 的 起 始 行 ， 束 可 能 导致 这 一 错误 。 
ETXTBSY 


存在 一 个 或 多 个 进程 已 经 以 写 入 方式 打开 pathname 所 指 代 的 文件 
(4.3.27) 2 


E2BIG 
参数 列表 和 环境 列表 所 需 空间 总 和 超出 了 人 允许 的 最 大 值 。 


当 上 述 任 一 条 件 作 用 于 执行 脚本 的 脚本 解释 器 ， 或 是 执行 程序 的 
ELF 解 释 嚣 时， 同样 会 产生 相应 错误 。 





ELF (Executable and Linking Format) 是 一 种 广 为 实 现 
的 标准 ， 摘 述 了 可 执行 文件 的 布局 。 在 执行 期 间 ， 进 程 映 
像 (image) 通常 是 由 可 执行 文件 的 各 段 〈segment) 构造 
而 成 〈6.3 节 ) 。 不 过 ，ELF 规 格 也 允许 定义 一 个 解释 器 
CELF 程 序 头 部 的 PT_INTERP 元 素 ) 来 运行 程序 。 如 果 定 
义 了 解释 器 ， 内 核 则 基于 指定 解释 器 可 执行 文件 的 各 段 来 
构建 进程 映像 ， 转 而 由 解释 器 人 负责 加 载 和 执行 程序 。 第 41 
章 会 对 ELF 解 释 器 做 进一步 描述 ， 并 给 出 对 深层 信息 的 一 
eae 








示例 程序 

程序 清单 27-1 展 示 了 execve0 的 用 法 。 访 程序 首先 为 新 程序 创建 参 
数列 表 和 环境 列表 ， 接 着 调用 execve() 来 执行 由 命令 行 参 数 (argv[1]) 
所 指定 的 程序 路 径 名 。 


程序 清单 27-2 中 所 展示 的 程序 ， 是 设计 专 供 程序 清单 27-1 中 程序 来 
执行 的 。 访 程序 只 是 简单 显示 一 下 目 身 的 命令 行 参数 以 及 环境 列表 《〈 对 

















后 者 的 访问 使 用 了 全 局 变量 environ， 如 6.7 节 所 述 ) 


如 下 shell 会 话 (session) 演示 了 对 程序 清单 27-1 和 程序 清单 27-2 的 
使 用 (本 例 在 指定 执行 程序 时 使 用 的 是 相对 路 径 名 ) 


$ ./t_execve ./envargs 

argv[0] = envargs All of the output is printed by envargs 
argv[1] = hello world 

argv[2] = goodbye 

environ: GREET=salut 

environ: BYE=adieu 





程序 清单 27-1: 调用 函数 execve() 来 执行 新 程序 











procexec/t_execve.c 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


char *argVec[10]; /* Larger than required */ 
char *envVec[] = { "GREET=salut", "BYE=adieu", NULL }; 


if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s pathname\n", argv[0]); 


argVec[O] = strrchr(argv[1], '/'); /* Get basename from argv[1] */ 
if (argvec[0] != Roe 

argVec[0]++ 
else 


argVec[0] = argv[1]; 
argVec[1] = “hello world”; 
argVec[2] = "goodbye"; 
argVec[3] = NULL; /* List must be NULL-terminated */ 


execve(argv[1], argVec, envVec); 
errExit ("execve"); /* If we get here, something went wrong */ 


procexec/t_execve.c 





程序 清单 27-2: 显示 参数 列表 和 环境 列表 





procexec/envargs.c 
#include "tlpi_hdr.h" 


extern char **environ; 


int 
main(int argc, char *argv[]) 


int j; 
char **ep; 


for (j = 0; j < argc; j++) 
printf("argv[%d] = %s\n", j, argv j]); 


for (ep = environ; *ep != NULL; ep++) 
printf("environ: %s\n", *ep); 


exit(EXIT_ SUCCESS); 


procexec/envargs “CC 


27.2 exec( 库 函数 


本 节 所 讨论 的 库 函 数 为 执行 exec0 提 供 了 多 种 API 全 








函数 均 构 建 于 execve0 调 用 之 上 ， 只 是 在 为 新 程序 指定 程序 参数 列 
表 以 及 环境 变量 的 方式 上 有 上 所 不 同 。 








#include <unistd.h> 

int execle(const char *palhname, const char *arg, ... 
int execlp(const char *filename, const char *arg, ... 
int execvp(const char *filename, char *const argv[]); 


int execv(const char *pathname, char *const argu[]); 
int execl(const char *pathname, const char *arg, ... 





/* , (char *) NULL, char *const envp[] */ ); 


* , (char *) NULL */); 


/* , (char *) NULL */); 


None of the above returns on success; all return -1 on error 








各 函数 名 称 的 最 后 一 个 字母 为 区 分 这 些 函 数 提供 了 线索 。 表 27-1 总 





结 了 这 些 差 异 ， 下 面 则 是 详细 说 明 。 
。 大 部 分 exec0 函 数 要 求 提供 欲 加 载 新 程序 的 路 径 名 。 而 execlp() 和 


execvp() 则 允许 只 提供 程序 的 文件 名 。 系 统 会 在 由 环境 变量 PATH 所 
指定 的 目录 列表 中 寻找 相应 的 执行 文件 〈 稍 后 将 详细 解释 ) 。 这 与 
shell 对 键入 命令 的 搜索 方式 一 致 。 这 些 函 数 名 都 包含 字母 p (表示 
PATH) ， 以 示 在 操作 上 有 所 不 同 。 如 果 文 件 名 中 包含 “%/”， 则 将 其 
视 为 相对 或 绝对 路 径 名 ， 不 再 使 用 变量 PATH 来 搜索 文件 。 

函数 execle()、execlp() 和 execl() 要 求 开 发 者 在 调用 中 以 字符 串 列表 
形式 来 指定 参数 ， 而 不 使 用 数组 来 摘 述 argv 列 表 。 首 个 参数 对 应 于 
新 程序 main0 函 数 的 argv[0]， 因 而 通 弟 与 参数 filename 或 pathname 的 
basename 部 分 相同 。 必 须 以 NULEL 指 针 来 终止 参数 列表 ， 以 便于 各 
调用 定位 列表 的 尾部 。 C 上 述 各 原型 注释 中 的 (cham)NULL 部 分 透 
露 了 这 一 要 求 。 至 于 为 何 需 ;要 对 NULL 进 行 强制 闫 型 转换 ， 请 参考 
附录 C。) 这 些 函 数 的 名 称 都 包含 字母 1 (表示 list) ， 以 示 与 那些 将 
以 NULL 结 尾 的 数组 作为 参数 列表 的 函数 有 所 区 别 。 后 者 
Cexecve(). execvp()flexecv()) 名 称 中 则 包含 字母 yv (表示 
了 


函数 execve0 和 execle0) 则 允许 开发 者 通过 envp 为 新 程序 显 式 指定 环 

















tite, j PA U 吉 束 的 字符 串 指 针 数 组 。 
数 命 名 均 以 字母 e (environment) 结尾 。 aE ; 
者 的 当前 环境 〈 即 environ 中 内 容 ) 作为 新 程序 的 环境 。 


glibc 2.11 曾 加 入 一 个 非 标 准 函 数 execve( 人 file, argv, 
envp)。 该 函数 与 execvp0O 类 似 ， 不 过 并 非 通 过 environ 来 取 
得 新 程序 的 环境 ， 而 是 通过 参数 anvp 〈 类 似 于 函数 execve() 
和 execle0 ) 来 指定 新 环境 。 


后 面 几 页 会 演示 部 分 exec0O 函 数 变 体 的 使 用 。 
表 27-1: exec() 函 数 间 的 差异 总 结 


























参数 的 描述 量 来 源 Ce, -) 
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27.2.1 “环境 变量 PATH 





函数 execvpO0 和 execlpO 人 允许 调用 者 只 提供 欲 执行 程序 的 文件 名 。 二 
者 均 使 用 环境 变量 PATH 来 搜索 文件 。PATH 的 值 是 一 个 以 冒号 〈: ) 
分 隔 ， 由 多 个 目录 名 ， 也 将 其 称 为 路 径 前 组 Cpath prefixes) 组 成 的 字符 
串 。 下 例 中 的 PATH 包含 5 个 目录 ; 


$ echo $PATH 
/home/mtk/bin:/usr/local/bin:/usr/bin:/bin:. 


对 于 一 个 登录 shell 而 言 ， 其 PATH 值 将 由 系统 级 和 特定 用 户 的 shell 
启动 脚本 来 设置 。 由 于 子 进 程 继承 其 父 进程 的 环境 变量 ，shell 执 行 每 个 
命令 时 所 创建 的 进程 也 就 继承 了 shell 的 PATH。 


PATH 中 指定 的 路 径 名 既 可 以 是 绝对 路 径 名 《以 /开始 ) ， 也 可 以 是 
相对 路 径 名 。 对 相对 路 径 名 的 诠释 是 基于 调用 进程 的 当前 工作 目录 
(current working directory) 。 正 如 前 面 例子 中 所 示 ， 可 以 以 . (点) 来 
表示 当前 工作 目录 。 








在 PATH 中 包含 一 个 长 度 为 0 的 前 经， 也 可 以 用 来 指定 
当前 工作 目录 。 表 示 方 式 有 : 连续 的 冒号 、 起 始 冒 号 或 尾 
部 冒号 (例如 ，/usr/bin:/bin: ) 。SUSv3 废 止 了 这 一 技术 ; 
当前 工作 目录 应 该 用 .〈 点 ) 来 显 式 指 定 。 





如 果 没 有 定义 变量 PATH， 那 么 axecvpO0 和 execlpO0 会 采用 默认 的 路 
径 列 表 : .:/usr/bin:/bin. 


出 于 安全 方面 的 考虑 ， 通 常会 将 当前 工作 目录 排除 在 超级 用 户 
(root) 的 PATH 之 外 。 这 是 为 了 防止 root 用 户 发 生 如 下 意外 情况 : 执行 
当前 工作 目录 下 与 标准 命令 同名 的 程序 〈 事 先 由 恶意 用 户 故 意 放置 ) ， 
或 者 将 常用 命令 拼 错 而 执行 了 当前 工作 目录 下 的 其 他 程序 (例如 ， 输 入 
sl 而 非 1s〉。 一 些 Linux 发 行 版 还 将 当前 工作 目录 排除 在 非特 权 用 户 的 
PATH 人 缺 省 值 之 外 。 这 里 假定 ， 在 本 书展 示 的 所 有 shell 会 话 日 志 中 ， 对 
PATH 的 定义 均 不 包含 当前 工作 目录 ， 而 书 中 示例 在 执行 当前 工作 目录 
下 的 程序 时 都 冠 以 前 级 ./.， 原 因 也 正在 于 此 。 (同时 还 有 一 重 妙 用 : 在 























本 书 的 shell 会 话 日 志 中 ， 从 表现 形式 上 将 示例 程序 与 标准 命令 区 分 开 
Ro ) 


函数 execvp0 和 execlp0 会 在 PATH 包含 的 每 个 目录 中 搜索 文件 ， 从 
列表 开头 的 目录 开始 ， 直 至 成 功 执行 了 既定 文件 。 如 有 果 不 清 楚 可 执行 程 
序 的 具体 位 置 ， 或 是 不 想 因 硬 编码 Chard- code) 而 对 具体 位 置 产生 依 
赖 ， 对 PATH 环境 变量 的 这 种 使 用 方式 是 非常 有 效 的 。 

应 该 避免 在 设置 了 set-user-ID 或 set-group-ID 的 程序 中 调用 execvp() 
和 execlp0， 至 少 应 当 慎 用 。 需 要 特别 齐 慎 地 控制 PATH 环境 变量 ， 以 防 


运行 恶意 程序 。 在 实际 操作 中 ， 这 意味 着 应 用 程序 应 该 使 用 已 知 安全 的 
目录 列表 来 覆盖 之 前 定义 的 任何 PATH 值 。 


程序 清单 27-3 提 供 了 一 个 使 用 execlp0 的 例子 。 下 面 的 shell 会 话 日 志 
则 演示 了 如 何 通过 该 程序 来 调用 echo 命 令 (/bin/echo) : 


$ which echo 














/bin/echo 

$ 1s -1 /bin/echo 

-YWXY-XY-X 1 root 15428 Mar 19 21:28 /bin/echo 

$ echo $PATH Show contents of PATH environment variable 
/home/mtk/bin:/usr/local/bin:/usr/bin:/bin /bin is in PATH 

$ ./t_execlp echo execlp() uses PATH lo successfully find echo 


hello world 


在 上 例 中 ， 程 序 清单 27-3 程 序 将 字符 串 hello world 作 为 第 3 个 参数 传 
递 给 execlpO 调 用 。 


接 下 来 ， 重 新 对 PATH 进行 定义 ， 从 中 移 去 包含 程序 echo 的 目 
录 /bin: 


$ PATH=/home/mtk/bin: /usx/local/bin: /usr/bin 

$ ./t_execlp echo 

ERROR [ENOENT No such file or directory] execlp 
$ ./t_execlp /bin/echo 

hello world 


如 你 所 见 ， 当 仅 同 execlp0 提 供 文件 名 《 即 ， 字 符 串 中 不 包含 斜 
杠 “/”) 时 ， 调 用 会 失败 。 这 是 因为 在 PATH 包含 的 目录 列表 中 无 法 找到 
名 为 echo 的 文件 。 另 一 方面 ， 当 提供 了 包含 一 个 或 多 个 斜 杠 的 路 径 名 
时 ，execlpO 则 会 忽略 PATH 的 内 容 。 








程序 清单 27-3: 使 用 execlpO0 在 PATH 中 搜索 文件 








procexec/t_execlp.c 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s pathname\n", argv[0]); 


execlp(argv[1], argv[1], “hello world", (char *) NULL); 
errExit (“execlp"); /* If we get here, something went wrong */ 


} 


procexec/t_execlp.c 
27.2.2 ”将 程序 参数 指定 为 列表 


如 果 在 编程 时 已 知 某 个 execO 的 参数 个 数 ， 调 用 execle(0)、execlp0) 或 
者 execl0 时 就 可 以 将 参数 作为 列表 传 入 。 较 之 于 将 参数 装配 于 一 个 argv 
向 量 中 ， 代 码 要 少 一 些 ， 便 于 使 用 。 程 序 清单 27-4 中 程序 收效 与 程序 清 
单 27-1 相 同 ， 只 是 调用 了 execle0) 而 非 execve0)。 


程序 清单 27-4: 使 用 execle0， 将 程序 参数 指定 为 列表 












































procexec/t_execle.c 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


char *envVec[] = { "GREET=salut", "BYE=adieu", NULL }; 
char *filename; 


if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s pathname\n", argv[0]); 


filename = strrchr(argv[1], '/'); /* Get basename from argv[1] */ 
if (filename != NULL) 

filename++; 
else 

filename = argv[1]; 


execle(argv[1], filename, "hello world", (char *) NULL, envVec); 
errExit ("execle”); /* If we get here, something went wrong */ 


procexec/t_execle.c 


27.2.3 ”将 调用 者 的 环境 传递 给 新 程序 


疯 数 execlp()、execvp()、execl() 和 execv0O 不 允许 开发 者 显 式 指定 环 
境 列表 ， 新 程序 的 环境 继承 自 调 用 进程 〈6.7 节 ) 。 这 一 举措 的 后 果 可 
谓 是 喜忧参半 。 出 于 安全 方面 的 考虑 ， 有 时 希望 确保 程序 在 一 个 已 知 
CZE) 的 环境 列表 下 运行 。38.8 节 将 对 此 做 深入 讨论 。 


程序 清单 27-5 演 示 了 如 何 运 用 函数 execl0 使 新 程序 继承 调用 者 的 环 
境 。 对 于 通过 forkO 从 shell 处 所 继承 的 环境 ， 程 序 首先 用 函数 putenv0O 进 
行 了 修改 ， 接 着 执行 printenv 程 序 来 显示 环境 变量 USER 和 SHELL 的 值 。 
运行 程序 的 输出 如 下 : 

















$ echo $USER $SHELL Display some of the shell’s environment variables 
blv /bin/bash 

$ ./t_execl 

Initial value of USER: blv Copy of environment was inherited from the shell 
britta These two lines are displayed by execed printenv 
/bin/bash 








程序 清单 27-5: 调用 函数 execl()， 将 调用 者 的 环境 传递 给 新 程序 

















procexec/t execl.c 
#include <stdlib.h> 


#include “tlpi_hdr.h" 
int 
main(int argc, char *argv[]) 
printf("Initial value of USER: %s\n", getenv("USER")); 


if (putenv("USER=britta") != 0) 
errExit("putenv"); 


execl("/usr/bin/printenv", "printenv", "USER", "SHELL", (char *} NULL); 
errExit("execl"); /* If we get here, something went wrong */ 


procexec/t_execl.c 
27.2.4 执行 由 文件 描述 符 指 代 的 程序 : fexecve() 


glibc 自 版 本 2.3.2 开 始 提供 函数 fexecve0)， 其 行为 与 execve0 类 似 ， 
只 是 指定 将 要 执行 的 程序 是 以 打开 文件 描述 符 f 的 方式 ， 而 非 通过 路 径 
名 。 有 些 应 用 程序 需要 打开 某 个 程序 文件 ， 通 过 执行 校 验 和 
(checksum) 来 验证 文件 内 容 ， 然 后 再 运行 该 程序 ， 这 一 场景 束 较 为 适 
宜 使 用 函数 fexecve(0)。 














#define GNU SOURCE 
ftinclude <unistd.h> 


int fexecve(int fd, char *const argv[], char *const envp[]); 


Doesn't return on success; returns -1 on error 
> 











当然 ， 即 便 没有 fexecve0) 函 数 ， 也 可 以 调用 open() 来 打开 文件 ， 读 
取 并 验证 其 内 容 ， 并 最 终 运行 。 然 而 ， 在 打开 与 执行 文件 之 间 ， 存 在 将 
该 文件 蔡 换 的 可 能 性 ( 持 有 打开 文件 摘 述 符 并 不 能 阻止 创建 同名 新 文 
件 ) ， 最 终 造成 验证 者 并 非 执 行者 的 情况 。 





27.3 HEFE as HAAS 


所 谓 解释 器 Cinterpreter) , LA AEM MALI AE aT IY Fe 
序 。【〔 相 形 之 下 ， 编 译 占 则 是 将 输入 源 代 码 译 为 可 在 真实 或 虚拟 机 器 上 
执行 的 机 器 语言 。) 各 种 UNIX shell， 以 及 诸如 awk、sed、perl、 
python 和 ruby 之 类 的 程序 都 属于 解释 器 。 除 了 能 够 交互 式 地 读 取 和 执行 
命令 之 外 ， 人 解释 器 通常 还 具备 这 样 一 种 能 力 : 从 被 称 为 脚本 (script) 
的 文本 文件 中 读 取 和 执行 命令 。 

UNIX 内 核 运 行 解释 器 脚本 的 方式 与 二 进 制 (binary〉 程序 无 异 ， 
前 提 是 脚本 必须 满足 下 面 两 点 要 求 : 首先 ， 必 须 赋 予 脚本 文件 可 执行 权 
限 ， 其 次 ， 文 件 的 起 始 行 (initial line) 必须 指定 运行 脚本 解释 器 的 路 径 
名 。 格 式 如 下 : 


#! interpreter-path [ optional-arg | 


























字符 机 必须 置 于 该 行 起 始 处 ， 这 两 个 字符 串 与 解释 器 路 径 名 之 间 可 
以 以 空格 分 隅 。 在 解释 该 路 径 名 时 不 会 使 用 环境 变量 PATH， 因 而 一 般 
应 采用 绝对 路 径 。 使 用 相对 路 径 固 然 可 行 ， 但 很 少见 。 对 其 解释 则 相对 
于 启动 解释 器 进程 的 当前 工作 目录 。 解 释 器 路 径 名 后 还 可 跟随 可 选 参数 
目的 ) ， 二 者 之 间 以 空格 分 隔 。 可 选 参数 中 不 应 包含 空 


作为 例子 ，UNIX shell 脚 本 通常 以 下 面 这 行 开始 ， 指 定 运行 该 脚本 
*Jshell: 


#!/bin/sh 








解释 器 脚本 文件 首 行 中 的 可 选 参数 不 应 包含 空格 ， 因 
为 空格 此 处 所 起 的 作用 完全 取决 于 实现 。Linux 系 统 不 会 对 
可 选 参数 (optional-arg〉 中 的 空格 做 特殊 解释 ， 将 从 参数 
起 始 直至 行 尾 的 所 有 文本 视 为 一 个 单词 “正如 后 面 所 述 ， 
再 将 其 作为 一 整个 参数 传递 给 解释 器 〉。 注 意 ， 对 空格 的 





这 种 处 理 方式 与 shell 的 做 法 形成 鲜明 对 比 ， 后 者 总 是 将 其 
视 为 命令 行 中 各 单词 的 界定 符 。 


其 他 UNIX 实 现在 处 理 可 选 参数 中 的 空格 时 ， 其 做 法 与 
Linux 有 同 有 异 。 在 6.0 版 本 之 前 的 FreeBSD 上 ， 可 在 解释 器 
路 径 〈interpreter-path) 之 后 跟随 多 个 以 空格 分 隔 的 可 选 参 
数 《〈 并 作为 多 个 独立 的 单词 传递 给 解释 器 ) ; 而 到 了 6.0 版 
本 ， 其 行为 又 转 而 与 Linux 趋 同 。 而 Solaris 8 则 使 用 空格 来 
表征 可 选 参数 的 结束 ， 同 时 忽略 执行 中 之 后 的 任何 剩余 文 
De 


Linux 内 核 要 求 脚 本 的 #! 起 始 行 不 得 超过 127 个 字 节 ， 其 中 不 包括 行 
尾 的 换行 符 (newline〉。 超 出 部 分 会 被 悄 无 声明 地 上 略 去 。 

SUSv3 并 未 对 脚本 解释 器 的 提 行 技术 加 以 规范 ， 不 过 大 多 数 UNIX 
实现 部 文 持 这 一 特性 。 





不 同 的 UNIX 实 现 对 于 #! 行 的 长 度 限制 有 所 不 同 。 例 
如 ，OpenBSD 3.1 的 限制 为 64 个 字 节 ， 而 Tru64 5.1 则 为 1024 
字 节 。 在 一 些 早期 的 实现 (例如 SunOS 4) 中 ， 这 一 限制 甚 
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解释 器 脚本 的 执行 


因为 脚本 并 不 包含 二 进 制 机 器 码 ， 所 以 当 调 用 execve0) 来 运行 脚本 
时 ， 显 然 发 生 了 一 些 不 同 寻 和 常 的 事件 。execve() 如 果 检 测 到 传 入 的 文件 
以 两 字 节 序列 叶 !* 开 始 ， 就 会 析 取 该 行 的 剩余 部 分 (路 径 名 以 及 参 


数 ) ， 然 后 按 如 下 参数 列表 来 执行 解释 器 程序 : 





interpreter- path [ optionat-arg | script-path arg... 





XXE, interpreter-path 〈 解 释 器 路 径 ) 和 optional-arg〈 可 选 参数 ) 都 
取 上 自 脚 本 的 #! 行 ，script-path (脚本 路 径 〉 是 传递 给 execve() 的 路 径 名 ， 
arg ... 则 是 通过 变量 argv 传 递 给 execve() 的 参数 列表 (不 过 将 argv[0] 排 除 
在 外 ) 。 图 27-1 对 每 个 脚本 参数 的 起 源 做 了 总 结 。 


脚本 文件 (通过 scriptipath 定 位 ) 





#! interpreter-path optional-arg 


在 程序 内 部 调用 execxe1 


execue(script-path, argu, envp) 








interpreter-path optional-arg script-pa th arg... 
传递 给 解释 器 的 参数 列表 
图 27-1: 提供 给 可 执行 脚本 的 参数 列表 
编写 一 个 脚本 ， 用 程序 清单 6-2 (necho.c) 程序 作为 解释 此 用 于 
说 明 解 释 器 参数 的 来 源 。 该 程 厅 只 是 简 蛙 地 输出 所 有 的 命令 行 参数 。 接 
者 ， 再 使 用 27-1 中 程序 来 执行 该 脚本 : 


$ cat > necho.script Create script 

#!/home/mtk/bin/necho some argument 

Some junk 

Type Control-D 

$ chmod +x necho.script Make script executable 

$ ./t_execve necho.script And exec the script 

argv[0] = /home/mtk/bin/necho First 3 arguments are generated by kernel 
argv[1] = some argument Script argument is treated as a single word 
argv[2] = necho.script This is the script path 

argv[3] = hello world This was argVec{ 1] given to execve() 
argv[4] = goodbye And this was argVec{2{ 


在 本 例 中 , “解释 器 Cnecho) ”并 不 关心 脚本 的 内 容 
Cnecho.script) ， 脚 本 的 第 2 行 〈Some junk) 在 执行 时 不 起 作用 。 


2.2 内 核 在 执行 脚本 时 将 只 传递 interpreter-path (ff PEAS 
路 径 ) 的 basename 部 分 ， 以 作为 调用 脚本 的 首 个 参数 。 所 
以 ， 对 于 Linux 2.2 来 说 ，argv[0] 的 输出 行 会 只 显示 值 
necho. 





K# UNIX shell 和 人 解释 器 会 视 字 符 # 为 注释 的 开始 。 因 此 ， 这 些 解 
释 器 在 解释 脚本 时 会 忽略 带 有 提 的 初始 行 。 


使 用 脚本 的 optional-arg (可 选 参数 ) 


在 脚本 的 提起 始 行 中 ，optional-arg 的 用 途 之 一 是 为 解释 器 指定 命令 
行 参数 。 对 于 awk 之 类 的 解释 器 而 言 ， 这 是 非常 实用 的 特性 。 





自 20 世 纪 70 年 代 末 期 开始 ，awk 解 释 器 业已 成 为 UNIX 
系统 的 一 部 分 。 在 介绍 awk 语言 的 诸多 书籍 之 中 ， 就 有 一 本 
[Aho 等 ，1988] 是 由 该 语言 的 3 位 发 明 者 所 著 ， 而 该 语言 的 
命名 也 源 于 3 人 名 字 的 首 字 母 。Awk 的 长 处 在 于 ， 能 快速 为 
文本 处 理 程序 创 建 原型 。 作 为 一 门 弱 类 型 语言 ， 其 设计 中 
富 含 多 种 文本 处 理 原 素 ， 语 法 结构 则 以 C 语 言 为 基础 。 对 于 
时 下 风光 无 限 的 诸多 脚本 语言 〈 诸 如 JavaScript 和 PHP) 而 
言 ，awk 的 始祖 地 位 地 庸 置疑 。 


同 awk 提 供 脚 本 有 两 种 个 同方 式 。 默 认 方 式 是 将 脚本 作为 awk 的 首 
~ 


个 命令 行 参 数 


OAR 


$ awk 'script' input-file... 





也 可 以 将 awk 脚本 保存 于 文件 之 中 ， 正 如 下 面 显 示 最 长 输入 行 长 度 
的 例子 那样 : 


$ cat longest line.awk 
#!/usr/bin/awk 

length > max { max = length; } 
END { print max; } 


假设 使 用 如 下 C 代 码 来 执行 这 一 脚本 : 


execl("longest_line.awk", “longest_line.awk", "input.txt", (char *} NULL); 


execl() 转 而 调用 execve()， 以 如 下 参数 列表 来 运行 awk: 


/usr/bin/awk longest_line.awk input.txt 


由 于 awk 会 把 字符 串 longest_line.awk 解 释 为 一 个 包含 无 效 awk 命 令 
的 脚本 ， 故 而 execveO 调 用 将 以 失败 告终 。 这 就 需要 有 一 种 方法 来 通知 
awk: 该 参数 实际 上 是 包含 脚本 的 文件 名 称 。 在 脚本 的 雪 起 始 行 中 加 入 -f 
可 选 参 数 ， 就 可 达到 这 一 目的 。 这 等 于 告诉 awk， 后 面 的 参数 是 一 个 肢 
本 文件 : 
#!/usr/bin/awk -f 


length > max { max = length; } 
END { print max; } 


现在 ， 新 的 execl0 调 用 会 使 用 如 下 参数 列表 : 


/usr/bin/awk -f longest_line.awk input.txt 


这 样 ，awk 就 可 以 成 功 地 执行 longest_line.awk 脚 本 来 处 理 输入 文件 


input.txt. 
使 用 execlp() 和 execvp0 执 行 脚本 


通常 ， 脚 本 缺少 #! 起 始 行将 导致 exec() 函 数 执 行 失败 。 不 过 ， 
execlpO0 和 execvp0O 的 行事 方式 多 少 有 些 不 同 。 前 面 提 到 ， 这 些 函 数 会 通 
过 环境 变量 PATH 来 获取 目录 列表 ， 并 在 其 中 搜索 将 要 执行 的 文件 。 两 
个 函数 无 论 谁 找到 该 文件 ， 如 果 既 具有 可 执行 权限 ， 又 并 非 二 进 制 格 
式 ， 且 起 始 行 也 不 以 的 开始 ， 那 么 就 会 使 用 shell 来 解释 这 一 文件 。Linux 
中 ， 会 将 这 类 文件 视 同 于 包含 #!/bin/sh 起 始 行 的 文件 来 进行 处 理 。 














27.4 ”文件 摘 述 符 与 exec() 


默认 情况 下 ， 由 exec0O 的 调用 程序 所 打开 的 所 有 文件 捅 述 符 在 exec() 
的 执行 过 程 中 会 保持 打开 状态 ， 且 在 新 程序 中 依然 有 效 。 这 通常 很 实 
用 ， 因 为 调用 程序 可 能 会 以 特定 的 描述 符 来 打开 文件 ， 而 在 新 程序 中 这 
些 文 件 将 自动 有 效 ， 无 需 再 去 了 解 文件 名 或 是 把 它们 重新 打开 。 


shell 利 用 这 一 特性 为 其 所 执行 的 程序 处 理 MO 重 定向 。 例 如 ， 假 设 
键入 如 下 的 shell 命 令 : 


$ 1s /tmp > dir.txt 


shell 运 行 该 命令 时 ， 执 行 了 以 下 步骤 。 


1. 调用 fork0O 创 建 子 进程 ， 子 进程 会 也 运行 shell 的 一 份 找 贝 〈 因 此 
命令 行 也 有 一 份 挡 贝 )。 


2. 子 shell 以 描述 符 1 (标准 输出 打开 文件 dir.txt 用 于 输出 。 可 能 
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a) 子 shell 关 闭 描述 符 1 (STDOUT_FILENO) 后 ， 随 即 打开 文件 
dir.txt。 因 为 open() 在 为 描述 符 取 值 时 总 是 取 最 小 值 ， 而 标准 输入 (描述 
符 0) 又 仍 处 于 打开 状态 ， 所 以 会 以 描述 符 1 来 打开 文件 。 


b) shell 打 开 文 件 dir.txt， 获 取 一 个 新 的 文件 描述 符 。 之 后 ， 如 宋 该 
文件 描述 符 不 是 标准 输出 ， 那 么 shell 会 使 用 dup20 强 制 将 标准 输出 复制 
为 新 揪 述 符 的 副本 ， 并 将 此 时 已 然 无 用 的 新 描述 待 关闭 。 这 种 方法 较 
之 前 者 更 为 安全 ， 因 为 它 并 不 依赖 于 打开 文件 描述 符 的 低 值 取 数 原 
则 。) 源 代码 顺序 大 体 如 下 : 


fd = open("dir.txt", O_WRONLY | 0_CREAT， 
S IRUSR | S TWUSR | S_IRGRP | S IWGRP | S_IROTH | S_IWOTH); 











/* rw-rw-rw- */ 
if (fd != STDOUT FILENO) { 
dup2(fd, STDOUT_FILENO); 
close(fd); 


3. 子 shell 执 行程 序 ls。1s 将 其 结果 输出 到 标准 输出 ， 亦 即 文 件 dir.txt 


此 处 对 shel 处 理 IO 重 定向 的 解释 有 所 简化 。 特 别 是 ， 
某 些 命令 ， 即 所 谓 shell 内 建 命 令 ， 是 由 shell] 直 接 运 行 的 ， 
并 未 调用 fork() 或 者 exec()。 在 处 理 W/O 重 定 同时 ， 针 对 这 样 
的 命令 必须 进行 特殊 处 理 。 


将 茶 一 shell 命令 实现 为 内 建 命 令 ， 不 外 乎 如 下 两 个 目 
的 : 效率 以 及 会 对 shell 产生 副作用 (side effect) 。 一 些 频 
繁 使 用 的 命令 (如 pwd、echo 和 test) 逻辑 都 很 简单 ， 放 在 
shell 内 部 实现 效率 会 更 高 。 将 其 他 命令 内 置 于 shell 实 现 ， 
则 是 希望 命令 对 shell 本 里 能 产生 副作用 : 更 改 shell 所 存储 
的 信息 ， 修 改 shell 进 程 的 属性 ， 亦 或 是 影响 shell 进 程 的 运 
行 。 例 如 ，cd 命 令 必须 改变 shell 自 身 的 工作 目录 ， 故 而 不 
应 在 一 个 独立 进程 中 执行 。 产 生 副 作用 的 内 建 命令 还 包括 
exec. exit, read. set. source, ulimit. umask, waitl)& 
shell 的 作业 控制 (job-control) 命令 〈jobs、fg 和 bg) . 48 
了 解 shel] 文 持 的 全 套 内 建 命 令 ， 可 参考 shell 手 册页 
(manual page) 文档 。 





执行 时 关闭 〈close-on-exec) 标志 (FD_CLOEXEC) 


在 执行 execO 之 前 ， 程 序 有 时 需要 确保 关闭 茶 些 特定 的 文件 描述 
符 。 尤 其 是 在 特权 进程 中 调用 exec(0) 来 启动 一 个 未 知 程序 时 《并非 自己 
编写 ) ， 亦 或 是 局 动 程序 并 不 需要 使 用 这 些 已 打开 的 文件 搬 述 符 时 ， 从 
安全 编程 的 角度 出 发 ， 应 当 在 加 载 新 程序 之 前 确保 关闭 那些 不 必要 的 文 
件 描 述 符 。 对 所 有 此 类 描述 符 施 以 closeO) 调 用 就 可 达到 这 一 目的 ， 然 而 
这 一 做 法 存在 如 下 局 限 性 。 








o 某 些 描述 符 可 能 是 由 库 函 数 打开 的 。 但 库 函 数 无 法 使 主 程序 在 执行 
exec0 之 前 关闭 相应 的 文件 描述 符 。 作 为 基本 原则 ， 库 函数 应 总 是 
为 其 打开 的 文件 设置 执行 时 关闭 〈close-on-exec) 标志 ， 稍 后 将 介 
绍 所 使 用 的 技术 。 

e 如 果 execO 因 某 种 原因 而 调用 失败 ， 可 能 还 需要 使 描述 符 保 持 打 开 
状态 。 如 果 这 些 描述 符 已 然 和 关闭， 将 它们 重新 打开 并 指 同 相同 文件 
的 难度 很 大 ， 基 本 上 不 太 可 能 。 


为 此 ， 内 核 为 每 个 文件 描述 符 提 供 了 执行 时 关闭 标志 。 如 果 设 置 了 
这 一 标志 ， 那 么 在 成 功 执行 exec(0 时 ， 会 上 自动 关闭 该 文件 描述 符 ， 如 果 
调用 exec0O 失 败 ， 文 件 描述 符 则 会 保持 打开 状态 。 可 以 通过 系统 调用 
fentl() (5.247) 来 访问 执行 时 关闭 标志 。fcntl0 的 F_GETFD 操 作 可 以 获 
取 文 件 描述 符 标志 的 一 份 拷贝 : 


int flags; 





flags = fcntl(fd, F_GETFD); 
if (flags == -1) 
errExit("fent1"); 


获取 这 些 标志 后 ， 可 以 对 FD_CLOEXEC 位 进行 修改 ， 再 调用 fcntl0) 
的 F_SETFD 操 作 令 其 生效 : 


flags |= FD_CLOEXEC; 
if (fentl(fd, F_SETFD, flags) == -1) 
errExit("fcntl"); 


实际 上 FD_CLOEXEC 是 文件 描述 符 标 志 中 唯一 可 以 操 
作 的 一 位 。 该 位 对 应 值 为 1。 在 较 老 一 些 的 程序 中 ， 有 时 可 
以 看 到 以 fcntl(fd, F_SETFD,1) 的 调用 方式 来 设置 执行 时 关闭 
标志 ， 其 事实 依据 是 这 种 操作 不 可 能 影响 到 其 他 位 。 但 理 
论 上 ， 情 况 不 会 总 是 一 成 不 变 ( 示 来， 一些 UNIX 系 统 可 能 
会 实现 其 他 的 标志 位 ) ， 所 以 还 是 使 用 正文 所 示 的 技术 较 
为 稳 受 。 








包括 Linux 在 内 的 许多 UNIX 实 现 ， 还 允许 以 另外 两 种 


非 标准 的 ioctlO 调 用 来 修改 执行 时 关闭 标志 : 以 ioctl(fd， 
FIOCLEX) 为 fd 设置 此 标志 ， 以 ioctl(fd, FIONCLEX) 来 清除 
EAR RE o 


当 使 用 dup0、dup20 或 fcntl0 为 一 文件 摘 述 符 创 建 副 本 时 ， 总 是 会 
清除 副本 描述 符 的 执行 时 关闭 标志 。 (这 一 现象 既 有 其 历史 渊源 ， 也 顺 
应 了 SUSv3 的 要 求 。) 

程序 清单 27-6 展 示 了 对 执行 时 关闭 标志 的 操作 。 如 果 运 行 时 带 有 命 
令 行 参数 〈 可 为 任意 字符 串 ) ， 访 程序 首先 为 标准 输出 设置 执行 时 关闭 
标志 ， 随 后 执行 ls 命令。 程序 运 行 的 结果 如 下 : 

Exec ls without closing standard output 


28098 Jun 15 13:59 closeonexec 
Sets close-on-exec flag for standard output 


$ ./closeonexec 
-Ywxr-xr-xX 1 mtk users 
$ ./closeonexec n 

ls: write error: Bad file descriptor 


EP FAB QI TIA REP ster) Hy FO ETH PAS, HT e 
标准 错误 (stderr) 输出 了 一 条 错误 信息 。 
程序 清单 27-6: 为 一 文件 描述 符 设置 执行 时 关闭 标志 

















procexec/closeonexec.c 
#include <fcntl.h> 


#include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 
int flags; 
if (argc > 1) { 
flags = fcntl(STDOUT_FILENO, F_GETFD); /* Fetch flags */ 
if (flags == -1) 
errExit("fentl - F_GETFD"); 
flags |= FD CLOEXEC; /* Turn on FD _CLOEXEC */ 


if (fcntl(STDOUT FILENO, F_SETFD, flags) == -1) /* Update flags */ 
errExit("fcntl - F SETFD"); 
} 


execlp("Is", "Is", "-1", argv[o], (char *) NULL); 
errExit("execlp"); 


procexec/closeonexec.c 


27.5 ”信号 与 exec() 


exec( 在 执行 时 会 将 现 有 进程 的 文本 段 丢 大 。 该 文本 段 可 能 包含 了 
由 调用 进程 创建 的 信号 处 理 器 程序 。 既 然 处 理 器 已 经 不 知 所 踪 ， 内 核 就 
会 将 对 所 有 已 设 信号 的 处 置 重 置 为 SIG_DFL。 而 对 所 有 其 他 信号 (即将 
处 置 置 为 SIG_IGN 或 SIG_DEFL 的 信号 ) 的 处 置 则 保持 不 变 。 这 也 符合 
SUSv3 的 要 求 。 


不 过 ， 遭 忽略 的 SIGCHLD 信和 号 属于 SUSv3 中 的 特例 。 (之 前 曾 在 
26.3.3 节 提 及 ， 灸 略 SIGCHLD 能 够 阻止 僵尸 进程 的 产生 ) 。 人 至 于 调用 
exec(0) 之 后 ， 是 继续 让 遭 忽 略 的 SIGCHLD 信和 号 保持 被 忽略 状态 ， 还 是 
将 对 其 处 置 重 置 为 SIG_DFL，SUSv3 对 此 不 置 可 否 。Linux 的 操作 取 其 
前 者 ， 而 其 他 一 些 UNIX 实 现 ( 如 : Solaris) 则 采用 后 者 。 这 就 意味 
着 ， 对 于 忽略 SIGCHLD 的 程序 而 言 ， 要 最 大 限度 的 保证 可 移植 性 ， 惑 
应 该 在 调用 exec() 之 前 执行 signal (SIGCHLD, SIG_DFL) 。 此 外 ， 程 
Ee glen 


老 程序 的 数据 段 、 堆 以 及 栈 悉数 被 毁 ， 这 也 意味 着 通过 sigaltstack0) 
(21.379) 所 创建 的 任何 备 选 信号 栈 都 会 丢失 。 由 于 exec() 在 调用 期 间 
a ere 故而 也 会 将 所 有 信号 的 SA_ONSTACK 位 清除 








在 调用 exec() 期 间 ， 进 程 信号 掩 码 以 及 挂 起 (pending) 信号 的 设置 
均 得 以 保存 。 这 一 特性 允许 对 新 程序 的 信和 号 进行 阻塞 和 排队 处 理 。 不 
过 ，SUSv3 指出 ， 许 多 现 有 应 用 程序 的 编写 都 基于 如 下 的 错误 假设 : FE 
序 启动 时 将 对 某 些 特定 信号 的 处 置 置 为 SIG_DFL， 又 或 者 并 未 阻塞 这 
些 信 号 。 特别 是 ，C 语 言 标 准 对 信号 的 规范 很 弱 ， 对 信号 阻塞 也 未 置 
一 词 ， 所 以 为 非 UNIX 系 统 所 编写 的 C 程 序 也 不 可 能 去 解除 对 信号 的 阻 
塞 。) 为 此 ，SUSv3 建 议 ， 在 调用 exec0 执 行 任何 程序 的 过 程 中 ， 不 应 
当 阻 塞 或 忽略 信号 。 这 里 的 “任何 程序 ”是 指 并 非 由 exec() 的 调用 者 所 编 
写 的 程序 。 人 至 于 说 如 果 执 行 和 被 执行 的 程序 均 出 自 一 人 之 手 ， 叉 或 者 对 
运行 程序 处 理 信 号 的 手法 知 根 知 底 ， 那 自然 又 男 当 别论 。 














27.6 ”执行 shell 命 令 : system() 


程序 可 通过 调用 system() 函 数 来 执行 任意 的 shell 命 令 。 本 市 将 讨论 
system() 的 操作 ， 下 一 节 将 介绍 如 何 运 用 fork()、exec()、wait() 和 exitO) 来 
实现 system()。 


44.5 节 所 介绍 的 popen(O) 和 pclose() 函 数 同 样 可 以 用 来 执 
行 shell 命 令 ， 而 且 还 允许 调用 程序 向 命令 发 送 输入 信息 ， 
或 是 读 取 命令 的 输出 。 





#include <stdlib.h> 


int system(const char *command); 


See main text for a description of return value 

















函数 system0) 创 建 一 个 子 进程 来 运行 shell， 并 以 之 执行 命令 
command。 其 调用 示例 如 下 : 


system("1s | we"); 


system() 的 主要 优点 在 于 简便 。 


。 无 需 处 理 对 fork()、exec()、wait() 和 exit() 的 调用 细节 。 

e system() 会 代为 处 理 错误 和 信和 号。 

。 因为 system() 使 用 shell 来 执行 命令 (command) ， 所 以 会 在 执行 
command 之 前 对 其 进行 所有 的 常规 shell 处 理 、 蔡 换 以 及 重 定 问 操 
作 。 为 应 用 增加 “执行 一 条 shell 命 令 ” 的 功能 不 过 是 举 手 之 劳 。〔 许 
多 交互 式 应 用 程序 以 “! command” 的 形式 提供 了 这 一 功能 。) 


但 这 些 优点 是 以 低 效率 为 代价 的 。 使 用 system0) 运 行 命令 需要 创建 
至 少 两 个 进程 。 一 个 用 于 运行 shell， 另 外 一 个 或 多 个 则 用 于 shell 所 执 





行 的 命令 《执行 每 个 命令 都 会 调用 一 次 exec0) 。 如 果 对 效率 或 者 速度 
有 所 要 求 ， 最 好 还 是 直接 调用 fork() 和 exec() 来 执行 既定 程序 。 


system() 的 返回 值 如 下 。 


当 command 为 NULL 指 针 时 ， 如 果 shell 可 用 则 system() 返 回 非 0 值 ， 

若 不 可 用 则 返回 9。 这 种 返回 值 方式 源 于 C 语 言 标准 ， 因 为 并 未 与 任 
何 操作 系统 绑 定 ， 所 以 如 果 system0O 运 行 在 非 UNIX RAE, IA 
该 系统 可 能 是 没有 shell 的 。 此 外 ， 即 便 所 有 UNIX 实 现 都 有 shell， 
如 果 程 序 在 调用 system0 之 前 又 调用 了 chroot0， 那 么 shell 依 然 可 能 
无 效 。 知 command 不 为 NULL， 则 systemg0 的 返回 值 由 本 列表 中 的 余 
下 规则 决定 。 

如 果 无 法 创建 子 进程 或 是 无 法 获取 其 终止 状态 ， 那 么 system0) 返 

回 


la 
若 子 进程 不 能 执行 shell， 则 system0) 的 返回 值 会 与 子 shell 调 用 
_exit(127) 终 止 时 一 样 。 

如 果 所 有 的 系统 调用 都 成 功 ，system0 会 返回 执行 command 的 子 
shell 的 终止 状态 。shell 的 终止 状态 是 其 执行 最 后 一 条 命令 时 的 退出 
状态 ; 如 果 命 令 为 信号 所 杀 ， 大 多 数 shell 会 以 值 128+n 退出 ， 其 
中 为 信号 编号 〈 如 果 是 子 shell 为 信号 所 杀 ， 那 么 其 终止 状态 如 
26.1.3 节 所 述 ) 。 








至 于 调用 失败 是 由 于 system0 无 法 执行 shell， 还 是 
shell 以 状态 127 RH CE shell 未 能 发 现 并 执行 既定 名 称 的 
程序 ， 就 会 导致 后 一 种 情况 的 发 生 ) ，“【〔 通 过 system0) 的 返 
回 值 ) 是 无 法 区 分 的 。 


在 最 后 两 种 情况 中 ，system0 的 返回 值 与 waitpidO0 所 返回 的 等 待 状态 





(wait status) 形式 相同 。 因 此 ， 可 以 使 用 26.1.3 节 所 述 函 数 来 分 析 返 回 


值 ， 


并 以 printWaitStatus0) 函 数 〈 见 程序 清单 26-2〉 加 以 显示 。 


示例 程序 


程序 清单 27-7 演 示 了 system() 的 用 法 。 程 序 循环 读 取 命令 字符 串 ， 
再 使 用 system0 来 执行 命令 ， 并 对 system0 的 返回 值 进行 分 析 和 展示 。 下 
面 是 一 个 运行 的 例子 : 


$ ./t_system 

Command: whoami 

mtk 

system() returned: status=0x0000 (0,0) 
child exited, status=0 


Command: ls | grep XYZ Shell terminates with the status of... 
system() returned: status=0x0100 (1,0) ils last command (grep), which... 
child exited, status=1 found no match, and so did an exit( 1) 


Command: exit 127 

system() returned: status=0x7f00 (127,0) 

(Probably) could not invoke shell Actually, not true in this case 
Command: sleep 100 

Type Control-Z to suspend foreground process group 


[1]+ Stopped ./t_system 

$ ps | grep sleep Find PID of sleep 

29361 pts/6 00:00:00 sleep 

$ kill 29361 And send a signal to terminate it 

$ fg Bring t_system back into foreground 
./t_system 


system() returned: status=0x000f (0,15) 
child killed by signal 15 (Terminated) 
Command: “D$ Type Controt-D to terminate program 


程序 清单 27-7: 通过 system() 执 行 shell 命 令 


procexec/t_system.c 


#include <sys/wait.h> 
#include "print wait status.h" 
#include "tlpi_hdr.h" 


#define MAX_CMD_LEN 200 


int 
main(int argc, char *argv[]) 


char str[MAX CMD LEN]; /* Command to be executed by system() */ 
int status; /* Status return from system() */ 
for (;;) { /* Read and execute a shell command */ 
printf("Command: "); 
fflush(stdout); 
if (fgets(str, MAX_CMD_LEN, stdin) == NULL) 
break; /* end-of-file */ 


status = system(str); 
printf("system() returned: status=0x%04x (%d,%d)\n", 
(unsigned int) status, status >> 8, status & Oxff); 


if (status == -1) { 
errExit("system") ; 
} else { 
if (WIFEXITED(status) && WEXITSTATUS(status) == 127) 
printf("(Probably) could not invoke shell\n"); 
else /* Shell successfully executed command */ 
printWaitStatus(NULL, status); 
} 


} 


exit(EXIT_SUCCESS); 


procexec/t_system.c 


在 设置 用 户 ID (set-user-ID) 和 组 ID (set-group-ID) 程序 中 避免 使 用 
system() 


当 设置 了 用 户 ID 和 组 ID 的 程序 在 特权 模式 下 运行 时 ， 绝 不 能 调用 
system()。 即 便 此 类 程序 并 未 允许 用 户 指定 需要 执行 的 命令 文本 ， 鉴 于 
shell 对 操作 的 控制 有 赖 于 各 种 环境 变量 ， 故 而 使 用 system0 会 不 可 和 避免 
地 给 系统 带 来 安全 隐患。 


例如 ， 在 较 老 的 Bourne shell 中 ， 环 境 变 量 IFS (定义 了 用 于 将 命令 
行 拆 分 为 独立 单词 的 内 部 字段 分 隔 符 ) 就 引发 了 若干 起 对 系统 入 侵 的 成 
功 案例 。 如 果 将 IFS 定 义 为 a， 那 么 shell 会 将 字符 串 shar 视 为 带 有 参数 r 的 





单词 sh， 并 启动 男 一 shell 进 程 来 执行 当前 工作 目录 下 名 为 r 的 脚本 ， 这 就 
一 改 命令 的 原意 (执行 名 为 shar 的 命令 ) 。 对 这 一 安全 漏洞 的 修复 举措 
是 ， 将 IFS 只 应 用 于 shell 扩 展 所 产生 的 单词 。 此 外 ， 现 代 shell 会 在 启动 

时 重 置 IFS (为 由 空格 、Tab 以 及 换行 3 个 字符 组 成 的 字符 串 )， 以 确保 
即使 FS 的 继承 值 很 奇怪 ， 脚 本 的 行为 也 会 保持 一 致 。 作 为 进一步 的 安 

全 举措 ， 当 从 设置 用 户 〈 组 ) ID 程序 中 调用 时 ，bash 会 回转 为 实际 用 户 
(组 ) IDAR”. 


应 用 需要 加 载 其 他 程序 时 ， 为 确保 安全 过 关 ， 应 当 直 接 调用 fork0 
和 exec0O 系 函数 〈execlp0 和 execvp0O 除 外 ) 之 一 。 





27.7 system() 的 实现 


本 节 将 说 明 如 何 实现 system0 的 功能 。 首 先 给 出 一 个 简化 版 实现 ， 
接着 指出 这 一 实现 的 缺失 所 在 ， 最 后 再 展示 了 一 个 完整 的 实现 。 


对 system0 的 简化 实现 
命令 sh 的 参数 -c 提 供 了 一 种 简单 的 方法 ， 可 以 执行 包含 任意 命令 的 





$ sh -c "ls | we" 
38 38 444 


因此 ， 为 了 实现 system()， 需 要 使 用 fork() 来 创建 一 个 子 进 程 ， 并 以 
对 应 于 上 例 sh 命 令 的 参数 来 调用 exedl0: 


execl("/bin/sh", "sh", "-c", command, (char *) NULL); 


为 了 收集 system0O 所 创建 的 子 进程 状态 ， 还 以 指定 的 子 进 程 ID 调用 
了 waitpid()。 《使 用 wait() 并 不 合适 ， 因 为 wait() 等 待 的 是 任 一 子 进程 ， 
因而 无 意 间 所 获取 的 子 进程 状态 可 能 属于 其 他 子 进程 。) 程序 清单 27-8 
是 对 system() 的 人 简化 实现 。 
































程序 清单 27-8: 一 个 缺乏 信号 处 理 的 system() 实 现 








procexec/simple system.c 
#include <unistd.h> 
#include <sys/wait.h> 
#include <sys/types.h> 


int 
system(char *command) 


int status; 
pid t childPid; 


switch (childPid = fork()) { 
case -1: /* Error */ 
return -1; 


case 0: /* Child */ 
execl("/bin/sh", "sh", "-c", command, (char *) NULL); 
_exit(127); /* Failed exec */ 


default: /* Parent */ 
if (waitpid(childPid, &status, 0) == -1) 
return -1; 
else 
return status; 


procexec/simple_system.c 
在 system0) 内 部 正确 处 理 信和 号 
给 system0 的 实现 带 来 复杂 性 的 是 对 信号 的 正确 处 理 。 


首先 需要 考虑 的 信号 是 SIGCHLD。 假 设 调用 system0 的 程序 还 直接 
创建 了 其 他 子 进程 ， 对 SIGCHLD 的 信号 处 理 器 自身 也 执行 了 wait()。 在 
这 种 情况 下 ， 当 由 system() 所 创建 的 子 进程 退出 并 产生 SIGCHLD 信 号 
时 ， 在 systemQ) 有 机 会 调用 waitpidO) 之 前 ， 主 程序 的 信号 处 理 占 程序 可 能 
会 率先 得 以 执行 (收集 子 进程 的 状态 )。 这 是 范 争 条 件 (race 
condition〉 的 又 一 例证 。 这 会 产生 两 种 不 良 后 果 。 


。 调用 程序 会 误 以 为 其 所 创建 的 茶 个 子 进程 终止 了 。 
。 system() 函 数 却 无 法 获取 其 所 创建 子 进程 的 终止 状态 。 


所 以 ，system0) 在 运行 期 间 必 须 阻塞 SIGCHLD 信 和 号。 

其 他 需要 关注 的 信号 则 是 分 别 由 终端 的 中 断 interrupt) (通常 为 
Ctrl-C) 和 退出 〈quit) (通常 为 Ctrl-\) 符 所 产生 的 SIGINT 和 SIGQUIT 
信号 。 考 虑 执行 如 下 调用 的 后 果 : 


system("sleep 20"); 


此 时 此 刻 ， 会 有 3 个 进程 在 运行 :执行 调用 程序 的 进程 、 一 个 shell 
进程 ， 以 及 sleep 进 程 。 如 图 27-2 所 示 。 
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执行 传递 给 svstem0) 的 命令 ) 








图 27-2: 执行 system ("sleep 20") 期 间 的 进程 情况 





为 提高 效率 ， 如 果 赋 予 -c 选 项 的 是 一 条 简单 命令 ， 较 
之 于 管道 (pipeline) 或 序列 〈sequence) ， 一 些 shell ( 包 
括 bash) 会 直接 执行 该 命令 ， 而 不 会 再 去 创建 一 个 子 
shell。 对 于 采用 此 类 优化 的 shell 而 言 ， 因 为 只 有 两 个 进程 
(调用 进程 和 sleep 进 程 》， 所 以 图 27-2 有 失 准 确 。 不 过 ， 
本 节 关 于 system() 如 何 处 理 信号 的 论述 仍然 适用 。 


图 27-2 中 所 示 的 所 有 进程 构成 终端 前 台 进 程 组 的 一 部 分 。 〈34.2 节 
将 详细 讨论 进程 组 。) 所以， 在 输入 中 断 或 退出 符 时 ， 会 将 相应 信号 发 
送 给 所 有 3 个 进程 。shell 在 等 待 子 进程 期 间 会 忽略 SIGINT 和 SIGQUIT 
信号 。 不 过 ， 默 认 情 况 下 这 些 信号 会 杀 死 调用 程序 与 sleep 进 程 。 


调用 进程 和 所 执行 的 命令 应 当 如 何 应 对 这 些 信 号 呢 ? SUSv3 的 规定 
HR. 


。 调用 进程 在 执行 命令 期 间 应 忽略 SIGINT 和 SIGQUIT 信 号 。 

。 子 进程 对 上 述 两 信号 的 处 理 ， 如 同调 用 进程 调用 了 fork() 和 exec() 
一 般 ， 也 就 是 说 ， 将 对 已 处 理 信号 的 处 置 重 置 为 默认 值 ， 而 对 其 他 
言 号 的 处 置 则 保持 不 变 。 








按照 SUSv3 所 规范 的 方式 来 处 理 信 号 是 最 为 合理 的 ， 其 原因 如 下 。 


。 让 所 有 的 进程 都 对 这 些 信 号 做 出 啊 应 是 没有 意义 的 ， 用 户 会 对 应 用 
的 行为 困惑 不 已 。 

e 与 上 述 相 类 似 ， 一 面 在 执行 命令 的 进程 中 忽略 这 些 信号 ， 而 同时 又 
在 调用 进程 中 按 对 它们 的 缺 省 处 置 来 行事 ， 这 同样 也 说 不 通 。 用 户 
借 此 可 以 将 调用 进程 杀 掉 ， 同 时 放任 其 所 执行 的 命令 继续 运行 。 这 
与 实际 情况 也 并 不 相符 : 当 命令 传递 给 system() 执 行 时 ， 调 用 进程 
实际 上 已 经 放弃 了 控制 权 〈 即 阻塞 于 waitpidO 调 用 中 ) 。 

e system() 运 行 的 可 能 是 一 个 交互 式 应 用 ， 让 此 类 应 用 啊 应 终端 产生 
Wie Se a EEA © 


SUSv3 要 求 按 上 述 方式 来 处 理 SIGINT 和 SIGQUIT， 但 同时 指出 ， 对 
于 暗中 调用 system() 来 执行 任务 的 程序 ， 这 一 做 法 可 能 会 产生 不 良 后 
果 。 执 行 命令 时 如 按 下 Ctrl-C 或 Ctrl\， 将 只 会 杀 掉 system() 的 子 进程 ， 而 
应 用 程序 会 继续 运行 (用户 并 不 希望 如 此 ) 。 以 此 方式 调用 system0) 的 
程序 应 当 检 查 system0O 所 返回 的 终止 状态 ， 一 旦 发 现 命 令 因 信号 而 终 
止 ， 应 采取 相应 措施 。 


system() 实 现 的 改进 版 


程序 清单 27-9 所 示 为 遵循 上 述 规 则 的 system0) 实 现 。 关 于 该 实现 ， 
需 注意 以 下 几 点 。 


。 如 前 所 述 ， 当 command 为 NULL 指 针 时 ， 大 shell 可 用 ， 则 systemO 应 
返回 非 0 值 ， 如 不 可 用 ， 则 返回 0。 要 得 出 结论 ， 唯 一 可 靠 的 办 法 
就 是 笠 试 运行 shell。 程 序 这 里 的 做 法 是 : 递归 调用 system() 去 运行 
shell 命 令 “:” 并 检查 该 递归 调用 的 返回 状态 是 否 为 0 Ly。“:” 是 一 个 
shell 内 建 命令 ， 无 所 作为 却 总 是 返回 成 功 。 执 行 命令 exit 0 也 可 获得 
相同 效果 。〔 仪 仅 通 过 access() 来 判断 文件 /bin/sh 存 在 与 否 ， 是 否 具 
有 可 执行 权限 的 做 法 存在 局 限 性 。 在 chrootO 环 境 中 ， 即 使 具有 可 
执行 权限 的 shell 文 件 存 在 ， 如 果 与 其 进行 动态 链接 的 共享 库 无 效 ， 
依然 无 法 执行 shell。) 

只 有 父 进程 (system() 的 调用 者 ) 才 需 要 阻塞 SIGCHLDC@@， 同 时 还 
需要 忽略 SIGINT 和 SIGQUITG)。 不 过 ， 必 须 在 调用 fork0 之 前 执行 
这 些 动作 ， 因 为 如 果 在 父 进程 的 fork0 之 后 执行 ， 将 出 现 竞 争 条 
{fo dR: WARES HERE ALS BE ESIGCHLD Z Bil, PREFER 
退出 了 。) 结果 是 ， 如 同 稍 后 所 述 ， 子 进程 必须 取消 对 信号 属性 的 



































父 进程 并 未 对 sigaction0 以 及 sigprocmaskO 调 用 进行 错误 检查 
CGI， 这 两 者 分 别 用 于 操作 对 信号 的 处 置 和 信和 号 掩 码 。 这 样 做 原 
因 有 二 。 其 一 ， 这 些 调用 失手 的 可 能 性 不 大 。 实 际 上 ， 只 有 指定 参 
数 有 误 时 才 会 失败 ， 而 只 要 一 开始 调试 就 能 搞定 此 类 问题 。 其 二 ， 
这 里 假定 ， 较 之 于 此 类 信号 操控 函数 ， 调 用 者 更 关注 fork0 或 
waitpid0 的 成 败 与 否 。 同 理 ， 在 systemO 尾 部 的 信号 处 理 操 作 前 后 ， 
分 别 有 代 码 来 保存 和 恢复 errno， 以 便 一 旦 fork() 或 waitpidO) 失 败 ， 
调用 者 能 得 明 原因 。 如 果 因 信号 操作 失败 而 返回 -1， 那 么 调用 者 会 
误 认为 是 system() 执 行 Command 失 败 所 致 。 





SUSv3 仅 仅 指 出 在 创建 子 进程 失败 或 无 法 获取 子 进程 
状态 时 ，system0 返 回 -1。 并 未 提 及 system0 在 处 理 信 号 失 
败 时 也 会 返回 -1。 





子 进程 中 对 于 信号 相关 的 系统 调用 也 未 执行 错误 检查 BD)。 一 方 
面 ， 无 法 报告 此 类 错误 〈_exit(127) 是 预 留 给 执行 shell 时 报告 错误 
ZH); 另 一 方面 ， 这 一 失败 也 不 会 殊 及 system() 的 调用 者 ， 二 者 
分 属于 不 同 进程 。 

子 进程 刚 从 forkO 返 回 时 ， 会 将 对 SIGINT 和 SIGQUIT 的 处 置 置 为 
SIG_IGN 〈 继 承 自 父 进 程 ) 。 不 过 ， 如 前 所 述 ， 子 进程 处 理 这 些 信 
号 时 就 如 同 systemg0 的 调用 者 执行 了 fork0 和 execO。fork0 不 会 改变 
子 进程 对 这 些 信号 的 处 理 方式 。 而 exec() 则 会 将 对 已 处 理 信 号 的 处 
置 重 置 为 默认 值 ， 但 不 改变 对 其 他 信号 的 处 置 〈27.5 节 ) 。 因 此 ， 
如 果 调 用 者 对 SIGINT 和 SIGQUIT 的 处 置 设置 并 非 SIG_IGN， 那 么 子 
进程 会 将 其 置 为 SIG_DFL@。 








一 些 system() 实 现 反 而 会 将 子 进程 对 SIGINT 和 和 
SIGQUIT 的 处 置 重 置 为 在 调用 者 中 生效 的 设置 。 这 一 做 法 


的 依据 是 ， 后 续 对 execl() 的 调用 会 自动 将 对 这 些 已 处 理 信 
号 的 处 置 重 置 为 默认 值 。 不 过 ， 如 果 调 用 者 正在 处 理 两 个 
言 号 之 一 时 ， 这 可 能 会 导致 不 希望 的 行为 发 生 。 在 这 种 情 
况 下 ， 如 果 在 调用 execl0 之 前 的 瞬间 有 信和 号 送 达 子 进 程 ， 
那么 在 信号 经 由 sigprocmask0 解 除 阻 塞 后 ， 子 进程 还 是 会 
调用 信号 处 理 器 程序 。 





。 子 进程 如 果 调 用 execl() 失 败 ， 就 会 以 _exit()， 而 非 exit0) 来 终止 进程 
这 是 为 了 防止 对 子 进程 stdio 绥 冲 区 中 的 任何 未 写 入 数据 进行 刷 

。 父 进程 必须 使 用 waitpid() 来 专 候 其 所 创建 的 特定 子 进 程 C)。 如 果 使 
用 wait0， 不 经 意 间 可 能 会 捕获 到 其 他 子 进程 的 状态 。 

e 虽然 system() 实 现 并 未 强制 要 求 使 用 信号 人 处理 占 程 序 ， 但 调用 程序 
还 是 可 能 会 去 创建 它们 ， 从 而 中 断 对 waitpidO0 的 阻塞 调用 。SUSv3 
明确 要 求 在 这 种 情况 下 必须 重新 等 待 。 所 以 ， 如 果 发 生 EINTR 错 误 
GO， 则 循环 调用 waitpid0 以 期 成 功 重启 。 如 果 是 其 他 错误 ， 则 退出 
waitpidO 循 环 。 








程序 清单 27-9: system() 的 实现 





procexec/system.c 


#include <unistd.h> 
#include <signal.h> 
#include <sys/wait.h> 
#include <sys/types.h> 
#include <errno.h> 


int 
system(const char *command) 


sigset_t blockMask, origMask; 

struct sigaction salgnore, saQrigQuit, saOrigInt, saDefault; 
pid_t childPid; 

int status, savedErrno; 


if (command == NULL) /* Is a shell available? */ 
return system(":") == 0; 


sigemptyset (&blockMask) ; /* Block SIGCHLD */ 
sigaddset(&blockMask, SIGCHLD); 
sigprocmask(SIG BLOCK, &blockMask, &origMask); 


salgnore.sa_ handler = SIG IGN; /* Ignore SIGINT and SIGQUIT */ 
salgnore.sa_flags = 0; 

sigemptyset(&salgnore.sa_mask) ; 

sigaction(SIGINT, &salgnore, &saOrigInt); 

sigaction(SIGQUIT, &salgnore, &sa0rigQuit); 


switch (childPid = fork()) { 
case -1: /* fork() failed */ 
status = -1; 
break; /* Carry on to reset signal attributes */ 


case 0: /* Child: exec command */ 
saDefault.sa handler = SIG DFL; 
saDefault.sa flags = 0; 
sigemptyset(&saDefault.sa_mask) ; 


if (saOrigInt.sa_handler != SIG_IGN) 
sigaction(SIGINT, &saDefault, NULL); 

if (saOrigQuit.sa_ handler != SIG IGN) 
sigaction(SIGQUIT, &saDefault, NULL); 


sigprocmask(SIG SETMASK, &origMask, NULL); 


execl("/bin/sh", "sh", “-c", command, (char *) NULL); 
_exit(127); /* We could not exec the shell */ 


default: /* Parent: wait for our child to terminate */ 
while (waitpid(childPid, &status, 0) == -1) { 


if (errno != EINTR) { /* Error other than EINTR */ 
status = -1; 
break; /* So exit loop */ 
} 
} 
break; 


} 

/* Unblock SIGCHLD, restore dispositions of SIGINT and SIGQUIT */ 
savedErrno = errno; /* The following may change ‘errno’ */ 
sigprocmask(SIG_SETMASK, &origMask, NULL); 

sigaction{SIGINT, &saOrigInt, NULL); 

sigaction(SIGQUIT, &saOrigQuit, NULL); 


errno = savedErrno; 


return status; 


procexec/system.c 


关于 system() 的 更 多 细节 


为 保障 应 用 程序 的 可 移植 性 ， 应 确保 在 将 对 SIGCHLD 的 处 置 置 为 
SIG_IGN 的 情况 下 不 去 调用 System0， 因 为 此 时 waitpid0 将 无 法 获取 子 进 
程 的 状态 。《〈 忽 略 SIGCHLD 会 导致 工 即 丢弃 子 进 程 状态 ， 如 26.3.3 节 所 
述 。) 


在 一 些 UNIX 实 现 中 ， 如 果 在 将 对 SIGCHLD 的 处 置 置 为 SIG_IGN 的 
情况 下 调用 system0，system0 的 应 对 策略 是 : 临时 将 其 改 为 SIG_DFL。 
只 要 在 把 对 SIGCHLD 的 处 置 重 置 为 SIG_IGN 时 ，UNIX 实 现 能 够 处 理 价 
尸 子 进程 (Linux 不 在 此 列 ) ， 这 种 方法 就 是 可 行 的 。〔( 如 果 系 统 做 不 
到 这 一 点 ， 按 此 方式 实现 system0 〇 将 产生 如 下 不 恨 后 果 : 在 调用 者 执行 
system() 期 间 ， 如 果 另 一 子 进程 终止 了 ， 那 么 该 子 进程 将 成 为 伪 尸 进 
程 ， 且 无 法 回收 。) 


对 于 一 些 UNIX 实 现 (尤其 是 Solaris) ，/bin/sh 并 非 标准 的 POSIX 
shell。 若 希望 确保 执行 标准 shell， 则 必须 使 用 库 函 数 confstr0) 来 获取 配 
置 变量 CS_PATH 的 值 。 该 值 的 风格 与 PATH 相同 ， 包 含 了 标准 系统 工 
有 具 的 目录 列表 。 可 以 将 该 列表 赋 给 变量 PATH， 随 即 调用 execlp() 以 执 
行 标准 shell， 具 体 如 下 : 


char path[PATH MAX]; 

















if (confstr( CS PATH, path, PATH MAX) == 0) 
_exit(127); 
if (setenv("PATH", path, 1) == -1) 
_exit(127); 
execlp("sh", "sh", "-c", command, (char *) NULL); 
_exit(127); 


27.8 总 结 


进程 可 使 用 execve0 以 一 新 程序 蔡 换 当 前 增长 运行 的 程序 。execve0) 
的 参数 允许 为 新 程序 指定 参数 列表 argv) 和 环境 列表 。 构 建 于 
Sere 存在 多 种 命名 相似 的 函数 ， 功 能 相同 ， 但 提供 的 接口 不 


所 有 的 execO 函 数 均 可 用 于 加 载 二 进 制 的 可 执行 文件 或 是 执行 解释 
器 脚本 。 当 进程 执行 脚本 时 ， 脚 本 解释 器 程序 将 蔡 换 进程 当前 执行 的 程 
Eo HARRER OARA) 指定 了 解释 器 的 路 径 名 ， 供 识别 解释 器 
之 用 。 如 果 没 有 这 一 起 始 行 ， 那 么 只 能 通过 execlp() 或 execvp0 来 执行 脚 
本 ， 并 默认 把 shell 作 为 脚本 解释 器 。 


本 章 还 展示 了 如 何 组 合 使 用 fork()、 exec()、 exit0 和 wait0 来 实现 
System 函数 ， 访 函数 可 用 于 执行 任意 shell 命 令 。 


更 多 的 信息 
育 参 考 24.6 所 列 的 更 多 信息 来 源 。 





27.9 AD 


27-1. 如 下 shell 会 话 的 最 后 一 条 命令 使 用 程序 清单 27-3 程 序 来 执行 
程序 xyz。 结 果 如 何 ? 


$ echo $PATH 

/usr/local/bin:/usr/bin:/bin: ./diri:./dir2 

$ ls -l dir1 

total 8 

-IN-T--T-- 1 mtk users 7860 Jun 13 11:55 xyz 
$ 1s -1 dir2 

total 28 

-Ywxr-xr-x 1 mtk users 27452 Jun 13 11:55 xyz 
$ ./t_execlp xyz 


27-2. 试用 execve() 实 现 execlp()。 需 使 用 stdarg(3) API 来 处 理 
execlp(O 所 提供 的 变 长 参数 列表 。 还 需要 使 用 malloc 函 数 库 中 国 数 为 参数 
以 及 环境 向 量 分 配 空间 。 最 后 ， 请 注意 ， 要 检查 特定 目录 下 某 个 文件 是 
盏 存在 且 可 以 执行 ， 有 一 种 简单 方法 : 莹 试 执行 该 文件 即 可 。 

27-3. 如 果 赋予 如 下 脚本 可 执行 权限 并 以 exec0 运 行 ， 输 出 结果 如 
何 ? 


#!/bin/cat -n 
Hello world 


27-4. 下 列 代码 会 有 什么 效果 ? 在 何 种 情况 下 会 起 作用 ? 





























childPid = fork(); 

if (childPid == -1) 
errExit("fork1"); 

if (childPid == 0) {  /* Child */ 
switch (fork()) { 
case -1: errExit("fork2"); 


case 0: /* Grandchild */ 

/* ----- Do real work here ----- +y 

exit(EXIT_SUCCESS); /* After doing real work */ 
default: 

exit(EXIT_SUCCESS); /* Make grandchild an orphan */ 
} 


} 
/* Parent falls through to here */ 


if (waitpid(childPid, &status, 0) == -1) 
errExit ("waitpid"); 


/* Parent carries on to do other things */ 
27-5. 运行 如 下 程序 时 无 输出 。 试 问 原 因 何 在 ? 


#include "tlpi hdr.h" 





int 
main(int argc, char *argv[]) 
printf("Hello world"); 


execlp("sleep", "sleep", "0", (char *) NULL); 
} 


27-6. 假设 父 进程 为 信号 SIGCHLD 创 建 了 一 处 理 器 程序 ， 同 时 阻 
塞 该 信号 。 随 后 ， 其 某 一 子 进程 退出 ， 父 进程 接着 执行 waitO 以 获取 该 
子 进程 的 状态 。 当 父 进程 解除 对 SIGCHLD 的 阻塞 时 ， 会 发 生 什 么 ? 编 
e 这 一 结果 与 调用 system() 函 数 的 程序 之 间 有 什 
ARER? 


第 28 半 ” 详 述 进程 创建 和 程序 执行 


本 章 对 第 24 章 到 第 27 章 的 内 容 进 行 了 拓展 ， 涵 六 进程 创建 和 程序 执 
行 的 多 个 主题 。 首 先是 进程 记 账 (process accounting) ， 这 一 内 核 特性 
会 使 系统 在 每 个 进程 结束 后 记录 一 条 账单 信息 。 接 着 ， 会 讨论 Linux 特 
有 的 系统 调用 clone()，Linux 系 统 创建 线程 就 有 赖 于 这 一 底层 API。 人 然后 
对 fork()、vfork( 和 clone() 的 性 能 进行 了 比较 。 最 后 ， 本 章 就 fork() 和 
exec(O 对 进程 属性 的 影响 做 了 总 结 。 














28.1 ”进程 记 账 


打开 进程 记 账 功能 后 ， 内 核 会 在 每 个 进程 终止 时 将 一 条 记 账 信息 写 
入 系统 级 的 进程 记 账 文件 。 这 条 账单 记录 包含 了 内 核 为 该 进程 所 维护 的 
多 种 信息 ， 包 括 终止 状态 以 及 进程 消耗 的 CPU 时 间 。 借 助 于 标准 工具 
(sa(8) 对 账单 文件 进行 汇总 ，lastcomm(1) 则 就 先前 执行 的 命令 列 出 相 
关 信 息 ) 或 是 定制 应 用 ， 可 对 记 账 文件 进行 分 析 。 





内 核 2.6.10 之 前 ， 内 核 会 为 基于 NPTL 线 程 实现 所 创建 
的 每 个 线程 单独 记录 一 条 进程 记 账 信息 。 目 内 核 2.6.10 开 
始 ， 只 有 当 最 后 一 个 线程 退出 时 才 会 为 整个 进程 保存 一 条 
账单 记录 。 至 于 更 老 的 LinuxThread 线 程 实现 ， 则 会 为 每 个 
线程 单独 记录 一 条 进程 记 账 信息 。 

















从 历史 上 看 ， 进 程 记 账 主要 用 于 在 多 用 户 UNIX 系 统 上 针对 用 户 所 
消耗 的 系统 资源 进行 计 费 。 不 过 ， 如 果 进 程 的 信息 并 未 由 其 父 进 程 进 行 
监控 和 报告 ， 那 么 束 可 以 使 用 进程 记 账 来 获取 。 


虽然 大 部 分 UNIX 实 现 都 支持 进程 记 账 功能 ， 但 SUSv3 并 未 对 其 进 
行规 范 。 账 单 记 录 的 格式 、 记 账 文件 的 位 置 也 随 系统 实现 的 不 同 而 多 少 
存在 差别 。 本 节 所 述 是 针对 Linux 系 统 的 细节 ， 但 会 在 论述 过 程 中 点 出 
其 与 其 他 Unix 系 统 的 差异 。 











Linux 系 统 的 进程 记 账 功能 属于 可 选 内 核 组 件 ， 可 以 通 
i CONFIGBSD_PROCESS ACCT 选 项 进行 配置 。 


打开 和 关闭 进程 记 账 功能 


特权 进程 可 利用 系统 调用 acct(0 来 打开 和 关闭 进程 记 账 功能 。 应 用 
程序 很 少 使 用 这 一 系统 调用 。 一 般 会 将 相应 命令 置 于 系统 局 动 脚本 中 ， 
在 系统 每 次 重 局 时 开局 进程 记 账 功能 。 





#define _BSD_SOURCE 
#include <unistd.h> 


int acct(const char *accéfile); 





Returns 0 on success, or -1 on error 








为 了 打开 进程 账单 功能 ， 需 要 在 参数 acctfile 中 指定 一 个 现 有 常规 文 
件 的 路 径 名 。 记 账 文 件 通 常 的 路 径 名 是 /var/log/pacct 
或 /usrvaccount/pacct。 知 想 关 闭 进程 记 账 功能 ， 则 指定 acctfile 为 NULE 即 
me 


程序 清单 28-1 中 程序 使 用 acct0 来 开关 进程 的 记 账 功能 。 该 程序 的 作 
用 类 似 于 shell 命 令 accton(8)。 





程序 清单 28-1: 打开 和 关闭 进程 记 账 功能 








procexec/acct_on.c 
#define BSD SOURCE 
#include <unistd.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 
{ 
if (argc > 2 || (argc > 1 && stremp(argv[1], "--help") == 0)) 
usageErr("%s [file]\n"); 
if (acct(argv[1]) == -1) 
errExit("acct"); 


printf("Process accounting %s\n", 
(argv[1] == NULL) ? "disabled" : “enabled"); 
exit(EXIT SUCCESS); 


procexec/acct_on.c 


进程 账单 记录 


一 旦 打开 进程 记 账 功能 ， 每 当 一 进程 终止 时 ， 就 会 有 一 条 acct 记 录 
写 入 记 账 文件 。acct 结 构 定 义 于 头 文 件 <sys/accth> 中 ， 有 具体 如 下 : 


typedef u int16 t comp t; 


struct acct { 


}; 


cha 


u_int16_t 
u_int16_t 
u_int16_t 


u_int32_t 





com 





E 


pt 


ac_flag; 
ac_uid; 
ac_gid; 
ac_tty; 


ac_btime; 
ac_utime; 
ac_stime; 
ac_etime; 
ac_mem; 
ac_io; 


ac_Iw; 
ac_minflt; 
ac_majflt; 
ac_ swaps; 


/* 


JF 
/* 
/* 
/* 


/* 
/* 
TE 
/* 
/* 
/* 


/* 
/* 
/* 
/* 


u int32 t ac_exitcode; /* 
#define ACCT COMM 16 
ac_comm[ ACCT COMM+1]; 


cha 


cha 


工 


r 


ac_pad[10]; 


/* 


/* 


See text */ 


Accounting flags (see text) */ 

User ID of process */ 

Group ID of process */ 

Controlling terminal for process (may be 

0 if none, e.g., for a daemon) */ 

Start time (time t; seconds since the Epoch) */ 
User CPU time (clock ticks) */ 

System CPU time (clock ticks) */ 

Elapsed (real) time (clock ticks) */ 
Average memory usage (kilobytes) */ 

Bytes transferred by read(2) and write(2) 
(unused) */ 

Blocks read/written (unused) */ 

Minor page faults (Linux-specific) */ 

Major page faults (Linux-specific) */ 
Number of swaps (unused; Linux-specific) */ 
Process termination status */ 


(Null-terminated) command name 
(basename of last execed file) */ 
Padding (reserved for future use) */ 








关于 acct 结 构 需 要 注意 以 下 儿 点 。 


数据 类 型 u_int16_t 和 u_int32_t 分 别 是 16 位 和 32 位 的 无 符号 整数 类 
AY 
ac_flag 字段 (field) 是 为 进程 记录 多 种 事件 〈event) 的 位 掩 码 
(bit mask) 。 表 28-1 展 示 了 在 该 字段 中 可 能 出 现 的 位 。 如 表 中 所 
示 ， 并 非 所 有 的 UNIX 实 现 都 文 持 这 些 位 。 另 有 少数 实现 为 该 字段 
还 提供 了 一 些 附加 的 位 。 

ac_comm 字 段 记 录 了 该 进程 最 后 执行 的 命令 〈 程 序 文件 ) 名 称 。 内 
核 会 在 每 次 调用 execve() 时 记录 该 值 。 一 些 UNIX 实 现 将 该 字段 的 大 
小 限制 在 8 个 字 节 以 内 。 

类 型 comp_t 是 一 种 浮 点 型 (floating-point〉 数 字 。 有 时 也 将 该 类 型 
值 称 为 压缩 时 钟 周 期 (compressed clock tick) 。 该 浮 点 值 由 3 位 
(bit) 以 8 为 底 的 指数 以 及 13 位 Chit) 小 数组 成 ， 指 数 用 来 表示 值 














范围 在 80=1 一 8 (2097152) 之 间 的 因子 。 例 如 ， 尾 数 为 125， 指 数 
部 分 为 1 就 表示 值 为 1000。 程 序 清单 28-2 中 定义 的 函数 
(comptToLL()〉 可 以 将 该 类 型 转换 为 long long。 因 为 在 x86-32 架 构 
下 的 系统 中 ， 用 于 表示 无 符号 长 整 型 的 32 位 数 并 不 足以 保存 
comp _t 型 的 最 大 值 : (2 -— 1) x87. 

3 个 定义 为 comp _t 型 的 时 间 字 段 其 度量 单位 为 系统 时 钟 周 期 。 要 将 
它们 转换 成 秒 ， 必 须 除 以 sysconf(_SC_CLK_TCK) 的 返回 值 。 
ac_exitcode 字 段 保 存 着 进程 的 退出 状态 (如 26.1.3 节 所 述 ) 。 其 他 
大 多 数 UNIX 实 现 则 提供 了 一 个 名 为 ac_stat 的 单字 节 字 段 来 代 蔡 
ac_exitcode， 其 中 仅 记 录 了 和 杀 死 进程 的 信号 值 (如 果 进 程 为 信号 所 
R) 和 一 个 标志 位 ， 用 于 标识 是 否 因 该 信号 而 导致 进程 转 储 核 心 
(dump core) 。 二 者 在 源 于 BSD 的 实现 中 均 未 提供 。 


表 28-1: 进程 账单 记录 中 ac_flag 字 段 各 位 的 值 


















































昌 forkO 创 建 的 进程 ， 终 止 前 并 未 调用 exec0) 























拥有 超级 用 户 特 权 的 进程 
进程 因 信号 而 终止 《有 些 实现 未 支持 ) 
进程 产生 了 核心 转 储 〈 有 些 实 现 未 支持 ) 














因为 只 在 进程 终止 时 才 记 录 账 单 信 息 ， 所 以 对 这 些 记 录 的 排序 也 是 








按照 进程 的 终止 时 间 “〈 并 未 写 入 记录 ) ， 而 非 局 动 时 间 Cac_btime) 。 


如 果 系 统 骨 溃 ， 也 不 会 为 当前 运行 的 进程 记录 任何 记 
账 信息 。 





由 于 癌 记 账 文件 中 号 入 信息 可 能 会 加 速 对 磁盘 空间 的 消耗 ， 为 了 对 
进程 记 账 行为 加 以 控制 ，Linux 系 统 提供 了 名 为 /proc/sys/kernel/acct 的 虚 
拟 文件 。 此 文件 包含 3 个 值 ， 按 顺序 分 别 定义 了 如 下 参数 ， 高 水 位 
(high-water) 、 低 水 位 Clow-water) 和 频率 (frequency) 。3 个 参数 通 
第 的 默认 值 为 4、2 和 30。 如 果 开 局 进程 记 账 特性 且 磁 盘 空 闲 空间 低 于 
低 水 位 〈low-water) 百分比 ， 将 暂停 记 账 。 如 果 磁 盘 空 闲 空间 升 至 高 水 
位 百分比 之 上 ， 则 恢复 记 账 。 频 率 值 则 规定 了 两 次 检查 空闲 磁盘 空间 占 
比 之 间 的 间隔 时 间 (以 秒 为 单位 〉。 


示例 程序 
程序 清单 28-2 中 程序 显示 了 某 进 程 记 账 文件 记录 中 特定 字段 的 信 


恩 。 以 下 shell 会 话 演示 了 对 该 程序 的 使 用 。 首 先 新 建 一 个 空 的 进程 记 账 
文件 ， 同 时 开局 进程 记 账 功能 。 


























$ su Need privilege to enable process accounting 
Password: 

# touch pacct 

# ./acct_on pacct This process will be first entry in accounting file 
Process accounting enabled 

# exit Cease being superuser 


从 开启 进程 记 账 功能 到 现在 ， 已 经 有 3 个 进程 退出 ， 分 别 执行 了 
acct _ on、sSu 和 和 bash 程序。 进程 bash 由 su 启动 ， 负 责 运 行 特权 级 shell 会 
请。 


接着 运行 一 系列 命令 ， 借 此 向 记 账 文件 加 入 更 多 记录 : 


$ sleep 15 & 

[1] 18063 

$ ulimit -c unlimited Allow core dumps (shell built-in) 
$ cat Create a process 


Type Control-\ (generates SIGQUTT, signal 3) lo kill cat process 

Quit (core dumped) 

$ 

Press Enter to see shell notification of completion of sleep before next shell prompt 
[1]+ Done sleep 15 


$ grep xxx badfile grep fails with status of 2 

grep: badfile: No such file or directory 

$ echo $? The shell obtained status of grep (shell built-in) 
2 








下 面 两 个 命令 执行 的 是 前 面 章节 中 展示 过 的 两 个 程序 《程序 清单 


27-1 和 程序 清单 24-1) 。 第 一 条 命令 运行 的 程序 执行 了 /bin/echo， 
此 ， 写 入 账单 记录 中 的 合 令 名 是 echo。 第 二 条 命令 创建 了 一 个 子 进程 ， 
该 子 进程 并 未 调用 exec()。 

$ ./t_execve /bin/echo 

hello world goodbye 

$ ./t_fork 

PID=18350 (child) idata=333 istack=666 

PID=18349 (parent) idata=111 istack=222 


最 后 ， 运 行程 序 清单 28-2 中 程序 来 得 看 记 账 文件 的 内 容 。 


$ ./acct_view pacct 














command flags term. user start time CPU elapsed 

status time time 
acct on -9-- 0 root 2010-07-23 17:19:05 0.00 0.00 
bash aia 0 root 2010-07-23 17:18:55 0.02 21.10 
su -S-- 0 root 2010-07-23 17:18:51 0.01 24.94 
cat --XC 0x83 mtk 2010-07-23 17:19:55 0.00 1.72 
sleep ---- 0 mtk 2010-07-23 17:19:42 0.00 15.01 
grep ---- 0x200 mtk 2010-07-23 17:20:12 0.00 0.00 
echo eae 0 mtk 2010-07-23 17:21:15 0.01 0.01 
t_fork F--- 0 mtk 2010-07-23 17:21:36 0.00 0.00 
t_fork SS 0 mtk 2010-07-23 17:21:36 0.00 3.01 





输出 中 的 每 行 都 对 应 于 shell 会 话 所 创建 的 一 个 进程 。ulimit 和 echo 都 
是 shell 的 内 建 命令 ， 所 以 并 不 会 创建 新 进程 。 注 意 ， 记 账 文 件 中 sleep 之 
所 以 出 现在 cat 之 后 ， 是 因为 sleep 在 cat 之 后 才 终 止 。 


大 部 分 输出 的 含义 均 不 言 而 喻 。flags 列 中 的 各 个 字母 表示 每 条 记录 
对 哪些 ac_flag 位 进行 了 置 位 (参考 表 28-1) 。 人 至 于 应 如 何 解 释 term.status 
列 中 的 终止 状态 ，26.1.3 节 有 相关 描述 。 


程序 清单 28-2: 显示 进程 记 账 文件 中 的 数据 
































procexec/acct_view.c 


#include <fcntl.h> 

#include <time.h> 

#include <sys/stat.h> 

#include <sys/acct.h> 

#include <limits.h> 

#include “ugid functions.h" /* Declaration of userNameFromId{) */ 
#include "tlpi_hdr.h" 


#define TIME BUF SIZE 100 


static long long /* Convert comp_t value into long long */ 
comptToLL{comp_t ct) 


const int EXP_SIZE = 3; /* 3-bit, base-8 exponent */ 
const int MANTISSA SIZE = 13; /* Followed by 13-bit mantissa */ 
const int MANTISSA MASK = (1 << MANTISSA SIZE) - 1; 

long long mantissa, exp; 


mantissa = ct & MANTISSA MASK; 
exp = (ct >> MANTISSA SIZE) & ((1 << EXP SIZE) - 1); 
return mantissa << (exp * 3); /* Power of 8 = left shift 3 bits */ 


} 


int 
main(int argc, char *argv[ ]) 


int acctFile; 

struct acct ac; 

ssize t numRead; 

char *s; 

char timeBuf[TIME BUF SIZE]; 
struct tm *loc; 

time_t t; 


if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s file\n", argv[0]); 


acctFile = open(argv[1], O_RDONLY); 
if (acctFile == -1) 
errExit("open"); 


printf("command flags term. user 
"start time CPU elapsed\n"); 
printt(" status £ 
š time time\n"); 


while ((numRead = read{acctFile, &ac, sizeof(struct acct))) > 0) { 
if (numRead != sizeof(struct acct)) 
fatal("partial read"); 


printf("%-8.8s ", ac.ac_comm); 


printf("%c", (ac.ac_flag & AFORK) 
printf("%c", (ac.ac flag & ASU) 

printf("%c", (ac.ac_flag & AXSIG) 
printf("%c", (ac.ac flag & ACORE) 


ans um’ em A 
rmx Mon 
ee ee Ne S 
~“ w k “ea 


#ifdef linux _ 
printf(" %#61x ", (unsigned long) ac.ac_exitcode); 
#else /* Many other implementations provide ac stat instead */ 
printf(" %#61x ", (unsigned long) ac.ac_stat); 


#endif 
s = userNameFromId(ac.ac_uid); 
printf("%-8.85 ", (s == NULL) ? "2???" : s); 
t = ac.ac_btime; 
loc = localtime(&t); 
if (loc == NULL) { 
printf("???Unknown time??? "); 
} else { 
strftime(timeBuf, TIME BUF SIZE, "%Y-%m-%d %T ", loc); 
printf("%s ", timeBuf); 
printt("%5.2f %7.2f ", (double) (comptToLL(ac.ac_utime) + 
comptToLL(ac.ac_stime)) / sysconf(_SC_CLK_TCK), 
(double) comptToLL({ac.ac_ etime) / sysconf( SC CLK TCK)); 
printf("\n"); 
} 
if (numRead == -1) 


errExit("read"); 


exit (EXIT_SUCCESS) ; 


procexec/acct_view.c 


进程 记 账 文件 格式 (版 本 3) 
从 内 核 2.6.8 开 始 ，Linux 引 入 了 丸 一 版 本 的 进程 记 账 文件 以 备 选 


用 ， 间 在 突破 传统 记 账 文件 的 一 些 限 制 。 大 有意 使 用 这 种 被 称 为 版 本 3 
的 备 选 格式 ， 需 要 在 编译 内 核 前 打开 内 核 配置 选项 
CONFIG_BSD_PROCESS_ACCT_V3. 

使 用 版 本 3， 操 作 进 程 记 账 时 唯一 的 差别 在 于 ， 写 入 记 账 文件 的 记 
录 格 式 不 同 。 新 格式 的 定义 如 下 : 


struct acct v3 { 





char ac flag; /* Accounting flags */ 

char ac_version; /* Accounting version (3) */ 

u_int16_t ac_tty; /* Controlling terminal for process */ 

u_int32_t ac_exitcode; /* Process termination status */ 

u_int32 t ac uid; /* 32-bit user ID of process */ 

u_int32_t ac gid; /* 32-bit group ID of process */ 

u_int32_t ac_pid; /* Process ID */ 

u_int32_t ac_ppid; /* Parent process ID */ 

u_int32_t ac_btime; /* Start time (time t) */ 

float ac_etime; /* Elapsed (real) time (clock ticks) */ 

comp t ac_utime; /* User CPU time (clock ticks) */ 

comp_t ac_stime; /* System CPU time (clock ticks) */ 

comp t ac_mem; /* Average memory usage (kilobytes) */ 

comp_t ac_io; /* Bytes read/written (unused) */ 

comp_t ac_Iw; /* Blocks read/written (unused) */ 

comp t ac_minflt; /* Minor page faults */ 

comp t ac_majflt; /* Major page faults */ 

comp_t ac_swaps; /* Number of swaps (unused; Linux-specific) */ 
#tdefine ACCT COMM 16 

char ac_comm[ACCT COMM]; /* Command name */ 


}; 
以 下 是 acct_v3 结 构 与 传统 Linux acct 结 构 的 主要 差别 。 


e 增加 ac_version 字 段 。 该 字段 包含 本 类 型 账单 记录 的 版 本 号 。 对 于 
acct_v3 来 说 ， 总 是 等 于 3。 

e 增加 ac_pid 和 ac_ppid 字 段 ， 分 别 包含 终止 进程 的 进程 ID 及 其 父 进程 
ID. 

e 字段 ac_uid 和 ac_gid 从 16 位 扩展 至 32 位 ， 旨 在 容纳 Linux 2.4 所 引入 
的 32 位 用 户 ID 和 组 ID。 “传统 acct 文 件 无 法 正确 记录 大 数值 的 用 户 
和 组 ID。) 

e 将 ac_etime 字 段 类 型 从 comp _t 改 为 foat， 意 在 能 够 记录 更 长 的 逝去 
时 间 。 








随 本 书 发 布 的 源 代码 文件 procexec/acct_v3_view.c 中 提 
供 了 程序 清单 28-2 中 程序 基于 v3 格式 的 新 版 本 。 


28.2 ”系统 调用 clone() 


类 似 于 fork() 和 vfork()，Linux 特 有 的 系统 调用 cloneO 也 能 创建 一 个 
新 进程 。 与 前 两 者 不 同 的 是 ， 后 者 在 进程 创建 期 间 对 步骤 的 控制 更 为 精 
准 。clone0 主 要 用 于 线程 库 的 实现 。 由 于 clone0 有 损 于 程序 的 可 移植 
性 ， 故 而 应 避免 在 应 用 程序 中 直接 使 用 。 之 所 以 在 这 里 讨论 clone()， 意 
在 对 第 29 章 至 第 33 章 所 论述 的 POSIX 线 程 有 所 铺垫 ， 同 时 也 利于 进一步 
阐明 fork0 和 vforkO 的 操作 。 











#define _GNU_ SOURCE 
ftinclude <sched.h> 


int clone(int (*/unc) (void *), void *chald_stack, int flags, void *func_arg, ... 
/* pid t *ptid, struct user_desc *tls, pid t *ctid */ ); 


Returns process ID of child on success, or -1 on error 











如 同 fork0， 由 cloneO 创 建 的 新 进程 几 近 于 父 进程 的 翻版 。 


但 与 fork0) 不 同 的 是 ， 元 隆 生成 的 子 进程 继续 运行 时 不 以 调用 处 为 
起 点 ， 转 而 去 调用 以 参数 func 所 指定 的 函数 ，func 又 称 为 子 函数 Cchild 
function) 。 调 用 子 函 数 时 的 参数 由 func_arg 指 定 。 经 过 适当 转换 ， 子 函 
数 可 对 该 参数 的 含义 自由 解读 ， 例 如 ， 可 以 作为 整 型 值 Gnt) ， 也 可 视 
为 指 回 结构 的 指针 。 (之 所 以 可 以 作为 指针 处 理 ， 是 因为 克隆 产生 的 子 
进程 对 调用 进程 的 内 存 既 可 获取 ， 也 可 共享 。) 


对 于 内 核 而 言 ，fork0、vftork0 以 及 clone0 最 终 均 由 同 
一 函数 实现 (kernel/fork.c 中 的 do_fork()) 。 在 这 一 层次 
上 ，clone 与 fork 更 为 接近 : sys_clone() 并 没有 func 和 和 
func_arg 参 数 ， 且 调用 后 sys_clone0 在 子 进 程 中 返回 的 方式 
也 与 forkO 相 同 。 正 文 所 述 的 cloneO 是 由 glibc 为 sys_clone0) 
提供 的 封装 函数 。〔 对 该 函数 的 定义 位 于 glibc 针 对 特定 架 
构 的 汇编 源码 中 ， 例 如 


sysdeps/unix/sysv/linux/i386/clone.S. ) sys_clone() 在 子 进程 
中 返回 之 后 ， 由 clone0 发 起 对 func 函 数 的 调用 。 





当 函 数 func 返 回 ( 此 时 其 返回 值 即 为 进程 的 退出 状态 ) 或 是 调用 
exit() (ak_exit)) 之 后 ， 殉 隆 产 生 的 子 进程 就 会 终止 。 照 例 ， 父 进程 可 
以 通过 wait() 一 类 函数 来 等 待 克 隆子 进 程 。 

因为 元 隆 产 生 的 子 进 程 可 能 (类 似 vfork()〉 共享 父 进 程 的 内 存 ， 所 
以 它 不 能 使 用 父 进程 的 栈 。 相 反 ， 调 用 者 必须 分 配 一 块 大 小 适中 的 内 存 
空间 供 子 进程 的 栈 使 用 ， 同 时 将 这 块 内 存 的 指针 置 于 参数 child_stack 
中 。 在 大 多 数 硬 件 架构 中 ， 栈 空间 的 增长 方 同 是 同 下 的 ， 所 以 参数 
child_stack 应 当 指 癌 所 分 配 内 存 块 的 高 端 。 


栈 增 长 方向 对 架构 的 依赖 是 clone0 设 计 的 一 处 缺陷 。 
Interl IA-64 架 构 就 提供 了 一 球 经 过 改善 的 元 隆 API， 称 为 
clone2()。 该 系统 调用 对 子 进程 栈 范 围 的 定义 方式 不 依赖 于 
栈 的 增长 方向 ， 只 需要 提供 栈 的 起 始 地 址 以 及 大 小 即 可 。 
详情 请 参阅 手册 页 。 





函数 cloneO 的 参数 flags 服 务 于 双重 目的 。 首 先 ， 其 低 字 节 中 存放 着 
子 进 程 的 终止 信号 (terminateion signal) ， 子 进程 退出 时 其 父 进程 将 收 
到 这 一 信和 号。 (如 果 元 隆 产 生 的 子 进程 因 信号 而 终止 ， 父 进程 依然 会 收 
到 SIGCHLD 信 号 。) 该 字 节 也 可 能 为 0， 这 时 将 不 会 产生 任何 信和 号 。 
(借助 于 Linux 特 有 的 /proc/PID/stat 文 件 ， 可 以 判定 任何 进程 的 终止 信 
号 ， 详 情 请 参阅 proc(5) 手 册页 。) 








对 于 fork() 和 vfork() 而 言 ， 束 无 从 选择 终止 信号 ， 只 能 


是 SIGCHLD。 


参数 flags 的 剩余 字 节 则 存放 了 位 掩 码 ， 用 于 控制 coneO 的 操作 。 表 
28-2 对 这 些 位 掩 码 值 进行 了 总 结 ，28.2.1 节 会 进一步 加 以 说 明 。 


表 28-2: dlone() 参 数 flags 的 位 掩 码 值 


设置 后 的 效果 











有 exec() 或 _exit() 时 ， 清 除 ctid (从 版 本 2.6 





























CLONE_FILES 、 子 进程 共享 打开 文件 描述 符 寻 
CLONE_FS 








CLONE_CHILD_SETTID 














CLONE_IO 


CLONE_NEWIPC 
CLONE_NEWNET 


子 进程 获得 父 进程 挂 载 (mount) 命名 空间 的 副本 (从 
MEORE UZEIR) 


PERE TS HA DRA EE (M2.6.23R AF4) 
























































CLONE_NEWUSER 


子 进 程 获得 新 的 UTS Cutsname()) 命名 空间 〈 从 2.6.19 


i ea 的 父 进程 置 为 调用 者 的 父 进程 《从 2.4 版 本 开 
口 
将 子 进程 的 线程 ID 写 入 ptid〈 从 2.6 版 本 开始 ) 
































































































































CLONE_SIGHAND 呈 共 享 对 信号 的 处 置 设置 


Sapa 还 原 Cundo) 值 〈 从 2.6 版 本 开 
comme fst Fei (从 2.4 开 始 ) 


了 过 CUONE PRACE (Haste 
口 
cuons.vronk sierra jere oi 














































































































clone0 的 余下 参数 分 别 是 : ptid、tls 和 ctid。 这 些 参数 与 线程 的 实现 





相关 ， 尤 其 是 在 针对 线程 ID 以 及 线程 本 地 存储 的 使 用 方面 。28.2.1 节 在 
说 明 flags 位 掩 码 值 时 ， 会 论 及 这 些 参数 的 使 用 。【〔 在 Linux 2.4 及 其 之 前 
的 版 本 中 ，clone() 尚 未 提供 上 述 3 个 参数 。 直 到 Linux 2.6， 为 了 支持 
NPTL POSIX 的 线程 实现 ， 才 特意 加 入 了 这 些 参数 。) 


示例 程序 


程序 清单 28-3 是 使 用 cloneO 创 建 子 进 程 的 一 个 简单 例子 。 主 程序 所 


做 工作 如 下 。 


打开 一 个 文 作 措 述 符 《打开 设备 /dewnul ， 在 子 进程 中 将 其 关闭 


若 提 供 有 命令 行 参数 ， 则 将 clone() 的 flags 参 数 置 为 

CLONE_FILESG)， 以 便 父 、 子 进程 共享 同一 文件 描述 符 表 。 和 若 没 

有 提供 命令 行 参数 ， 则 将 flags 置 0。 

分 配 一 个 栈 供 子 进程 使 用 )。 

若 CHILD_SIG 非 0 且 不 等 于 SIGCHLD@， 则 忽略 之 ， 以 防 该 信号 将 

子 进程 终止 。 之 所 以 未 忽略 SIGCHLD， 是 因为 那 将 导致 无 法 收集 

子 进程 的 退出 状态 。 

调用 clone() 创 建 子 进程 @。 第 三 个 参数 (位 掩 码 ) 包含 了 终止 信 

re ee ee ee ee 
ose 

等 待 子 进 程 终止 @)。 

尝试 调用 write0， 以 检查 文件 描述 符 〈 在 @ 处 打开 ) 是 否 仍 处 于 打 

开 状 态 @。 程 序 报告 write0) 操 作 是 否 成 功 。 


克隆 产生 的 子 进程 从 childFunc() 处 开始 执行 ， 该 函数 (利用 参数 








arg) 接收 由 主 程序 打开 的 文件 描述 符 ( 在 @ 处 ) 。 子 进程 关闭 文件 描 
述 符 并 调用 return 以 终止 GD)。 











程序 清单 28-3: 使 用 clone() 创 建 子 进程 











#define _GNU_SOURCE 
#include <signal.h> 
#include <sys/wait.h> 
#include <fcntl.h> 
#include <sched.h> 
#include "tlpi_hdr.h" 


#ifndef CHILD SIG 


procexec/t_clone.c 


#define CHILD SIG SIGUSR1 /* Signal to be generated on termination 
of cloned child */ 

#endif 

static int /* Startup function for cloned child */ 


childFunc(void *arg) 


{ 
中 if (close(*((int *) arg)) == -1) 


errExit("close"); 


return 0; 


} 


int 
main(int argc, char *argv[]) 


const int STACK_SIZE = 65536; 
char *stack; 

char *stackTop; 

int s, fd, flags; 


@ fd = open("/dev/null", O_RDWR); 
if (fd == -1) 
errExit ("open"); 


/* 
/* 
/* 


/* 


Child terminates now */ 


Stack size for cloned child */ 
Start of stack buffer */ 
End of stack buffer */ 


Child will close this fd */ 


/* Tf argc > 1, child shares file descriptor table with parent */ 
© flags = (argc > 1) ? CLONE FILES : 0; 
/* Allocate stack for child */ 


®© stack = malloc(STACK_SIZE); 
if (stack == NULL) 
errExit ("malloc"); 
stackTop = stack + STACK_SIZE; /* Assume stack grows downward */ 


/* Ignore CHILD SIG, in case it is a signal whose default is to 
terminate the process; but don't ignore SIGCHLD (which is ignored 
by default), since that would prevent the creation of a zombie. */ 


® if (CHILD SIG != 0 && CHILD_SIG != SIGCHLD) 
if (signal(CHILD_SIG, SIG_IGN) == SIG_ERR) 
errExit("signal"); 


/* Create child; child commences execution in childFunc() */ 


© if (clone(childFunc, stackTop, flags | CHILD SIG, (void *) &fd) == -1) 
errExit("clone"); 


/* Parent falls through to here. Wait for child; WCLONE is 
needed for child notifying with signal other than SIGCHLD. */ 


®© if (waitpid(-1, NULL, (CHILD_SIG != SIGCHLD) ? _ WCLONE : 0) == -1) 
errExit ("waitpid"); 
printf("child has terminated\n"); 


/* Did close() of file descriptor in child affect parent? */ 


® s = write(fd, "x", 1); 
if (s == -1 && errno == EBADF) 
printf("file descriptor %d has been closed\n", fd); 
else if (s == -1) 
printf("write() on file descriptor %d failed " 
“unexpectedly (%s)\n", fd, strerror(errno)); 
else 
printf("write(} on file descriptor %d succeeded\n", fd); 


exit (EXIT_SUCCESS) ; 
procexec/t_clone.c 
运行 程序 清单 28-3 中 程序 ， 疫 有 命令 行 参数 时 和 输出 如 下 : 
$ ./t_clone Doesn’t use CLONE_FILES 


child has terminated 
write() on file descriptor 3 succeeded Child’s close() did not affect parent 








珊 有 命令 行 参数 运行 程序 时 ， 两 个 进程 将 共享 文件 描述 符 表 : 


$ ./t_clone x Uses CLONE_FILES 
child has terminated 
file descriptor 3 has been closed Child's close() affected parent 


随 本 书 发 布 的 源 代码 文件 procexec/demo_clone.c 提 供 一 
个 更 为 复杂 的 cloneO 用 例 。 


28.2.1 。 clone() 的 flags 参 数 


clone() 的 flags 参 数 是 各 种 位 掩 码 的 组 合 (“ 或 ”操作 )〉 ， 下 面 将 对 它 
们 一 一 说 明 。 讲 述 时 并 未 按 字 母 顺 序 展开 ， 而 是 着 眼 于 促进 对 概念 理 
解 ， 从 实现 POSIX 线 程 所 使 用 的 标志 开始 。 从 线程 实现 的 角度 来 看 ， 下 
文 多 次 出 现 的 “进程 ”一 词 都 可 用 “线程 > 蔡 代 。 


这 里 需要 指出 ， 某 种 意义 上 ， 对 术语 “线程 ?和 * 进 程 > 的 区 分 不 过 是 
在 玩弄 文字 游戏 而 已 。 引 入 术语 “内 核 调 度 实体 (KSE, kernel 
scheduling entity) ”( 某 些 教科 书 以 之 来 指 代 内 核 调 度 器 所 处 理 的 对 
象 ) 的 概念 对 解释 这 一 点 会 有 所 助 益 。 实 际 上 ， 线 程 和 进程 都 是 KSE， 
只 是 与 其 他 KSE 之 则 对 属性 (虚拟 内 存 、 打 开 文 件 描述 符 、 对 信号 的 处 
置 、 进 程 ID 等 ) 的 共享 程度 不 同 。 针 对 线程 间 属 性 共享 的 方案 不 少 ， 
POSIX 线 程 规范 只 是 其 中 之 一 。 


在 下 面 的 说 明 中 ， 有 时 会 提 及 Linux 平 台 对 POSIX 线 程 的 两 种 主要 
实现 : 年 长 的 LinuxThreads， 以 及 较为 年 轻 的 NPTL。 关 于 这 两 种 实现 
的 更 多 细节 可 以 在 33.5 节 找到 。 














从 内 核 2.6.16 开 始 ，Linux 提 供 了 新 的 系统 调用 
unshare()， 由 clone()( 或 fork()、vfork()) 创建 的 子 进程 利 
用 该 调用 可 以 撤销 对 某 些 属性 的 共享 〈 即 反 转 一 些 clone0) 


flags 位 的 效果 ) 。 详 细 人 情况 请 参考 unshare(2) 手 册页 。 


共享 文件 描述 符 表 : ~CLONE_FILES 


如 果 指 定 了 CLONE_FILES 标 志 ， 父 、 子 进程 会 共享 同一 个 打开 文 
件 描 述 符 表 。 也 就 是 说 ， 无 论 哪 个 进程 对 文件 描述 符 的 分 配 和 释放 
(open()、dlose()、dup()、pipe()、socket0 等 ) ， 都 会 影响 到 另 一 进程 。 
如 果 未 设置 CLONE_FILES， 那 么 也 就 不 会 共享 文件 描述 符 表 ， 子 进程 
获取 的 是 父 进程 调用 cloneO 时 文件 描述 符 表 的 一 份 找 贝 。 这 些 描 述 符 副 
face 中 的 相应 摘 述 符 均 指向 相同 的 打开 文件 (和 fork() 和 vfork() 
I 情况 一 样 〉。 


POSIX 线 程 规范 要 求 进程 中 的 所 有 线程 共 诗 相同 的 打开 文件 描述 


ss 
R 


共享 与 文件 系统 相关 的 信息 : CLONE_FS 


如 有 果 指 定 了 CLONE_FS 标 志 ， 那 么 父 、 子 进程 将 共享 与 文件 系统 相 
关 的 信息 (file system- related information) : 权限 掩 码 Cumask) 、 根 
目录 以 及 当前 工作 目录 。 也 就 是 说 ， 无 论 在 哪个 进程 中 调用 umask Os 
chdir0) 或 者 chroot()， 都 将 影响 到 男 一 个 进程 。 如 果 未 设置 CLONE_FS， 
那么 父 、 子 进程 对 此 类 信息 则 会 各 持 一 份 (与 forkO 和 vfork() 的 情况 相 
同 ) 。 


POSIX 线 程 规范 要 求实 现 CLONE_FS 标 志 所 提供 的 属性 共享 。 
共享 对 信号 的 处 置 设置 CLONE_SIGHAND 


如 果 设 置 了 CLONE_SIGHAND， 那 么 父 、 子 进程 将 共享 同一 个 信 
写 处 置 表 。 无 论 在 哪个 进程 中 调用 sigaction() 或 signal() 来 改变 对 信号 处 
置 的 设置 ， 都 会 影响 其 他 进程 对 信号 的 处 置 。 若 未 设置 
CLONE_SIGHAND， 则 不 共享 对 信号 的 处 置 设 置 ， 子 进程 只 是 获取 父 
进程 信号 处 置 表 的 一 份 副 本 《如 同 fork0 和 vforkO) 。 
CLONE_SIGHAND 不 会 影响 到 进程 的 信号 掩 码 以 及 对 挂 起 (pending) 
信号 的 设置 ， 父 子 进程 的 此 类 设置 是 绝 不 相同 的 。 从 Linux 2.6 开 始 ， 如 
果 设 置 了 CLONE_SIGHAND， 就 必须 同时 设置 CLONE_VM。 























POSIX 线 程 规范 要 求 共享 对 信号 的 处 置 设 置 。 
共享 父 进 程 的 虚拟 内 存 : CLONE_VM 


如 果 设 置 了 CLONE_VM 标 志 ， 父 、 子 进程 会 共享 同一 份 虚拟 内 存 
页 《如 同 vfork()〉。 无 论 哪个 进程 更 新 了 内 存 ， 或 是 调用 了 mmap()、 
munmap()， 男 一 进程 同样 会 观察 到 这 些 变 化 。 如 果 未 设置 
CLONE_VM， 那 么 子 进程 得 到 的 是 对 父 进 程 虚拟 内 存 的 拷贝 (如同 
forkO ) 。 


An 同一 虚拟 内 存 是 线程 的 关键 属性 之 一 ，POSIX 线 程 标准 对 此 也 


有 要 求 





线程 组 : CLONE_THREAD 


若 设 置 了 CLONE_THREAD， 则 会 将 子 进程 置 于 父 进 程 的 线程 组 
中 。 如 果 未 设置 该 标志 ， 那 么 会 将 子 进程 置 于 新 的 线程 组 中 。 


POSIX 标 准 规定 ， 进 程 的 所 有 线程 共享 同一 进程 ID〈 即 每 个 线程 调 
用 getpid0 都 应 返回 相同 值 ) ，Linux 从 2.4 版 本 开始 引入 了 线程 组 
(threads group) ， 以 满足 这 一 需求 。 如 网 28-1 所 示 ， 线 程 组 就 是 共享 
同一 线程 组 标识 CTGID) (thread group identifier) 的 一 组 KSE。 在 对 
CLONE_THREAD 的 后 续 讨 论 中 ， 会 将 KSE 视 同 线程 看 待 。 


本 #bEL ID %y 2001 MEER) ----- 


线程 A 线程 B 线程 C Fi 
PPID=1900 PPID=1900 PPID=1900 PPID=1900 
TGID=2001 


TGID=2001 TGID=2001 TGID=2001 


| 
| 

| 

| 

| 

| 

| TID=2001 
| 

| 

l 

| 

| 








TID=2004 











TID=2002 TID=2003 


线程 组 首 线程 〈TID 与 TGID 相同 ) 


图 28-1: 包含 4 个 线程 的 线程 组 


始 于 Linux2.4，getpid() 所 返回 的 就 是 调用 者 的 TGID。 换 言 之 ， 
TGID 和 进程 ID 是 一 回 事 。 








在 2.2 以 及 更 早 的 Linux 系 统 中 ， 对 clone() 的 实现 并 不 文 
持 CLONE_THREAD。 相 反 ，LinuxThreads 曾 将 POSIX 线 程 
实现 为 共享 了 多 种 属性 〈 例 如 ， 虚 拟 内 存 ) 、 进 程 ID 又 各 
不 相同 的 进程 。 考 虑 到 兼容 性 因素 ， 即 便 是 在 当前 的 Linux 
内 核 中 ，LinuxThreads 实 现 也 未 提供 CLONE_THREAD， 
为 按 此 方式 实现 的 线程 就 可 以 继续 拥有 不 同 的 进程 ID。 


一 个 线程 组 内 的 每 个 线程 都 拥有 一 个 唯一 的 线程 标识 符 〈thread 
identifier, TID) ， 用 以 标识 自身 。Linux 2.4 提 供 了 一 个 新 的 系统 调用 
gettid()， 线 程 可 通过 该 调用 来 获取 自己 的 线程 ID 与 线程 调用 clone() 时 
的 返回 值 相 同 ) 。 线 程 ID 与 进程 ID 都 使 用 相同 的 数据 类 型 pid_t 来 表示 。 
线程 ID 在 整个 系统 中 是 唯一 的 ， 且 除了 线程 担当 进程 中 线程 组 首 线程 的 
情况 之 外 ， 内 核能 够 保证 系统 中 不 会 出 现 线程 ID 与 进程 ID 相同 的 情况 。 


线程 组 中 首 个 线程 的 线程 ID 与 其 线程 组 ID 相同 ， 也 将 该 线程 称 之 为 
线程 组 首 线程 (thread group leader) 。 





此 处 讨论 的 线程 ID 与 POSIX 线 程 所 使 用 的 线程 ID (以 
数据 类 型 pthread_t 表 示 ) 不 同 。 后 者 由 POSIX 线 程 实现 (在 
用 户 空间 〉 自行 生成 并 维护 。 


线程 组 中 的 所 有 线程 拥有 同一 父 进程 ID， 即 与 线程 组 首 线程 ID 相 
同 。 仅 当 线程 组 中 的 所 有 线程 都 终止 后 ， 其 父 进程 才 会 收 到 SIGCHLD 
言 号 《或 其 他 终止 信号 ) 。 这 些 行为 符合 POSIX 线 程 规范 的 要 求 。 


当 一 个 设置 了 CLONE_THREAD 的 线程 终止 时 ， 并 没有 信号 会 发 送 
给 该 线程 的 创建 者 ( 即 调用 done() 创 建 终止 线程 的 线程 》》。 相 应 的 ， 也 


不 可 能 调用 wait() (或 类 似 函 数 ) 来 等 待 一 个 以 CLONE_THREAD 标 志 
创建 的 线程 。 这 与 POSIX 的 要 求 一 致 。POSIX 线 程 与 进程 不 同 ， 不 能 使 
用 wait0 等 待 ， 相 反 ， 必 须 调用 pthread_join0) 来 加 入 。 为 检测 以 
CLONE_THREAD 标 志 创 建 的 线程 是 否 终止 ， 需 要 使 用 一 种 特殊 的 同步 
原 语 futex (参考 下 文 对 CLONE_PARENT_SETTID 标 志 的 讨论 ) 。 


如 果 一 个 线程 组 中 的 任 一 线程 调用 了 exec()， 那 么 除了 前 线程 之 外 
的 其 他 线程 都 会 终止 (这 一 行为 也 符合 POSIX 线程 规范 的 要 求 ) ， 新 
进程 将 在 首 线程 中 执行 。 换 言 之 ， 新 程序 中 的 gettid() 调 用 将 会 返回 首 线 
程 的 线程 ID 。 调 用 exec0O 期 间 ， 会 将 该 进程 发 送 给 其 父 进程 的 终止 信号 
重 置 为 SIGCHLD。 


如 果 线 程 组 中 的 某 个 线程 调用 fork0 或 vfork0O 创 建 了 子 进程 ， 那 么 组 
中 的 任何 线程 都 可 使 用 wait0 或 类 似 函 数 来 监控 该 子 进程 。 


从 Linux2.6 开 始 ， 如 果 设 置 了 CLONE_THREAD， 同 时 也 必须 设置 
CLONE_SIGHAND。 这 也 与 POSIX 线 程 标准 的 深入 要 求 相 契合 ， 详 细 
内 容 可 参考 33.2 节 关于 POSIX 线 程 与 信号 交互 的 相关 讨论 。《 内 核 针 对 
CLONE_THREAD 线 程 组 的 信号 处 理 对 应 于 POSIX 标 准 对 进程 中 线程 如 
何 处 理 信 号 的 规范 。) 


线程 库 支 持 : CLONE_PARENT_SETTID、CLONE_CHILD_SETTID 
和 和 和 CLONE_CHILD_CLEARTID 





为 实现 POSIX 线 程 ，Linux 2.6 提 供 了 对 
CLONE_PARENT_SETTID, CLONE_CHILD_SETTID#il 
CLONE_CHILD_CLEARTID 的 文 持 。 这 些 标志 会 影响 clone0 对 参数 ptid 
和 ctid 的 处 理 。NPTL 的 线程 实现 使 用 了 CLONE_CHILD_SETTID 和 
CLONE_CHILD_ CLEARTID。 


如 果 设 置 了 CLONE_PARENT_SETTID， 内 核 会 将 子 线程 的 线程 ID 
写 入 ptid 所 指向 的 位 置 。 在 对 父 进程 的 内 存 进 行 复制 之 前 ， 会 将 线程 ID 
复制 到 ptid 所 指 位 置 。 这 也 意味 着 ， 即 使 没有 设置 CLONE_VM,， 父 、 子 
进程 均 能 在 此 位 置 获得 子 进程 的 线程 ID。 (如 上 所 述 ， 创 建 POSIX 线 程 
时 总 是 指定 了 CLONE_VM 标 志 。) 


CLONE_PARENT_SETTID 之 所 以 存在 ， 意 在 为 线程 实现 获取 新 线 
程 ID 提供 一 种 可 靠 的 手段 。 注 意 ， 通 过 clone0 的 返回 值 并 不 足以 获取 新 


线程 的 线程 ID。 
tid = clone(...); 


问题 在 于 ， 因 为 赋值 操作 只 能 在 cone0 返 回 后 才 会 发 生 ， 所 以 以 上 
代码 会 导致 各 种 竞争 条 件 。 例 如 ， 假 设 新 线程 终止 ， 而 在 完成 对 tid 的 赋 
值 前 就 调用 了 终止 信号 的 处 理 器 程序 。 此 时 ， 处 理 器 程序 无 法 有 效 访问 
tid, 〈 在 线程 库 内 部 ， 可 能 会 将 tid 置 于 一 个 用 以 跟踪 所 有 线程 状态 的 全 
局 结构 中 。) 程序 通 稼 可 以 通过 直接 调用 clone() 来 规避 这 种 竞争 条 件 。 
不 过 ， 线 程 库 无 法 控制 其 调用 者 程序 的 行为 。 使 用 
CLONE_PARENT_SETTID 可 以 保证 在 clone0 返 回 之 前 就 将 新 线程 的 ID 
赋值 给 ptid 指 针 ， 从 而 使 线程 库 避 免 了 这 种 竞争 条 件 。 


如 果 设 置 了 CLONE_CHILD_SETTID， 那 么 clone0) 会 将 子 线程 的 线 
程 ID 写 入 指针 ctid 所 指向 的 位 置 。 对 ctid 的 设置 只 会 发 生 在 子 进 程 的 内 存 
中 ， 不 过 如 果 设 置 了 CLONE_VM， 还 是 会 影响 到 父 进程 。 虽 然 NPTL 并 
不 需要 CLONE_CHILD_SETTID， 但 这 一 标识 还 是 能 给 其 他 的 线程 库 实 
现 带 来 灵活 性 。 


如 果 设 置 了 CLONE_CHILD_CLEARTID 标 志 ， 那 么 clone() 会 在 子 进 
时 终止 时 将 ctid 所 指 问 的 内 存 内容 清 零 。 


借助 于 参数 ctid 所 提供 的 机 制 〈 稍 后 描述 ) ，NPTL 线 程 实现 可 以 获 
得 线程 终止 的 通知 。 函 数 pthread_join0 正 需要 这 样 的 通知 ，POSIX 线 程 
利用 该 函数 来 等 待 另 一 线程 的 终止 。 


使 用 pthread_createO) 创 建 线 程 时 ，NPTEL 会 调用 clone0， 其 ptid 和 ctid 
均 指 向 同一 位 置 。 (这 正 是 NPTL 不 需要 CLONE_CHILD_SETTID 的 原 
因 所 在 。) 设置 了 CLONE PARENT_SETTID 标 志 ， 就 会 以 新 的 线程 ID 
对 该 位 置 进 行 初始 化 。 当 子 进程 终止 ，ctid 遭 清除 时 ， 进 程 中 的 所 有 线 
程 都 会 目睹 这 一 变化 (因为 设置 了 CLONE_VM) 。 


内 核 将 ctid 指 向 的 位 置 视 同 futex 一 一 一 种 有 效 的 同步 机 制 来 处 理 。 
(关于 futex 的 更 多 内 容 请 参考 futex(2) 手 册页 。) 执行 系统 调用 futex() 来 
监测 ctid 所 指 位 置 的 内 容 变 化 ， 束 可 获得 线程 终止 的 通知 。 (这 正 是 
pthread_join0 所 做 的 幕后 工作 。) 内 核 在 清除 ctid 的 同时 ， 也 会 唤醒 那 
些 调 用 了 futex(0) 来 监控 该 地 址 内 容 变 化 的 任 一 内 核 调 度 实体 〈 即 线 
Fe) 。 在 POSIX 线 程 的 层面 上 ， 这 会 导致 pthread_ join0 调 用 去 解除 阻 




















E o ) 
线程 本 地 存储 : CLONE_SETTLS 


如 果 设 置 了 CLONE_SETTLS， 那 么 参数 ts 所 指向 的 user_desc 结 构 
会 对 该 线程 所 使 用 的 线程 本 地 存储 缓冲 区 加 以 描述 。 为 了 支持 NPTL 对 
线程 本 地 存储 的 实现 ，Linux 2.6 开 始 加 入 这 一 标志 〈31.4 节 ) 。 关 于 
user_desc 结 构 的 详情 ， 可 参考 2.6 内 核 代 码 中 对 该 结构 的 定义 和 使 用 ， 以 
及 set_thread_area(2) 手 册页 。 





共享 System V 信 号 量 的 撤销 值 : CLONE_SYSVSEM 


如 果 设 置 了 CLONE_SYSVSEM， 父 、 子 进程 将 共 个 System 
V 信 和 号 量 撤销 值 列 表 (47.875) 。 如 果 末 没 置 该 标志 ， 、 子 进程 各 自 
寺 有 取消 列表 ， 且 子 进程 的 列表 初始 为 空 





内 核 从 2.6 版 本 开始 支持 CLONE_SYSVSEM， 提 供 
POSIX 线 程 规 范 所 要 求 的 共享 语义 


每 进程 挂 载 命名 空间 : CLONE_NEWNS 


Linux 从 内 核 2. 4.19 开 始 支 持 每 进程 挂 载 (mount) 命名 空间 的 概 

o ERMAT s 间 是 由 对 mountg 和 umountO 的 调用 来 维护 的 一 组 挂 载 
点 ， 挂 载 命 名 空间 会 影响 将 路 径 名 解析 为 真实 文件 的 过 程 ， 也 会 波及 诸 
如 chdir0 和 chroot(O 之 类 的 系统 调用 。 


默认 情况 下 ， 父 、 子 进程 共享 同一 挂 载 命 名 空间 ， 一 个 进程 调用 
ek ena 8 名 空间 所 做 的 改变 ， 也 会 为 其 他 进程 所 见 〈 如 同 
fork()#llvfork()) 。 特 权 级 “CAP_SYS_ADMIN) 进程 可 以 指定 
CONE _NEWNS 标 志 ， 以 便 子 进程 去 获取 对 父 进程 挂 载 命 名 空间 的 一 份 
拷贝 。 这 样 一 来 ， 进 程 对 命名 空间 的 修改 就 不 会 为 其 他 进程 所 见 。 ( 早 
J a ene 系统 的 所 有 进程 共享 同一 个 系统 级 
空间 





可 以 利用 每 进程 挂 载 命名 空间 来 创建 类 似 于 chroot0 监 禁区 Gail) 
的 环境 ， 而 且 更 加 安全 、 灵 活 ， 例 如 ， 可 以 向 遭 到 监禁 的 进程 提供 一 个 
挂 载 点 ， 而 该 点 对 于 其 他 进程 是 不 可 见 的 。 设 置 虚拟 服务 器 环境 时 也 会 
用 到 挂 载 命名 空间 。 


在 同一 cloneO 调 用 中 同时 指定 CLONE_NEWNS 和 CLONE_FS 纯 属 无 
聊 ， 也 不 允许 这 样 做 。 


将 子 进程 的 父 进程 置 为 调用 者 的 父 进程 : CLONE_PARENT 


默认 情况 下 ， 当 调用 clone0) 创 建新 进程 时 ， 新 进程 的 父 进程 〈 由 
getppidO 返 回 ) 束 是 调用 clone0O 的 进程 〈《 同 fork0 和 vforkO0) 。 如 果 设 置 
了 CLONE_PARENT， 那 么 调用 者 的 父 进程 就 成 为 子 进程 的 父 进 程 。 换 
言 之 ，CLONE_PARENT 等 同 于 这 样 的 设置 ， 子 进程 .PPID = 调用 
者 .PPID。 (未 设置 CLONE_PARENT 的 默认 情况 是 : 子 进 程 .PPID = 调 
用 者 .PID。) 子 进程 终止 时 会 同 父 进程 ( 子 进程 .PPID〉 故 出 信号 。 


Linux 从 版 本 2.4 之 后 开始 支持 CLONE_PARENT。 其 设计 初 训 意图 
是 对 POSIX 线 程 的 实现 提供 支持 ， 不 过 内 核 2.6 找 出 一 种 无 需 此 标志 而 
支持 线程 (之 前 所 述 的 CLONE_THREAD) 的 新 方法 。 


将 子 进程 的 进程 ID 置 为 与 父 进程 相同 : CLONE_PID (CXIE) 


如 果 设 置 了 CLONE_PID， 那 么 子 进程 就 拥有 与 父 进 程 相 同 的 进程 
ID。 若 未 设置 此 标志 ， 那 么 父 、 子 进程 的 进程 ID 则 不 同 〈( 如同 fork() 和 
vfork()) 。 只 有 系统 引导 进程 〈 进 程 ID 为 0) 可 能 会 使 用 该 标志 ， 用 于 
初始 化 多 处 理 器 系统 。 


CLONE_PID 的 设计 初衷 并 非 供用 户 级 应 用 使 用 。Linux 2.6 已 将 其 
移 除 ， 并 以 CLONE_IDLETASK 取 而 代 之 ， 将 新 进程 的 ID 置 为 0。 
CLONE_IDLETASK 仪 供 内 核 内 部 使 用 (即使 在 clone() 的 参数 中 指定 ， 
系统 也 会 对 其 视而不见 ) 。 使 用 此 标志 可 为 每 颗 CPU 创 建 隐 身 的 空闲 进 
fe (idle process) ， 在 多 处 理 器 系统 中 可 能 存在 有 多 个 实例 。 


进程 跟踪 : CLONE_PTRACE 和 CLONE_UNTRACED 


如 果 设 置 了 CLONE_PTRACE 且 正在 跟踪 调用 进程 ， 那 么 也 会 对 子 
进程 进行 跟踪 。 关 于 进程 跟踪 (由 调试 器 和 strace 命 令 使 用 ) 的 细节 ， 








请 参考 ptrace(2) 手 册页 。 


从 内 核 2.6 开 始 ， 即 可 设置 CLONE_UNTRACED 标 志 ， 这 也 意味 着 
跟踪 进程 不 能 强制 将 其 子 进程 设置 为 CLONE_PTRACE。 
CLONE_UNTRACED 标 志 供 内 核 创建 内 核 线 程 时 内 部 使 用 。 


挂 起 〈suspending) 父 进程 直至 子 进程 退出 或 调用 exec(): 
CLONE_VFORK 





如 果 设 置 了 CLONE_VFORK， 父 进程 将 一 直 挂 起 ， 直 至 子 进程 调 
用 exec() 或 _exit(0) 来 释放 虚拟 内 存 资 源 〈( 如 同 vfork())〉 为止。 


支持 容器 (container) 的 clone0 新 标志 


Linux 从 2.6.19 版 本 开始 给 clone() 加 入 了 一 些 新 标志 : CLONE_IO、 
CLONE_NEWIPC、 CLONET_NEWNET. CLONE_NEWPID, 
CLONE_NEWUSER 和 CLONE_NEWUTS。 (参考 clone(2) 手 册页 可 获得 
有 关 这 些 标志 的 详细 说 明 。) 


这 些 标志 中 的 大 部 分 都 是 为 容器 (container〉 的 实现 提供 支持 
([Bhattiprolu et al., 2008]) 。 容 器 是 轻 量 级 虚拟 化 的 一 种 形式 ， 将 运行 
于 同一 内 核 的 进程 组 从 环境 上 彼此 隔离 ， 如 同 运 行 在 不 同 机 器 上 一 样 。 
容器 可 以 艇 套 ， 一 个 容器 可 以 包含 男 一 个 容器 。 与 完全 虚拟 化 将 每 个 虚 
拟 环境 运行 于 不 同 内 核 的 手法 相 比 ， 容 器 的 运作 方式 可 谓 是 大 相 径 庭 。 


为 实现 容器 ， 内 核 开 发 者 不 得 不 为 内 核 中 的 各 种 全 局 系统 资源 提供 
一 个 间接 层 ， 以 便 每 个 容器 能 为 这 些 资源 提供 各 自 的 实例 。 这 些 资 源 包 
括 : 进程 ID、 网 络 协议 栈 、uname0O 返 回 的 ID、System V IPC 对象、 用户 
和 组 ID 命名 空间 ..……. 


容器 的 用 途 很 多 ， 如 下 所 示 。 


。 控制 系统 的 资源 分 配 ， 诸 如 网 络 带宽 或 CPU 时 间 《〈 例 如 ， 授 予 容 器 
某 甲 75% 的 CPU 时 间 ， 茶 乙 则 获取 25%》。 

。 在 单 台 主 机 上 提供 多 个 轻 量 级 虚拟 服务 器 。 

。 冻结 某 个 容器 ， 以 此 来 挂 起 该 容器 中 所 有 进程 的 执行 ， 并 于 稍 后 重 
启 ， 可 能 是 在 迁移 到 男 一 台 机 器 之 后 。 

。 人 允许 转 储 应 用 程序 的 状态 信息 ， 记 录 于 检查 点 (checkpointed) , 


























并 于 之 后 再 行 恢复 或许 在 应 用 程序 朋 尝 之 后 ， 亦 或 是 计划 内 、 外 
的 系统 停机 后 ) ， 从 检查 点 开始 继续 运行 。 


clone() 标 志 的 使 用 
大 体 上 说 来 ，forkO 相 当 于 仅 设 置 flags 为 SIGCHLD 的 cloneO 调 用 ， 
而 vforkO 则 对 应 于 设置 如 下 flags 的 Clone0): 


CLONE VM | CLONE VFORK | SIGCHLD 


自 2.3.3 版 本 以 来 ， 作 为 NPTL 线 程 实现 的 一 部 分 ，glibc 
所 提供 的 封装 函数 forkO 绕 开 了 内 核 的 forkO 系 统 调用 ， 转 而 
调用 了 clone0)。 该 封装 函数 会 去 调用 任何 由 调用 者 通过 
pthread_atfork() (833.37) 所 设置 的 fork 处 理 器 程序 。 


LinuxThreads 线 程 实现 使 用 cloneO0 〈 仅 用 到 前 4 个 参数 ) 来 创建 线 
程 ， 对 flags 的 设置 如 下 : 


CLONE VM | CLONE FILES | CLONE FS | CLONE SIGHAND 


NPTL 线 程 实现 则 使 用 clone()〈( 使 用 了 所 有 7 个 参数 ) 来 创建 线程 ， 
对 flags 的 设置 如 下 : 


CLONE VM | CLONE FILES | CLONE FS | CLONE SIGHAND | CLONE THREAD | 
CLONE SETTLS | CLONE PARENT SETTID | CLONE CHILD CLEARTID | CLONE SYSVSEM 


28.2.2” 因 克隆 生成 的 子 进程 而 对 waitpid0) 进 行 的 扩展 


为 等 待 由 doneO 产 生 的 子 进程 ，waitpid()、wait30 和 wait40 的 位 掩 
人 码 参 数 options 可 以 包含 如 下 附加 (Linux 特 有 ) 值 。 


__WCLONE 


一 经 设置 ， 只 会 等 待 克 隆子 进程 。 如 未 设置 ， 只 会 等 待 非 克隆 子 进 
程 。 在 这 种 情况 下 ， 殉 隆子 进程 终止 时 发 送 给 其 父 进程 的 信号 并 非 


SIGCHLD。 如 果 同 时 还 指定 了 _ WALL， 那 么 将 忽略 _WCLONE。 
_ WALL ( 自 Linux2.4 之 后 ) 

等 待 所 有 子 进程 ， 无 论 类 型 (元 隆 、 非 克隆 通 吃 ) 。 
__WNOTHREAD ( 自 Linux2.4 之 后 ) 


默认 情况 下 ， 等 待 Cwait) 类 调用 所 等 待 的 子 进程 ， 其 父 进程 的 范 
围 授 及 与 调用 者 隶属 同一 线程 组 的 任何 进程 。 指 定 _WNOTHREAD 标 
志 则 限制 调用 者 只 能 等 待 自己 的 子 进程 。 


waitid0 不 能 使 用 上 述 标志 。 








28.3 ”进程 的 创建 速度 


表 28-3 对 采用 不 同方 法 创建 进程 的 速度 进行 了 比较 。 测 试 程 序 在 循 
环 中 反复 创建 子 进程 并 等 待 子 进程 终止 ， 从 而 获得 了 这 一 结果 。 比 较 过 
程 中 使 用 了 3 种 不 同 大 小 的 进程 内 存 ， 如 表 中 虚拟 内 存 总 量 (total virtual 
memory) 值 所 示 。 对 不 同 大 小 内 存 的 模拟 ， 依 赖 于 程序 计时 之 前 在 堆 
中 分 配 Cmalloc()) 的 额外 内 存 。 











表 28-3 中 的 进程 大 小 (虚拟 内 存 总 量 ) 取 自 命令 ps 一 
o“pid vsz cmd” 输 出 的 VSZ 值 。 






































表 28-3: 使 用 fork0、vfork0 和 clone0 创 建 10 万 个 进程 所 需 的 时 间 





虚拟 内 存 总 量 


ARONEN 
时 间 ( 秒 ) Ia) CRP) 时 间 〈 秒 ) | 速率 


22.27 26.38 126.93 

HOA) (7.99) Aada ag es 和 
3.52 3.55 3.53 

vfork() ae We cas 28621 |v a4) 28810 














2.97 2.98 2.93 
135.72 146.15 260.34 

fork()texec() (12.39) (16.69) (61.86) 
107.36 107.81 107.97 

ior OD (6.27) om | (6.35) (6.38) seo 


表 28-3 对 于 每 种 进程 大 小 都 提供 了 两 类 统计 数据 。 


。 第 1 项 统计 包含 两 种 度量 时 间 。 以 执行 10 万 次 进程 创建 期 间 所 逝去 
的 《实际 〉 时 间 为 主 ( 较 大 值 )， 以 父 进 程 所 消耗 的 CPU 时 间 








GES AAU) 为 辅 。 由 于 测试 环境 并 无 其 他 负载 ， 两 者 之 差 应 是 
测试 期 间 创建 子 进 程 所 消耗 的 时 间 总 量 。 

。 第 2 项 数据 显示 每 “实际 ) 秒 创建 的 进程 数 ， 即 创建 速率 ， 取 各 种 
情况 下 运行 20 次 的 平均 值 。 实 验 基 于 x86-32 系 统 ， 内 核 版 本 为 
2.6.27。 


前 3 行 针 对 的 是 简单 的 进程 创建 〈 子 进程 不 运行 新 程序 ) 。 子 进程 
在 创建 后 立即 退出 ， 父 进程 等 每 子 进程 终止 后 再 去 创建 下 一 个 子 进程 。 


第 1 行 取 上 自 系 统 调用 fork()。 由 数据 可 知 ， 进 程 所 占 内 存 越 大 ，fork() 
所 需 时 间 也 就 越 长 。 额 外 时 间 花 在 了 为 子 进 程 复 制 那些 逐渐 变 大 的 页 
表 ， 以 及 将 数据 段 、 堆 段 以 及 栈 段 的 页 记录 标记 为 只 读 的 工作 上 。 因 为 
子 进程 并 未 修改 数据 段 或 栈 段 ， 所 以 也 没有 对 页 (page) 复制 。 


第 2 行 取 自 vforkO0。 可 以 看 出 ， 尽 管 进程 大 小 在 增加 ， 但 所 用 时 间 
保持 不 变 ， 因 为 调用 vfork() 时 并 未 复制 页 表 或 页 ， 调 用 进程 的 虚拟 内 存 
大 小 并 未 造成 影响 。fork() 和 vfork() 在 时 间 统 计 上 的 差 值 就 是 复制 进程 
页 表 所 需 的 时 间 总 量 。 

















表 28-3 中 vfork0 和 cloneO 的 各 目 数据 在 不 同 的 进程 内 存 
大 小 下 。 之 所 以 存在 微小 的 差异 ， 要 归 因 于 采样 误差 以 及 
调度 的 变化 。 即 使 创建 300MB 大 小 的 进程 ， 两 个 系统 调用 
的 时 间 仍 将 保持 不 变 。 





第 3 行 数据 的 统计 信息 来 自 对 clone0 的 调用 ， 所 使 用 的 标志 如 下 : 


CLONE VM | CLONE VFORK | CLONE FS | CLONE SIGHAND | CLONE FILES 


前 两 个 标志 模拟 vforkO 的 行为 。 剩 余 的 标志 则 要 求 父 、 子 进程 应 当 
共享 文件 系统 属性 文件 权限 掩 码 “umask) 、 根 目录 和 当前 工作 目录 ， 
信号 处 置 表 以 及 打开 文件 描述 符 表 。clone0 和 vfork0 之 间 的 数据 差 值 则 
代表 了 vfork() 将 这 些 信息 拷贝 到 子 进程 的 少量 额外 工作 。 找 贝 文件 系统 
属性 和 信号 处 置 表 的 成 本 是 固定 的 。 不 过 ， 找 贝 打 开 文 件 描述 符 表 的 开 





销 则 取决 于 描述 符 数量 。 例 如 : 父 进程 打开 100 个 文件 ，vforkO 的 实际 
时 间 ( 表 中 第 1 列 ) 会 从 3.52 秒 增 至 5.04 秒 ， 但 不 会 影响 clone0 所 需要 的 
时 间 。 


对 clone() 的 计时 针对 的 是 glibc 库 的 封装 函数 clone()， 而 
非 直接 调用 sys_cloneO0。 另 有 测试 〈 在 此 她 不 一 一 列 出 ) 对 
sySs_clone0 和 clone(0( 以 子 函 数 调用 并 立即 退出 ) 做 了 比较 ， 
实验 结果 表明 ， 时 间 上 的 差异 可 以 忽略 不 计 。 








fork0 和 vforkO 之 间 的 差别 非常 明显 ， 但 仍 需要 注意 以 下 几 点 。 


e 最 后 一 列 数 据 表 明 ， 在 大 进程 情况 下 ，vfork() 要 比 forkO 快 逾 30 倍 。 
而 针对 普通 进程 ， 则 会 近乎 于 表 中 前 两 列 的 数据 。 

。 因为 进程 的 创建 时 间 往 往 比 execO 的 执行 时 间 要 少 得 多 ， 所 以 如 果 
随后 接着 执行 execO0， 那 么 两 者 间 的 差异 也 就 不 再 明显 。 表 28-3 的 
最 后 两 行 数 据说 明了 这 一 点 ， 其 中 的 每 个 子 进程 都 去 调用 exec()， 
而 非 直接 退出 。 程 序 执 行 的 是 true 命 令 (/bin/true， 选 择 该 程序 的 原 
。 这 时 ，fork() 和 vfork0 之 间 的 相对 差 
距 就 小 了 许多 。 








事实 上 ， 表 28-3 中 所 示 数 据 并 未 揭示 exec() 的 全 部 开 
销 ， 因 为 测试 程序 的 每 个 循环 中 子 进程 均 执行 同一 程序 。 
根本 束 未 计 入 把 程序 文件 读 入 内 存 的 磁盘 WO 开销 ， 因 为 第 
一 次 运行 exec0O 时 就 会 将 程序 读 入 内 核 缓 冲 区 ， 并 一 直 保 存 
在 那里 。 如 果 测 试 每 次 循环 执行 的 程序 不 同 〈 例 如 ， 复 制 
同一 程序 ， 并 以 不 同文 件 名 命名 ) ， 那 么 应 该 可 以 观察 到 
exec() 的 开销 要 大 出 许多 。 











28.4 exec(0 和 fork(0 对 进程 属性 的 影响 


进程 有 多 种 属性 ， 其 中 一 部 分 已 经 在 前 面 几 章 有 所 说 明 ， 后 续 章 节 

将 讨论 其 他 一 些 属性 。 关 于 这 些 属性 ， 存 在 两 个 问题 。 
o 当 进 程 执 行 execO 时 ， 这 些 属性 将 发 生 怎样 的 变化 ? 
。 当 执 行 fork() 时 ， 子 进程 会 继承 哪些 属性 ? 

表 28-4 是 对 这 些 问 题 的 回答 。exec() 列 注 明 ， 调 用 exec() 期 间 哪 些 属 
性 得 以 保存 。fork0 列 则 表明 调用 fork0 之 后 子 进程 继承 ， 或 〈 有 时 是 ) 
共享 了 哪些 属性 。 除 了 标注 为 Linux 特 有 的 属性 之 外 ， 列 出 的 所 有 属性 
均 获 得 了 标准 UNIX 实 现 的 文 持 ， 调 用 exec0 和 fork0O 期 间 对 它们 的 处 理 
也 都 符合 SUSv3 规 范 。 


表 28-4: exec(0 和 fork(0 对 进程 属性 的 影响 


属 性 影响 属性 的 接口 ， 额 外 说 明 
进程 地 址 空间 


RE z a 函数 入 口 /出 口 ; alloca0、longjmpO、 


siglongjmp() 
数据 段 和 堆 段 F 


见 注 putenv()、setenv(); 直接 修改 environ。 
环境 变量 F execle() 和 execve() 会 对 其 改写 ， 其 他 
exec() 调 用 则 会 加 以 保护 





































































































mmap(0、munmap(0。 足 越 forkO 进 程 ， 映 
; | 射 的 MAP NORES ERVE 标 志 得 以 继 
内 存 映 射 a JE | RK. HA 
和 madvise (MADV_DONTFORK) 标志 的 
映射 则 不 会 跨 fork() 继 承 


内 存 锁 mlock(). munlock() 


进程 标识 符 和 凭证 














setpgid() 
setsid() 
setuid()、setgid()， 以 及 相关 调用 



































有 效 和 保存 设置 (saved 


见 setuidO0、setgid0， 以 及 相关 调用 。 第 9 章 
set) ID 释 
FA. 


解释 了 exec0O 是 如 何 影 响 这 些 ID 的 








一 < 
HY 
iT 
人 

















open(). close(). dup(Q). pipeQ. socket() 

等 。 文 件 描述 符 在 跨越 exec() 调 用 的 过 程 

中 得 以 保存 ， 除 非 对 其 设置 了 执行 时 关 

闭 (close-on-exec) 标志 。 父 、 子 进程 中 

a ee 参 
5.4 节 






























































ee fcntl (F_SETFD) 
人 





lseek()、read()、write()、readv()、 
writev()。 父 、 子 进程 共享 文件 偏 移 
open()、fontl(F_SETFL)。 父 、 子 i 
享 打开 文件 状态 标志 
aio_read()、aio_write() 以 及 相关 调用 。 调 
有 exec() 期 间 ， 会 取消 尚未 完成 的 操作 


opendir()、readdir()。SUSvV3 规 定 ， 子 进 
程 获得 父 进程 目录 流 的 一 份 副 本 ， 不 过 


文件 偏 移 





























打开 文件 状态 标志 
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异步 IO 操作 



































= a i 
H acii 见 注 | 这 些 副本 可 以 《也 可 以 不 ) 共享 目录 流 
的 位 置 。Linux 系 统 不 共享 目录 流 的 位 置 


Tat 











当前 工作 目录 


signal()、sigaction()。 将 处 置 设置 成 默认 
或 忽略 的 信号 在 执行 exec() 期 间 保 持 不 
变 ; 已 捕获 的 信和 号 会 恢复 为 默认 处 置 。 
参考 27.5 节 
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信号 传递 ，sigprocmask()、sigaction() 

挂 起 (pending) 信号 集 信号 传递 ，raise()、kill()、sigqueue() 

和 人 
定时 器 





















































POSIX 定 时 器 T timer_create() 及 其 相关 调用 
POSIX 线 程 
O AE 子 进程 只 会 复制 调用 线 


exec() 之 后 ， 将 可 撤销 类 型 和 状态 分 别 重 
置 为 PTHREAD_CANCEL_ENABLE 和 
PIHREAD_ CANCEL DEFERRED 


= 关于 调用 forkO 期 间 对 互 斥 量 以 及 其 他 线 
互 太 量 与 条 件 变 量 3 节 


nice 值 nice(), setpriority() 
调度 策略 及 优先 级 sched seis sched_setparam() 


由 CEDER z 


通信 


shmat(). shmdt() 
shm_open() K #248 5¢ Hd HY 


mdqd_open(0 及 其 相关 调用 。 父 
描述 符 都 指向 同一 打 开 消息 
Fa 父 进程 的 消 


_open() 及 其 相关 调用 。 子 进程 与 父 
进程 共享 对 相同 信和 号 量 的 引用 


sem_init() 及 其 相关 调用 。 如 果 信 号 量 位 
于 共享 内 存 区 域 ， 那 么 子 进 程 与 父 进程 
共享 信号 量 ; 否则 ， 子 进程 拥有 属于 自 
己 的 信和 号 量 拷贝 


参考 47.8 节 


flock()。 子 进程 自 父 进程 处 继承 对 同一 
锁 的 引用 

fcntl(F_SETLK)。 除 非 将 指 代 文 件 的 文件 
记录 锁 : 描述 符 标 记 为 执行 时 关闭 ， 否 则 会 跨越 
exec() 对 锁 加 以 保护 
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资源 限制 
进程 和 子 进程 的 CPU 时 间 
资源 使 用 量 


















































POSIX 共 享 内 存 
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POSIX 命 名 信号 量 























POSIX 未 命名 信号 
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System V 信 号 量 
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文件 锁 








setlocale()。 作 为 C 运 行 时 初始 化 的 一 部 
分 ， 执 行 新 程序 后 会 调用 
setlocale(LC_ALL，"C 的 等 效 函 数 


地 区 设置 


1 
0 
(Th 








运行 新 程序 时 ， 将 浮 点 环境 状态 重 置 为 
默认 值 ， 参 考 fenv(3) 


退出 处 理 器 程 月 atexit(). on_exit() 


文件 系统 ID WE |e setfsuid()、setfsgid()。 一 旦 相应 的 有 效 ID 
ann 和 E 发 生变 化 ， 那 么 这 些 ID 也 会 随 之 改变 


; nE E 注 |timerfd_create0， 子 进程 继承 的 文件 描述 
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= 如 39.5 节 所 述 
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执行 exec() 期 间 ， 会 保全 所 有 的 安全 位 标 
志 ， SECBIT_KEEP CAPS 除 外 ， 总 是 
会 清除 该 标志 























E sched_setaffinity() 

考 35.3.2 节 

考 cpuset(7) 手 册页 

考 cpuset(7) 手 册页 

参考 set_mempolicy(2) 手 册页 


fcntl (F_LSETLEASE) 。 子 进程 从 父 进 
旦 处 继承 对 相同 租约 的 引用 
dnotify API， 通 过 fcntl (F_NOTIFY) 来 
实现 支持 
exec() 执 行 期 间 会 设置 
pret] (PR_SET_DUMP 4 PR_SET_DUMPABLE 标 志 ， 执 行 设置 用 
ABLE) 和 户 或 组 ID 程序 的 情况 除外 ， 此 时 将 清除 
该 标志 


rai 


CPU 条 性 (affinity) A 


SCHED _RESET_ON_FORK |a 
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内 存 策 略 


目录 变更 通知 























| we | wp 
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prctl (PR_SET NAME ) 
coredump_filter 


























28.5 ”总结 


当 打 开 进 程 记 账 功能 时 ， 内 核 会 在 系统 中 每 一 进程 终止 时 将 其 账单 
记录 写 入 一 个 文件 。 该 记录 包含 进程 使 用 资源 的 统计 数据 。 


如 同 函 数 fork0，Linux 特 有 的 clone0 系 统 调用 也 会 创建 一 个 新 进 
程 ， 但 其 对 父子 间 的 共享 属性 有 更 为 精确 的 控制 。 该 系统 调用 主要 用 于 
线程 库 的 实现 。 


本 章 对 fork0、vfork0 和 clone0 的 进程 创建 速度 做 了 比较 。 尽 管 
vfork() 要 快 于 fork()， 但 较 之 于 子 进程 随后 调用 exec() 所 耗费 的 时 间 ， 二 
者 间 的 时 间 差 寞 也 就 微不足道 了 。 


fork0 创 建 的 子 进 程 会 从 其 父 进 程 处 继承 (有 时 是 共享 ) 茶 些 进程 

属性 的 副本 ， 而 对 其 他 进程 属性 则 不 做 继承 。 例 如 ， 子 进程 继承 了 父 进 
程 文件 描述 符 表 和 信和 号 处 置 的 副本 ， 但 并 不 继承 父 进程 的 间隔 定时 器 、 
记录 锁 或 是 挂 起 信号 集合 。 相 应 地 ， 进 程 执 行 execO0 时 ， 某 些 进程 属性 
保持 不 变 ， 而 会 将 其 他 属性 重 置 为 缺 省 值 。 例 如 ， 进 程 ID 保 持 不 变 ， 文 
件 摘 述 符 保 持 打 开除 非 设置 了 执行 时 关闭 标志 ) ， 间 阳 定 时 器 得 以 保 
存 ， 挂 起 信号 依然 挂 起 ， 不 过 会 将 对 已 处 理 信号 的 处 置 重 置 为 默认 设 

置 ， 同 时 与 共享 内 存 段 * 脱 钩 ”。 


更 多 信息 
请 参考 24.6 节 列 出 的 更 多 信息 来 源 。[Frisch, 2002] 第 17 音 描述 了 对 


进程 记 账 的 管理 ， 以 及 不 同 UNIX 实 现 之 间 的 差异 。[Bovert & Vesati, 
2005] 介 绍 了 系统 调用 clone0O 的 实现 。 














28.6 y 


28-1. 编写 一 程序 ， 观 察 fork() 和 vfork() 系 统 调用 在 读者 系统 中 的 
速度 。 要 求 每 个 子 进程 必须 立即 退出 ， 而 父 进 程 应 在 创建 下 一 个 子 进程 
之 前 调用 wait0， 等 待 当前 子 进程 退出 。 将 两 个 系统 调用 之 间 的 差别 与 
表 28-3 JHH F. shel 内 建 命令 time 可 用 来 测量 程序 的 执行 时 间 。 





第 29 章 ”线程 : 介绍 


本 章 及 随后 几 章 将 讨论 POSIX 线 程 (thread) ， 亦 即 Pthreads。 鉴 于 
Pthreads 范 围 极 广 ， 本 书 无 意 涵 盖 其 所 有 API。 关 于 线程 的 深入 信息 ， 本 
章 会 在 结尾 处 列 出 其 来 源 。 





后 续 各 章 将 主要 描述 Pthreads API 所 规定 的 标准 行为 。33.5 节 则 会 探 
讨 Linux 的 两 种 主流 线程 实现 LinuxThreads 和 Native POSIX Threads 
Library (NPTL) 与 线程 标准 间 的 出 入 。 


本 章 会 对 线程 操作 加 以 概述 ， 随 之 将 述 及 线程 的 创建 和 销毁 过 程 。 


此 外 ， 在 应 用 程序 设计 中 ， 是 选择 多 线程 还 是 多 进程 方式 ?本章 将 在 最 
后 讨论 影 啊 这 一 选择 的 因素 。 











29.1 概述 


与 进程 〈process) 类似， 线程 (thread)〉 是 允许 应 用 程序 并 发 执 
行 多 个 任务 的 一 种 机 制 。 如 图 29-1 所 示 ， 一 个 进程 可 以 包含 多 个 线程 。 
同一 程序 中 的 所 有 线程 均 会 独立 执行 相同 程序 ， 且 共享 同一 份 全 局 内 存 
区 域 ， 其 中 包括 初始 化 数据 段 Cinitialized data) 、 未 初始 化 数据 段 
(uninitialized data) ， 以 及 堆 内 存 段 Cheap segment) 。【〔 传 统 意义 上 
的 UNIX 进 程 只 是 多 线程 程序 的 一 个 特例 ， 该 进程 只 包含 一 个 线程 。) 


虚拟 内 存 地 址 
(十 六 进 制 ) 
0xC0000000 


argu, environ 


主线 程 栈 


线程 3 的 栈 
线程 2 的 栈 
线程 1 的 栈 


共享 图 数 库 
0x40000000 共享 内 存 


TASK_UNMAPPED_BASE 








A = 
未 初始 化 数据 段 (bss) 
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图 29-1: 同时 执行 4 个 线程 的 进程 (Linux/x86-32) 














图 29-1 其 实 做 了 一 些 简 化 。 特 别 是 ， 线 程 栈 (thread 
stack) 的 位 置 可 能 会 与 共 译 库 和 共享 内 存 区 域 混 杂 在 一 
起 ， 这 取 雇 于 创建 线程 、 加 载 共享 库 ， 以 及 映射 共 胖 内 存 
的 具体 顺序 。 而 且 ， 对 于 不 同 的 Linux 发 行 版 ， 线 程 栈 地 址 
也 会 有 所 不 同 。 


同一 进程 中 的 多 个 线程 可 以 并 发 执行 。 在 多 处 理 吉 环境 下 ， 多 个 线 
程 可 以 同时 并 行 。 如 果 一 线程 因 等 待 O 操 作 而 遭 阻 塞 ， 那 么 其 他 线程 
依然 可 以 继续 运行 。 《虽然 有 时 单独 创建 一 个 专门 执行 IO 操作 的 线程 
人 
述 。) 


对 于 某 些 应 用 而 言 ， 线 程 要 优 于 进程 。 传 统 UNIX 通 过 创建 多 个 进 
程 来 实现 并 行 任 务 。 以 网 络 服务 器 的 设计 为 例 ， 服 务 器 进程 〈 父 进程 ) 
在 接受 客户 端的 连接 后 ， 会 调用 fork0 来 创建 一 个 单独 的 子 进 程 ， 以 处 
理 与 客户 端的 通信 (可 参考 60.3 节 ) 。 采 用 这 种 设计 ， 服 务 器 就 能 后 
时 为 多 个 客户 端 提供 服务 。 虽 然 这 种 方法 在 很 多 情境 下 都 屡 试 不 吏 ， 但 
对 于 某 些 应 用 来 说 也 确实 存在 如 下 一 些 限 制 。 


。 进程 间 的 信息 难以 共享 。 由 于 除去 只 读 代 码 段 外 ， 父 子 进程 并 未 共 

享 内 存 ， 因 此 必须 采用 一 些 进程 间 通 信 (inter-process 

communication， 简 称 IPC) 方式 ， 在 进程 间 进 行 信息 交换 。 

调用 fork0 来 创建 进程 的 代价 相对 较 高 。 即 便利 用 24.2.2 节 所 描述 

的 写 时 复制 〈copy-on-write) 技术 ， 仍 然 需要 复制 诸如 内 存 页 表 
(page table) 和 文件 描述 符 表 (file descriptor table) 之 类 的 多 种 进 

程 属 性 ， 这 意味 着 forkO 调 用 在 时 间 上 的 开销 依然 不 菲 。 


线程 解决 了 上 述 两 个 问题 。 
线程 之 间 能 够 方便 、 快 速 地 共 吝 信息 。 只 需 将 数据 复制 到 共享 〈 全 


局 或 堆 ) 变量 中 即 可 。 不 过 ， 要 避免 出 现 多 个 线程 试图 同时 修改 同 
份 信息 的 情况 ， 这 需要 使 用 第 30 章 描述 的 同步 技术 。 


























创建 线程 比 创 建 进程 通常 要 快 10 倍 甚至 更 多 。 (在 Linux 中 ， 是 通 

过 系统 调用 clone() 来 实现 线程 的 ， 表 28-3 展示 了 fork0 和 clone0 在 
速度 上 的 差异 。) 线程 的 创建 之 所 以 较 快 ， 是 因为 调用 fork() 创 建 
子 进程 时 所 需 复 制 的 诸多 属性 ， 在 线程 间 本 来 束 是 共享 的 。 特 别 
是 ， 既 无 需 采 用 写 时 复制 来 复制 内 存 页 ， 也 无 需 复制 页 表 。 


除了 全 局 内 存 之 外 ， 线 程 还 共 译 了 一 干 其 他 属性 这些 属性 对 于 进 











程 而 言 是 全 局 性 的 ， 而 并 非 针 对 某 个 特定 线程 》， 包 括 以 下 内 容 。 





进程 ID (process ID) 和 父 进程 ID。 

进程 组 ID 与 会 话 ID (session ID) 。 

控制 终端 。 

进程 凭证 (process credential) 〈 用 户 ID 和 组 ID ) 。 
打开 的 文件 描述 符 

由 fcnt10 创 建 的 记录 锁 (record lock) 。 

信号 (signal) 处 置 。 

文件 权限 掩 码 Cumask) 、 当 前 工作 目录 和 
民 目 录 。 

间隔 定 时 器 Csetitimer()) 和 POSIX 定 时 器 (timer_create()) 。 


e ARV (system V) 信号 量 撤销 Cundo, semadj) (E (47.8 节 ) 。 


资源 限制 (resource limit) 。 

CPU 时 间 消 耗 〈 由 timesO 返 回 ) 。 
资源 消耗 (由 getrusage() 返 回 ) 。 
nice 值 (由 setpriority() 和 nice() 设 置 )。 


各 线程 所 独 有 的 属性 ， 如 下 列 出 了 其 中 一 部 分 


线程 ID (thread ID，29.5 节 ) 。 

信号 掩 码 (signal mask) 。 

线程 特有 数据 〈31.3 节 ) 。 

备 选 信号 栈 〈sigaltstack(O ) 。 

errno 变 量 。 

浮 点 型 〈floating-point) 环境 〈 见 fenv(3)) 。 

实时 调度 策略 (real-time scheduling policy) 和 优先 级 〈35.2 节 和 
35.377) 。 

CPU 亲和力 (affinity, Linux 所 特有 ， 35.4 市 将 加 以 描述 ) 
e 能 力 (capability，Linux 所 特有 ， 第 39 章 将 加 ae 述 ) 。 
栈 ， 本 地 变量 和 函数 的 调用 链接 〈linkage) 信息 


如 图 29-1 所 示 ， 所 有 的 线程 栈 均 驻 留 于 同一 虚拟 地 址 
空间 。 这 也 意味 着 ， 利 用 一 个 合适 的 指针 ， 各 线程 可 以 在 
对 方 栈 中 相互 共 吾 数据 。 这 种 方法 偶尔 也 能 派 上 用 场 ， 但 
由 于 局 部 变量 的 状态 有 效 与 否 依 赖 于 其 所 驻 留 栈 帧 的 生命 
周期 ， 故 而 需要 在 编程 中 诬 慎 处 理 这 一 问题 。( 当 函数 返 
回 时 ， 该 函数 栈 帧 所 占用 的 内 存 区 域 有 可 能 为 后 续 的 函数 
调用 所 重新 使 用 。 如 果 线 程 终 止 ， 那么 新 线程 有 可 能 会 对 
己 终 止 线程 的 栈 所 占用 的 内 存 空间 重新 加 以 利用 〉。 有 无 
法 正确 处 理 这 一 依赖 关系 ， 由 此 而 产生 的 程序 bug 将 难以 捕 
IR o 








29.2 Pthreads API 的 详细 背景 


20 志 纪 80 年 代 末 、90 年 代 初 ， 存 在 着 数 种 不 同 的 线程 接口 。1995 年 
POSIX.1c 对 POSIX 线 程 API 进 行 了 标准 化 ， 该 标准 后 来 为 SUSv3 所 接 
纳 。 


有 几 个 概念 贯穿 整个 Pthreads API， 在 深入 探讨 API 之 前 ， 将 简单 予 
以 介绍 。 


线程 数据 类 型 (Pthreads data type) 


Pthreads API 定 义 了 一 干 数据 类 型 ， 表 29-1 列 出 了 其 中 的 一 部 分 。 后 
续 章 市 会 对 这 些 数据 类 型 中 的 绝 大 部 分 加 以 描述 。 


表 29-1: Pthreads 数 据 类 型 








pthread_cond_t 条 件 变量 (condition variable) 
pthread_condattr_t 条 件 变量 的 属性 对 象 
pthread_key_t 线程 特有 数据 的 键 (Key) 


pthread_once_t 次 性 初始 化 控制 上 下 文 Ccontrol context) 














pthread_attr_t 线程 的 属性 对 象 
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SUSv3 并 未 规定 如 何 实现 这 些 数 据 类 型 ， 可 移植 的 程序 应 将 其 视 
为 “不 透明 ”数据 。 亦 即 ， 程 序 应 避免 对 此 类 数据 类 型 变量 的 结构 或 内 容 
产生 任何 依赖 。 尤 其 是 ， 不 能 使 用 C 语 言 的 比较 操作 符 (==) 去 比较 这 
些 类 型 的 变量 。 


线程 和 errno 


在 传统 UNIX API 中 ，errno 是 一 全 局 整 型 变量 。 然 而 ， 这 无 法 满 

足 多 线程 程序 的 需要 。 如 果 线 程 调 用 的 函数 通过 全 局 errno 返 回 错误 时 ， 
会 与 其 他 发 起 函数 调用 并 检查 errmo 的 线程 混 消 在 一 起 。 换 言 之 ， 这 将 引 
发 竞争 条 件 〈race condition) 。 因 此 ， 在 多 线程 程序 中 ， 每 个 线程 都 有 
属于 目 己 的 ermo。 在 Linux 中 ， 线 程 特有 errno 的 实现 方式 与 大 多 数 UNIX 
实现 相 类 似 : 将 erno 定义 为 一 个 宏 ， 可 展开 为 函数 调用 ， 该 函数 返回 
一 个 可 修改 的 左 值 value) ， 且 为 每 个 线程 所 独 有 。 (因为 左 值 可 以 
修改 ， 多 线程 程序 依然 能 以 errno=value 的 方式 对 errno 赋 值 。) 


一 言 以 英之 ，errno 机 制 在 保留 传统 UNIX API 报 错 方式 的 同时 ， 也 
适应 了 多 线程 环境 。 











最 初 的 POSIX.1 标 准 沿袭 K&R 的 C 语 言 用 法 ， 人 允许 程序 
将 errno 声 明 为 extern int errno。SUSv3 却 不 允许 这 一 做 法 
(这 一 变化 实际 发 生 于 1995 年 的 POSIX.1c 标 准 之 中 ) 。 如 
今 ， 需 要 声明 ermo 的 程序 必须 包含 <errno.h>， 以 启用 对 
ermo 的 线程 级 实现 。 


Pthreads 函 数 返 回 值 


从 系统 调用 和 库 函 数 中 返回 状态 ， 传 统 的 做 法 是 : 返回 0 表示 成 
功 ， 返 回 -1 表示 失败 ， 并 设置 ermo 以 标识 错误 原因 。Pthreads API 则 反 
其 道 而 行 之 。 所 有 Pthreads 函 数 均 以 返回 0 表示 成 功 ， 返 回 一 正 值 表示 失 














败 。 这 一 失败 时 的 返回 值 ， 与 传统 UNIX 系 统 调用 置 于 ermo 中 的 值 含义 
相同 。 


由 于 多 线程 程序 对 errno 的 每 次 引用 都 会 带 来 函数 调用 的 开销 ， 
此 ， 本 书 示例 并 不 会 直接 将 Pthreads 函 数 的 返回 值 赋 给 errmmo， 而 是 使 用 
一 个 中 则 变量 ， 并 利用 上 自己 实现 的 诊断 函数 errExitEN() (3.5.27) ， 如 
下 所 示 : 


pthread t *thread; 
int s; 








s = pthread_create(&thread, NULL, func, &arg); 
if (s != 0) 
errExitEN(s, "pthread create"); 


编译 Pthreads 程 序 


在 Linux 平 台 上 ， 在 编译 调用 了 Pthreads API 的 程序 时 ， 需 要 设置 cc - 
pthread 的 编译 选项 。 使 用 该 选项 的 效果 如 下 。 


e 定义 _REENTRANT 预 处 理 宏 。 这 会 公开 对 少数 可 重 入 (reentrant) 
函数 的 声明 。 
。 程序 会 与 库 Jibpthread 进 行 链接 (每 价 于 -lpthread)。 


编译 多 线程 程序 时 的 具体 编译 选项 会 因 实 现 及 编译 器 
的 不 同 而 不 同 。 其 他 一 些 实现 (例如 Tru64) 使 用 cc 一 
pthread， 而 Solaris 和 HP-UX 则 使 用 cc -mt。 


29.3 创建 线程 


局 动 程序 时 ， 产 生 的 进程 只 有 单条 线程 ， 称 之 为 初始 (initial) 或 
主 (main) 线程 。 本 节 将 讨论 其 他 线程 的 创建 过 程 。 


函数 pthread_createO) 负 责 创 建 一 条 新 线程 。 





#include <pthread.h> 


int pthread _create(pthread t *thread, const pthread attr t *attr, 
void *(*start)(void *), void *targ); 


Returns 0 on success, or a positive error number on error 











Pr Ze Fea IW HA i A SS Ware fy K start 〈 即 start(arg)) 而 开始 执 
行 。 调 用 pthread_create() 的 线程 会 继续 执行 该 调用 之 后 的 语句 。【〔 如 
28.2 节 所 述 ， 这 一 行为 与 glibc 库 对 系统 调用 clone0 的 包装 函数 行为 相 
me) 


将 参数 arg 声 明 为 void* 类 型 ， 意 味 着 可 以 将 指 癌 任意 对 象 的 指针 传 
递 给 start0 函 数 。 一 般 情况 下 ，arg 指 同一 个 全 局 或 堆 变 量 ， 也 可 将 其 置 
为 NULL。 如 果 需 要 问 start() 传 递 多 个 参数 ， 可 以 将 arg 指 同一 个 结构 ， 
该 结构 的 各 个 字段 则 对 应 于 待 传递 的 参数 。 通 过 审慎 的 类 型 强制 转换 ， 
arg 甚 到 可 以 传递 int 类 型 的 值 。 


严格 说 来 ， 对 于 int 与 void* 之 间 相 互 强制 转换 的 后 果 ，C 语 言 标准 并 
未 加 以 定义 。 不 过 ， 大 部 分 C 语 言 编译 器 允许 这 样 的 操作 ， 并 且 也 能 i 
成 预期 的 目的 ， 即 int j == (int) ((void*) j). 


start() 的 返回 值 类 型 为 void*， 对 其 使 用 方式 与 参数 arg 相 同 。 对 后 续 
pthread_join0 函 数 的 描述 中 ， 将 论 及 对 该 返回 值 的 使 用 方式 。 


将 经 强制 转换 的 整 型 数 作为 线程 start 函 数 的 返回 值 时 ， 必 须 小 心 并 
慎 。 原 因 在 于 ， 取 消 线程 〈 见 第 32 章 ) 时 的 返回 值 
PTHREAD_CANCELED， 通 常 是 由 实现 所 定义 的 整 型 值 ， 再 经 强制 转 
换 为 void*。 若 线程 菜 甲 的 start 函 数 将 此 整 型 值 返回 给 正在 执行 
pthread_join() 操 作 的 线程 某 乙 ， 茶 乙 会 误 认 为 菜 甲 遭 到 了 取消 。 应 用 如 
果 采 用 了 线程 取消 技术 并 选择 将 start 函 数 的 返回 值 强制 转换 为 整 型 ， 那 














么 就 必须 确保 线程 正常 结束 时 的 返回 值 与 当前 Pthreads 实现 中 的 
PTHREAD_CANCELED 不 同 。 如 欲 保 证 程序 的 可 移植 性 ， 则 在 任何 将 
要 运行 该 应 用 的 实现 中 ， 正 党 退出 线程 的 返回 值 应 不 同 于 相应 的 
PTHREAD_CANCELED 值 。 








参数 thread 指 向 pthread_t 类 型 的 缓冲 区 ， 在 pthread_create() 返 回 前 ， 
会 在 此 保存 一 个 该 线程 的 唯一 标识 。 后 续 的 Pthreads 函 数 将 使 用 该 标识 
来 引用 此 线程 。 


SUSv3 明 确 指出 ， 在 新 线程 开始 执行 之 前 ， 实 现 无 需 对 thread 参 数 
所 指 辣 的 缓冲 区 进行 初始 化 ， 即 新 线程 可 能 会 在 pthread_create(0) 返 回 给 
调用 者 之 前 已 经 开始 运行 。 如 新 线程 需要 获取 自己 的 线程 ID， 则 只 能 使 
用 pthread_self() 〈29.5 节 描述 ) 方法 。 


参数 attr 是 指 问 pthread_attr_t 对 象 的 指针 ， 该 对 象 指定 了 新 线程 的 各 
种 属性 。29.8 节 将 述 及 其 中 的 部 分 属性 。 如 果 将 attr 设 置 为 NULL， 那 么 
es 各 种 默认 属性 ， 本 书 的 大 部 分 示例 程序 都 采用 这 一 
法 。 


调用 pthread_createO 后 ， 应 用 程序 无 从 确定 系统 接着 会 调度 哪 一 个 
线程 来 使 用 CPU 资 源 ( 在 多 人 处理 器 系统 中 ， 多 个 线程 可 能 会 在 不 同 CPU 
上 同时 执行 ) 。 程 序 如 隐 含 了 对 特定 调度 顺序 的 依赖 ， 则 无 疑 会 对 24.4 
节 所 述 的 竞争 条 件 打 开 方 便 之 门 。 如 果 对 执行 顺序 确 有 强制 要 求 ， 那 么 
了 驶 必须 采用 第 30 章 所 描述 的 同步 技术 。 

















29.4 ”终止 线程 
可 以 如 下 方式 终止 线程 的 运行 。 


线程 start 函 数 执行 return 语 名 并 返回 指定 值 。 

线程 调用 pthread_exitO0 〈 详 见 后 述 ) 。 

调用 pthread_cancel0 取 消 线程 〈 在 32.1 节 讨论 ) 。 

任意 线程 调用 了 exit()， 或 者 主线 程 执行 了 return 语 句 〈 在 main() 函 
数 中 ) ， 都 会 导致 进程 中 的 所 有 线程 立即 终止。 


pthread_exitO 函 数 将 终止 调用 线程 ， 且 其 返回 值 可 由 另 一 线程 通过 
调用 pthread_join0) 来 获取 。 





include <pthread.h> 








void pthread exit(void *retval); 





调用 pthread_exitO 相 当 于 在 线程 的 start 函 数 中 执行 return， 不 同 之 处 
在 于 ， 可 在 线程 start 函 数 所 调用 的 任意 函数 中 调用 pthread_exit() 。 


参数 retval 指定 了 线程 的 返回 值 。Retval 所 指向 的 内 容 不 应 分 配 于 线 
程 栈 中 ， 因 为 线程 终止 后 ， 将 无 法 确定 线程 栈 的 内 容 是 否 有 效 。【 例 
如 ， 系 统 可 能 会 立刻 将 该 进程 虚拟 内 存 的 这 片区 域 重 新 分 配 ， 供 一 个 新 
) 出 于 同样 的 理由 ， 也 不 应 在 线程 栈 中 分 配 线程 start 函 
数 的 返回 值 。 


如 果 主 线程 调用 了 pthread_exit0， 而 非 调用 exit0 或 是 执行 retum 语 
句 ， 那 么 其 他 线程 将 继续 运行 。 








29.5 ”线程 ID (Thread ID) 


进程 内 部 的 每 个 线程 都 有 一 个 唯一 标识 ， 称 为 线程 ID。 线 程 ID 会 返 
回 给 pthread_create() 的 调用 者 ， 一 个 线程 可 以 通过 pthread_self() 来 获取 自 
己 的 线程 ID。 





include <pthread.h> 


pthread t pthread_self(void); 








Returns the thread ID of the calling thread 





线程 ID 在 应 用 程序 中 非 党 有用， 原因 如 下 。 


e 不 同 的 Pthreads 函 数 利 用 线程 ID 来 标识 要 操作 的 目标 线程 。 这 些 函 
数 包 括 pthread_joinO0、pthread_detachO、Ppthread_cancel0 和 
pthread_kill() 等 ， 后 续 章 市 将 会 加 以 讨论 。 

。 在 一 些 应 用 程序 中 ， 以 特定 线程 的 线程 ID 作 为 动态 数据 结构 的 标 
签 ， 这 颇 有 用 处 ， 既 可 用 来 识别 某 个 数据 结构 的 创建 者 或 属 主线 
程 ， 又 可 以 确定 随后 对 该 数据 结构 执行 操作 的 有 具体 线程 。 


函数 pthread_equalO 可 检查 两 个 线程 的 ID 是 否 相同 。 











include <pthread.h> 


int pthread equal(pthread_t 11, pthread_t 42); 








Returns nonzero value if t7 and 12 are equal, otherwise 0 





PIM, Ay TRAH AGRE RIED fa ty TE t1 h RIEDE f 
一 致 ， 可 以 编写 如 下 代码 : 
if (pthread equal(tid, pthread self()) 
printf("tid matches self\n"); 
因为 必须 将 pthread_t 作 为 一 种 不 透明 的 数据 类 型 加 以 对 待 ， 所 以 函 
数 pthread_equalO 是 必须 的 。Linux 将 pthread_t 定 义 为 无 符号 长 整 型 
Cunsigned long) ， 但 在 其 他 实现 中 ， 则 有 可 能 是 一 个 指针 或 结构 。 


在 NPTL 中 ，pthread_t 实 际 上 是 一 个 经 强制 转化 而 为 无 
符号 长 整 型 的 指针 。 


SUSv3 并 未 要 求 将 pthread_t 实 现 为 一 个 标量 (scalar〉 类 型 ， 该 类 型 
也 可 以 是 一 个 结构 。 因 此 ， 下 列 显 示 线 程 I 有 D 的 代码 实 例 并 不 具有 可 移植 
性 ( 斥 管 该 实例 在 包括 Linux 在 内 的 许多 实现 上 均 可 正常 运行 ,而且 有 
时 在 调试 程序 时 还 很 实用 ) 。 


pthread t thr; 

















printf("Thread ID = %ld\n", (long) thr); /* WRONG! */ 


在 Linux 的 线程 实现 中 ， 线 程 ID 在 所 有 进程 中 都 是 唯一 的 。 不 过 在 
其 他 实现 中 则 未 必 如 此 ，SUSv3 特 别 指 出 ， 应 用 程序 大 使 用 线程 ID 来 标 
识 其 他 进程 的 线程 ， 其 可 移植 性 将 无 法 得 到 保证 。 此 外 ， 在 对 已 终止 线 
程 施 以 pthread_join0， 或 者 在 已 分 离 〈detached) 线程 退出 后 ， 实 现 可 
以 复 用 该 线程 的 线程 DD。 (下 一 节 和 29.7 节 将 分 别 解 释 pthread_join() 和 
线程 的 分 离 。) 


POSIX 线 程 ID 与 Linux 专 有 的 系统 调用 gettid() 所 返回 的 
线程 ID 并 不 相同 。POSIX 线 程 ID 由 线程 库 实 现 来 负责 分 配 
和 维护 。gettid0 返 回 的 线程 ID 是 一 个 由 内 核 (Kernel) 分 
配 的 数字 ， 类 似 于 进程 ID (process ID) 。 虽 然 在 Linux 
NPTL 线 程 实现 中 ， 每 个 POSIX 线 程 都 对 应 一 个 唯一 的 内 核 
线程 ID， 但 应 用 程序 一 般 无 需 了 解 内 核 线程 ID wH, W 
果 程 序 依赖 于 这 一 信息 ， 也 将 无 法 移植 ) 。 


29.6 ”连接 (joining) 已 终止 的 线程 


K pthread join) 等 待 n 的 线程 终止 。〔 如 果 线 程 已 经 
终止 ，pthread_join() 会 立即 返 。 这 种 操作 被 称 为 连接 (joining)。 





include <pthread.h> 


int pthread _join(pthread_t thread, void **retval); 





Returns 0 on success, or a positive error number on error 








F retval 为 一 非 空 指针 ， 将 会 保存 线程 终止 时 返回 值 的 找 贝 ， 该 返 
回 值 亦 即 线程 调用 return 或 pthred_exitO0 时 所 指定 的 值 。 


如 癌 pthread_join(0 传 入 一 个 之 前 已 然 连接 过 的 线程 ID， 将 会 导致 无 
法 预知 的 行为 。 例 如 ， 相 同 的 线程 ID 在 参与 一 次 连接 后 恰好 为 另 一 新 建 
线程 所 重用 ， 再 度 连接 的 可 能 就 是 这 个 新 线程 。 


若 线 程 并 未 分 离 〈detached， 见 29.7 节 ) ， 则 必须 使 用 ptherad_join() 
来 进行 连接 。 如 果 未 能 连接 ， 那么 线程 终止 时 将 产生 僵尸 线程 ， 与 僵尸 
进程 (zombie process) 的 概念 相 类 似 《 人 参考 26.277) 。 除 了 浪费 系统 资 
源 以 外 ， 僵 尸 线程 若 累 积 过 多 ， 应 用 将 再 也 无 法 创建 新 的 线程 。 


pthread_join() 执 行 的 功能 类 似 于 针对 进程 的 waitpidO) 调 用 ， 不 过 
者 之 间 存 在 一 些 显 著 差 别 。 


。 线程 之 间 的 关系 是 对 等 的 Cpeers) 。 进 程 中 的 任意 线程 均 可 以 调用 
pthread_join() 与 该 进程 的 任何 其 他 线程 连接 起 来 。 例 如 ， 如 果 线 程 
A 创建 线程 B， 线 程 B 再 创建 线程 C， 那 么 线程 A 可 以 连接 线程 C， 线 
程 C 也 可 以 连接 线程 A。 这 与 进程 间 的 层次 关系 不 同 ， 父 进程 如 果 
使 用 fork0O 创 建 了 子 进程 ， 那 么 它 也 是 唯一 能 够 对 子 进程 调用 wait() 
的 进程 。 调 用 pthread_create0O 创 建 的 新 线程 与 发 起 调用 的 线程 之 

间 ， 束 没有 这 样 的 关系 。 

无 法 “连接 任意 线程 ”( 对 于 进程 ， 则 可 以 通过 调用 waitpid(-1, 
&status, options) 做 到 这 一 点 ) ， 也 不 能 以 非 阻塞 (nonblocking) 方 
式 进 行 连接 〈 类 似 于 设置 WHOHANG 标 志 的 waitpid0 ) 。 使 用 条 件 
(condition) 变量 可 以 实现 类 似 的 功能 ，30.2.4 节 会 给 出 示例 。 








限制 pthread_joinO 只 能 连接 特定 线程 ID， 这 样 做 是 “ 别 
有 用 心 ” 的 。 其 用 意 在 于 ， 程 序 应 只 能 连接 它 所 “知道 的 ” 线 
程 。 线 程 之 间 并 无 层次 关系 ， 如 果 上 听任 “与 任意 线程 连 
接 * 的 操作 发 生 ， 那 么 所 谓 “ 任 意 ” 线 程 就 可 以 包括 由 库 函 数 
私自 创建 的 线程 ， 从 而 带 来 问题 。 (30.2.4 所 展示 的 条 件 变 
量 技 术 也 只 允许 线程 连接 它 “ 知 道 的 ”其 他 线程 。)〉 结果 
是 ， 函 数 库 在 获取 线程 返回 状态 时 将 不 再 能 与 该 线程 连接 
外， 只 会 一 错 再 错 ， 试 图 连接 一 个 已 然 连 接 过 的 线程 ID。 
换言之 ,“ 连 接任 意 线程 ”的 操作 与 模块 化 的 程序 设计 理念 
背道而驰 。 











示例 程序 
程序 清单 29-1 中 的 程序 创建 了 一 个 线程 ， 并 与 之 连接 。 


程序 清单 29-1: 一 个 使 用 Pthreads 的 简单 程序 
































threads/simple_thread.c 
#include <pthread.h> 
#include "tlpi_hdr.h" 


static void * 
threadFunc(void *arg) 


char *s = (char *) arg; 
printf("%s", s}; 


return (void *) strlen(s); 


Int 
main(int argc, char *argv[]) 
pthread_t t1; 


void *res; 
int s; 


s = pthread create(&t1, NULL, threadFunc, “Hello world\n"); 
if (s != 0) 
errExitEN(s, "pthread create"); 


printf("Message from main()}\n"); 
s = pthread join(t1, &res); 
if (s != 0) 

errExitEN(s, "pthread join"); 
printf("Thread returned %ld\n", (long) res); 
exit(EXIT SUCCESS); 


threads/simple thread.c 


当 运 行程 序 清 单 29-1 的 程序 时 ， 可 以 看 到 如 下 输出 : 


$ ./simple_thread 
Message from main() 
Hello world 

Thread returned 12 


依赖 于 系统 对 两 个 线程 的 具体 调度 ， 第 1 行 与 第 2 行 的 输出 顺序 可 能 
会 颠倒 过 来 。 








29.7 ”线程 的 分 离 


默认 情况 下 ， 线 程 是 可 连接 的 (joinable)， 也 就 是 说 ， 当 线程 退出 
时 ， 其 他 线程 可 以 通过 调用 pthread_join0 获 取 其 返回 状态 。 有 时 ， 程 序 
员 并 不 关心 线程 的 返回 状态 ， 只 是 希望 系统 在 线程 终止 时 能 够 自动 清理 
并 移 除 之 。 在 这 种 情况 下 ， 可 以 调用 pthread_detach() 并 问 thread 参 数 传 
入 指定 线程 的 标识 符 ， 将 该 线程 标记 为 处 于 分 离 〈detached) 状态 。 





#include <pthread.h> 


int pthread_detach(pthread t thread); 


Returns 0 on success, or a positive error number on error 











如 下 例 所 示 ， 使 用 pthread_detach()， 线 程 可 以 自行 分 离 : 


pthread detach(pthread self()); 


一 旦 线程 处 于 分 离 状态 ， 就 不 能 再 使 用 pthread_join() 来 获取 其 状 
态 ， 也 无 法 使 其 重 返 “可 连接 ”状态 。 


其 他 线程 调用 了 exit0， 或 是 主线 程 执行 return 语 句 时 ， 即 便 遭 到 分 
离 的 线程 也 还 是 会 受到 影响 。 此 时 ， 不 管线 程 处 于 可 连接 状态 还 是 已 分 
离 状 态 ， 进 程 的 所 有 线程 会 立即 终止 。 换 言 之 ，pthread_detachO 只 是 控 
制 线程 终止 之 后 所 发 生 的 事情 ， 而 非 何 时 或 如 何 终止 线程 。 











29.8 ”线程 属性 


前 面 已 然 提 及 pthread_create() 中 类 型 为 pthread_attr_t 的 attr 人 参数， 可 
利用 其 在 创建 线程 时 指定 新 线程 的 属性 。 本 书 无 意 深 入 这 些 属 性 的 细 市 
《关于 此 类 细节 ， 可 参考 本 章 结尾 处 的 参考 资料 列表 ) ， 也 不 会 将 操作 
pthread_attr_t 对 象 的 各 种 Pthreads 函 数 原 型 一 一 列 出 ， 只 会 点 出 如 下 之 类 
的 一 些 属 性 : 线程 栈 的 位 置 和 大 小 、 线 程 调度 策略 和 优先 级 〈 类 似 于 
35.2 人 和 35.3 节 所 摘 述 的 进程 实时 调度 策略 和 优先 级 ) ， 以 及 线程 是 否 
处 于 可 连接 或 分 离 状 态 。 


作为 线程 属性 的 使 用 示例 ， 程 序 清 单 29-2 中 的 代码 创建 了 一 个 新 线 
程 ， 访 线程 刚 一 创建 即 遭 分离 〈 而 非 之 后 再 调用 pthread_detachO0 ) 。 这 
段 代 码 首 先 以 缺 省 值 对 线程 属性 结构 进行 初始 化 ， 接 着 为 创建 分 离线 程 
而 设置 属性 ， 最 后 再 以 此 线程 属性 结构 来 创建 新 线程 。 线 程 一 旦 创建 ， 
就 无 需 再 保留 该 属性 对 象 ， 故 而 程序 将 其 销毁 。 


程序 清单 29-2: 使 用 分 离 属性 创建 线程 











from threads/detached_attrib.c 


pthread_t thr; 
pthread_attr_t attr; 


int s; 
s = pthread _attr_init(&attr); /* Assigns default values */ 
if (s != 0) 


errExitEN(s, "pthread attr init"); 


s = pthread attr setdetachstate(&attr, PTHREAD CREATE DETACHED); 
if (s l= 0) 
errExitEN(s, “pthread attr _setdetachstate"); 


s = pthread create(&thr, &attr, threadFunc, (void *) 1); 
if (s != 0) 
errExitEN(s, "pthread create"); 


s = pthread attr destroy(&attr); /* No longer needed */ 
if (s != 0) 
errExitEN(s, “pthread attr destroy"); 
from threads/detached_attrib.c 


29.9 ”线程 VS 进程 


啊 这 


将 应 用 程 厅 实 现 为 一 组 线程 还 十 进程 ”本 市 将 简单 考虑 一 下 可 能 影 
一 决定 的 部 分 因素 。 先 从 多 线程 方法 的 优点 开始 。 


线程 间 的 数据 共享 很 简单 。 相 形 之 下 ， 进 程 间 的 数据 共享 需要 更 多 
的 投入 。 例如， 创建 共享 内 存 段 或 者 使 用 管道 pipe)。 

创建 线程 要 快 于 创建 进程 。 线 程 间 的 上 下 文 切 换 (context- 
switch) ， 其 消耗 时 间 一 般 也 比 进 程 要 短 。 


线程 相对 于 进程 的 一 些 缺 点 如 下 所 示 。 


多 线程 编程 时 ， 需 要 确保 调用 线程 安全 (thread-safe) 的 函数 ， 或 
者 以 线程 安全 的 方式 来 调用 函数 。 (31.1 节 将 讨论 线程 安全 的 概 

念 。) 多 进程 应 用 则 无 需 关 注 这 些 。 

某 个 线程 中 的 bug〈 例 如 ， 通 过 一 个 错误 的 指针 来 修改 内 存 ) 可 能 
会 危及 该 进程 的 所 有 线程 ， 因 为 它们 共享 着 相同 的 地 址 空间 和 其 他 
属性 。 相 比 之 下 ， 进 程 间 的 隔离 更 彻底 。 

每 个 线程 都 在 争 用 宿主 进程 Chost process) 中 有 限 的 虚拟 地 址 空 
间 。 特 别 是 ， 一 旦 每 个 线程 栈 以 及 线程 特有 数据 (或 线程 本 地 存 

fii) 消耗 掉 进 程 虚拟 地 址 空间 的 一 部 分 ， 则 后 续 线 程 将 无 缘 使 用 这 
些 区域 。 虽 然 有 效 地 址 空间 很 大 (例如 ， 在 x86-32 平 台 上 通常 有 

3GB) ， 但 当 进 程 分 配 大 量 线程 ， 亦 或 线程 使 用 大 量 内 存 时 ， 这 一 
因 率 的 限制 作用 也 融 突 显 出 来 。 与 之 相反 ， 每 个 进程 都 可 以 使 用 全 
部 的 有 效 虚 拟 内 存 ， 仅 受制 于 实际 内 存 和 交换 (swap) 空间 。 


影响 选择 的 还 有 如 下 几 点 。 


在 多 线程 应 用 中 人 处 理 信号， 需要 小 心 设计 。“【〔 作 为 通则 ， 一 般 建 议 
人 
Awe. 

在 多 线程 应 用 中 ， 所 有 线程 必须 运行 同一 个 程序 〈 尽 管 可 能 是 位 于 
不 同 函 数 中 ) 。 对 于 多 进程 应 用 ， 不 同 的 进程 可 以 运行 不 同 的 程 


序 。 
除了 数据 ， 线 程 还 可 以 共 孚 菏 些 其 他 信息 《〈 例 如， 文件 描述 符 、 信 
号 处 置 、 当 前 工作 目录 ， 以 及 用 户 ID 和 组 ID) . LACH, MwA 






































而 定 。 


29.10 ”总 结 


在 多 线程 程序 中 ， 多 个 线程 并 发 执行 同一 程序 。 所 有 线程 共享 相同 
的 全 局 和 堆 变 量 ， 但 每 个 线程 都 配 有 用 来 存放 局 部 变量 的 私有 栈 。 同 一 
进程 中 的 线程 还 共 且 一干 其 他 属性 ， 包 括 进程 ID、 打 开 的 文件 描述 符 、 
信号 处 置 、 当 前 工作 目录 以 及 资源 限制 。 


线程 与 进程 间 的 关键 区 别 在 于 ， 线 程 比 进程 更 易于 共享 信息 ， 这 也 
是 许多 应 用 程序 舍 进 程 而 取 线 程 的 主要 原因 。 对 于 某 些 操作 来 说 〈 例 
如 ， 创 建 线程 比 创建 进程 快 )， 线 程 还 可 以 提供 更 好 的 性 能 。 但 是 ， 在 
程序 设计 的 进程 /线程 之 争 中 ， 这 往往 不 会 是 决定 性 因素 。 


可 使 用 pthread_create0) 来 创建 线程 。 每 个 线程 随后 可 调用 
pthread_exit0 独 立 退 出 。《〈 如 有 任 一 线程 调用 了 exit0， 那 么 所 有 线程 将 
立即 终止 。) 除非 将 线程 标记 为 分 离 状态 〈 例 如 通过 调用 
pthread_detached()) ， 其 他 线程 要 连接 该 线程 ， 则 必须 使 用 
pthread_join()， 由 其 返回 遭 连接 线程 的 退出 状态 。 
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(critical region) 、 条 件 变量 以 及 死 锁 〈deadlock) 检测 及 规避 。 
[Vahalia, 1996] 提 供 了 线程 实现 的 背景 知识 。 


























29.11 练习 
29-1. 若 一 线程 执行 了 如 下 代码 ， 可 能 会 产生 什么 结果 ? 


pthread join(pthread self(), NULL); 








在 Linux 上 编写 一 个 程序 ， 观 察 一 下 实际 会 发 生 什 么 情况 。 假 设 代 
码 中 有 一 变量 tid， 其 中 包含 了 某 个 线程 ID， 在 上 自身 发 起 pthread_join(tid， 
要 避免 造成 与 上 述 语句 相同 的 后 果 ， 该 线程 应 采取 何 种 
音 施 ? 


29-2. 除了 缺少 错误 检查 ， 以 及 对 各 种 变量 和 结构 的 声明 外 ， 下 列 
程序 还 有 什么 问题 ? 


static void * 
threadFunc(void *arg) 


struct someStruct *pbuf = (struct someStruct *) arg; 


/* Do some work with structure pointed to by 'pbuf' */ 


} 


int 
main(int argc, char *argv[]) 
{ 


struct someStruct buf; 


pthread_create(&thr, NULL, threadFunc, (void *) &buf); 
pthread exit(NULL); 
} 





DZE: 此 处 指 多 进程 并 发 。 
DEPE: 本 人 句 的 两 处 线程 均 指 前 文 由 库 函 数 私自 创建 的 线程 。 


第 30 章 ”线程 :线程 同步 


本 章 介 绍 线程 用 来 同步 彼此 行为 的 两 个 工具 : 互 斥 量 Cmutexze) 和 
条 件 变 量 (condition variable) 。 互 斥 量 可 以 帮助 线程 同步 对 共享 资源 
的 使 用 ， 以 防 如 下 情况 发 生 : 线程 某 甲 试图 访问 一 共享 变量 时 ， 线 程 某 
乙 正 在 对 其 进行 修改 。 条 件 变量 则 是 在 此 之 外 的 拾遗 补缺 ， 允 许 线 程 相 
互通 知 共享 变量 〈 或 其 他 共享 资源 ) 的 状态 发 生 了 变化 。 








30.1 你 护 对 共 于 变量 的 访问 :， Ae 


线程 的 主要 优势 在 于 ， 能 够 通过 全 局 变量 来 共享 信息 。 不 过 ， 这 种 
便捷 的 共 吾 是 有 代价 的 : 必须 确保 多 个 线程 不 会 同时 修改 同一 变量 ， 或 
者 某 一 线程 不 会 读 取 正 由 其 他 线程 修改 的 变量 。 术 语 临 界 区 (critical 
section) 是 指 访问 东 一 共享 资源 的 代码 片段 ， 并 且 这 段 代 码 的 执行 应 为 
原子 Catomic) 操作 ， 亦 即 ， 同 时 访问 同一 共 至 资源 的 其 他 线程 不 应 中 
断 该 片段 的 执行 。 


程序 清单 30-1 中 的 简单 示例 ， 展 示 了 以 非 原子 方式 访问 共享 资源 时 
所 发 生 的 问题 。 该 程序 创建 了 两 个 线程 ， 且 均 执 行 同 一 函数 。 该 函数 执 
行 一 个 循环 ， 重 复 以 下 步骤 : 将 glob 复制 到 本 地 变量 loc 中 ， 然 后 递增 
loc， 再 把 loc 复 制 回 glob， 以 此 不 断 增 加 全 局 变量 glob 的 值 。 因 为 loc 是 
分 配 于 线程 栈 中 的 上 自动 变量 Cautomatic variable) ， 所 以 每 个 线程 都 有 
一 份 。 循 环 重 复 的 次 数 要 么 由 命令 行 参数 指定 ， 要 么 取 默 认 值 。 


程序 清单 30-1: 两 线程 以 错误 方式 递增 全 局 变量 的 值 












































threads/thread_incr.c 


#include <pthread.h> 
#include “tlpi hdr.h" 


static int glob = 0; 


static void * /* Loop ‘arg' times incrementing ‘glob’ */ 
threadFunc(void *arg) 
{ 

int loops = *({int *) arg); 

int loc, j; 


for (j = 0; j < loops; j++) { 


loc = glob; 
loc+t; 
glob = loc; 
} 
return NULL; 
} 
int 


main(int argc, char *argv[]) 


pthread 七 t1, t2; 
int loops, S; 


loops = {argc > 1) ? getInt(argv[1], GN_GT_0, “num-loops") : 10000000; 


s = pthread create(&t1, NULL, threadFunc, &loops); 
if (s != 0) 

errExitEN(s, "pthread create"); 
s = pthread_create(&t2, NULL, threadFunc, &loops); 
if (s != 0) 

errExitEN(s, "pthread create"); 


s = pthread join(t1, NULL); 
if (s t= 0) 
errExitEN(s, "pthread join"); 
s = pthread_join(t2, NULL); 
if {s != 0) 
errExitEN(s, "pthread_join"); 


printf("glob = %d\n", glob); 
exit(EXIT SUCCESS); 


threads/thread_incr.c 


运行 程序 清单 30-1 中 的 示例 ， 并 指定 每 个 线程 均 对 该 变量 递增 1000 
次 ， 看 起 来 一 切 正常 


$ ./thread_incr 1000 
glob = 2000 


不 过 ， 很 有 可 能 会 发 生 如 下 情况 : 在 线程 某 乙 尚未 得 以 运行 时 ， 线 
己 经 执行 完毕 并 且 退 出 了 。 如 果 加 大 每 个 线程 的 工作 量 ， 结 果 将 
完全 不 同 。 


$ ./thread_incr 10000000 
glob = 16517656 


执行 到 最 后 ，glob 的 值 本 应 为 2000 万 。 问 题 的 原因 是 由 于 如 下 的 执 
行 序 列 〈 参 见 图 30-1) 。 




















线程 | 线程 2 
glob 的 | 
=e 重复 

| loc = glob; | 

loc++; 

glob = loc; 
2000 

| 时 间 上 时 间 片 。 

| 到 期 || 开始 | 
3000 | 

| 时间 片 nt 

| DEEE | AOR | 

loc++; 

glob = loc; 























图 30-1: 两 个 线程 不 使 用 同步 技术 递增 全 局 变量 的 值 
1. 线程 1 将 glob 值 赋 给 局 部 变量 loc。 假 设 blog 的 当前 值 为 2000。 

2. 线程 1 的 时 间 片 期 满 ， 线 程 2 开 始 执行 。 

3. 线程 2 执行 多 次 循环 : 将 全 局 变量 glob 的 值 置 于 局 部 变量 loc， 递 

















增 loc， 再 将 结果 写 回 变量 glob。 第 1 次 循环 时 ，glob 的 值 为 2000。 假 设 
线程 2 的 时 间 片 到 期 时 ，glob 的 值 已 经 增 至 3000。 

4. 线程 1 获得 男 一 时 间 片 ， 并 从 上 次 停止 处 恢复 执行 。 线 程 1 在 上 
次 运行 时 ， 已 将 glob 的 值 2000) 赋 给 loc， 现 在 递增 loc， 再 将 loc 的 值 
2001 写 回 glob。 此 时 ， 线 程 2 此 前 递增 操作 的 结果 遭 到 履 羡 。 


如 琳 使 用 同样 的 命令 行 参数 将 该 程序 运行 多 次 ，glob 的 值 会 波动 很 











$ ./thread_incr 10000000 
glob = 10880429 
$ ./thread_incr 10000000 
glob = 13493953 


这 一 行为 的 不 确定 性 ， 实 应 归咎 于 内 核 CPU 调 度 决 定 的 难以 预见 。 
右 在 复杂 程序 中 发 生 这 一 个 确定 行为 ， 则 意味 者 此 类 错误 将 偶尔 发 作 ， 
难以 重 现 ， 因 此 也 很 难 发 现 。 


使 用 如 下 语句 ， 将 程序 清单 30-1 中 国 数 threadFuncO 内 for 循 环 中 的 3 
条 语句 加 以 茶 换 ， 似 乎 可 以 解决 这 一 问题 : 


glob++; /* or: ++glob; */ 








不 过 ， 在 很 多 硬件 架构 上 例如，RISC 系 统 ) ， 编 译 器 依然 会 将 
这 条 语句 转换 成 机 器 码 ， 其 执行 步骤 仍旧 等 同 于 threadFunc 循 环 内 的 3 条 
语句 。 换 言 之 ， 尽 管 C 语 言 的 递增 符 看 似 简单 ， 其 操作 也 未 必 就 属于 原 
子 操作 ， 依 然 可 能 发 生 上 述 行为 。 


为 避免 线程 更 新 共享 变量 时 所 出 现 问 题 ， 必 须 使 用 互 斥 量 (mutex 
是 mutual exclusion 的 缩写 ) 来 确保 同时 仅 有 一 个 线程 可 以 访问 某 项 共享 
资源 。 更 为 全 面 的 说 法 是 ， 可 以 使 用 互 斥 量 来 保证 对 任意 共享 资源 的 原 
子 访问 ， 而 保护 共享 变量 是 其 最 常见 的 用 法 。 


互 斥 量 有 两 种 状态 : 已 锁定 docked) 和 未 锁定 Cunlocked) 。 任 
何 时 候 ， 至 多 只 有 一 个 线程 可 以 锁定 该 互 斥 量 。 试 图 对 已 经 锁定 的 某 一 
将 可 能 阻塞 线程 或 者 报错 失败 ， 具 体 取决 于 加 锁 时 使 
用 的 方法 。 


一 旦 线程 锁定 互 斥 量 ， 随 即 成 为 该 互 斥 量 的 所 有 者 。 只 有 所 有 者 才 























能 给 互 斥 量 解锁 。 这 一 属性 改善 了 使 用 互 斥 量 的 代码 结构 ， 也 顾及 到 对 
互 斥 量 实现 的 优化 。 因 为 所 有 权 的 关系 ， 有 时 会 使 用 术语 获取 
(acquire) 和 释放 (release) 来 蔡 代 加 锁 和 解锁 。 


一 般 情 况 下 ， 对 每 一 共 圣 资源 〈 可 能 由 多 个 相关 变量 组 成 ) 会 使 用 
不 同 的 互 矿 量 ， 每 一 线程 在 访问 同一 资源 时 将 采用 如 下 协议 。 


。 针对 共享 资源 锁定 互 斥 量 。 
。 访问 共 诗 资源 。 
。 对 互 斥 量 解锁 。 
如 果 多 个 线程 试图 执行 这 一 代码 块 (一 个 临界 区 )〉 ， 事 实 上 只 有 一 


个 线程 能 够 持 有 该 互 斥 量 《〈 其 他 线程 将 遭 到 阻塞 ) ， 即 同时 只 有 一 个 线 
旦 能 够 进入 这 段 代 码 区 域 ， 如 图 30-2 所 示 。 





线程 A 线程 B 
锁定 互 斥 量 M 
| 锁定 互 斥 量 M 
I X 
访问 共享 资源 | Ena 
| i 
1 
! 
seis ------ ->! 解除 阻塞 ， 加 锁 
访问 共享 资源 
解锁 互 斥 量 M 








图 30-2: 使 用 互 斥 量 来 保护 临界 区 

最 后 请 注意 ， 使 用 互 斥 锁 仅 是 一 种 建议 ， 而 非 强 制 。 亦 即 ， 线 程 可 
以 考虑 不 使 用 互 斥 量 而 仅 访 问 相 应 的 共享 变量 。 为 了 安全 地 处 理 共 享 变 
量 ， 所 有 线程 在 使 用 互 斥 量 时 必须 互相 协调 ， 遵 守 既 定 的 锁定 规则 。 
30.1.1 FAST ACH Re 


互 斥 量 既 可 以 像 静态 变量 那样 分 配 ， 也 可 以 在 运行 时 动态 创建 〈 例 

















如 ， 通 过 mallocO 在 一 块 内 存 中 分 配 ) 。 动 态 互 斥 量 的 创建 稍微 有 些 复 
杂 ， 将 延 后 至 30.1.5 节 再 做 讨论 。 


互 斥 量 是 属于 pthread_mnutex_t 类 型 的 变量 。 在 使 用 之 前 必须 对 其 初 
始 化 。 对 于 项 态 分 配 的 互 斥 量 而 言 ， 可 如 下 例 所 示 ， 将 
PTHREAD MUTEX _INITIALIZER 赋 给 互 斥 量 。 











pthread mutex t mtx = PTHREAD MUTEX INITIALIZER; 





依照 SUSv3 的 规定 ， 对 某 一 互 斥 量 的 副本 Ccopy) 执 
ITRE 〈30.1 节 ) 后 续 所 述 的 操作 将 导致 未 定义 的 结果 。 
此 类 操作 只 能 施 之 于 如 下 两 类 互 矿 量 的 “ 真 量 ”， 经 由 
PTHREAD_MUTEX _INITIALIZER 初 始 化 的 静态 互 斥 量 或 
# A A pthrad_mutex_init() 〈 在 30.1.5 节 讨论 ) 初始 化 的 动态 
ARE. 











30.1.2 DEAN fee H JFE 


初始 化 之 后 ， 互 斥 量 处 于 未 锁定 状态 。 函 数 pthread_mutex_lock() 可 
以 锁定 某 一 互 斥 量 ， 而 函数 pthread_mnutex_unlockO 则 可 以 将 一 个 互 斥 量 
解锁 。 











#include <pthread.h> 


int pthread_mutex_lock(pthread_mutex_t *mautex); 
int pthread_mutex_unlock(pthread_mutex_t *mutex); 








Both return 0 on success, or a positive error number on error 





要 锁定 互 斥 量 ， 在 调用 pthread_mutex_lockO 时 需要 指定 互 斥 量 。 如 
果 互 斥 量 当 前 处 于 未 锁定 状态 ， 该 调用 将 锁定 互 斥 量 并 立即 返回 。 如 果 
其 他 线程 已 经 锁定 了 这 一 互 斥 量 ， 那 么 pthread_mutex_lock0O 调 用 会 一 直 
堵塞 ， 直 至 该 互 斥 量 被 解锁 ， 到 那 时 ， 调 用 将 锁定 互 斥 量 并 返回 。 











如 果 发 起 pthread_mutex_lockO 调 用 的 线程 自身 之 前 已 然 将 目标 互 斥 
量 锁定 ， 对 于 互 斥 量 的 默认 类 型 而 言 ， 可 能 会 产生 两 种 后 果 一 一 视 有 具体 
实现 而 定 : 线程 陷入 死 锁 〈deadlock) ， 因 试图 锁定 已 为 自己 所 持 有 的 
互 斥 量 而 遭 到 阻塞 ， 或 者 调用 失败 ， 返 回 EDEADLK 错 误 。 在 Linux 上 ， 
默认 情况 下 线程 会 发 生死 锁 。 〈30.1.7 节 在 讨论 互 斥 量 类 型 时 会 述 及 一 
些 其 他 的 可 能 行为 。) 

函数 pthread_mutex_unlock0O 将 解锁 之 前 已 遭 调 用 线程 锁定 的 互 斥 
量 。 以 下 行为 均 属 错误 : 对 处 于 未 锁定 状态 的 互 斥 量 进行 解锁 ， 或 者 解 
锁 由 其 他 线程 锁定 的 互 斥 量 。 

如 果 有 不 止 一 个 线程 在 等 待 获取 由 函数 pthread_mnutex_unlockO 解 锁 
的 互 斥 量 ， 则 无 法 判断 究竟 哪个 线程 将 如 愿 以 偿 。 


示例 程序 

程序 清单 30-2 是 对 程序 清单 30-1 的 修改 ， 使 用 了 一 个 互 斥 量 来 保护 
对 全 局 变量 glob 的 访问 。 使 用 与 之 前 类 似 的 命令 行 来 运行 这 个 改版 程 
序 ， 可 以 看 到 对 glob 的 累加 总 是 能 够 保持 正确 。 


$ ./thread_incr_mutex 10000000 
glob = 20000000 


























程序 清单 30-2: 使 用 互 斥 量 保护 对 全 局 变量 的 访问 























threads/thread_incr_mutex.c 
#include <pthread.h> 
#include "tlpi_hdr.h" 


static int glob = 0; 
static pthread_mutex_t mtx = PTHREAD_MUTEX_INITIALIZER; 


static void * /* Loop ‘arg’ times incrementing ‘glob’ */ 
threadFunc(void *arg) 
{ 

int loops = *((int *) arg); 

int loc, j, s; 


for (j = 0; j < loops; j++) { 
s = pthread_mutex_lock(&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex lock"); 


loc = glob; 
loc+t; 
glob = loc; 


s = pthread mutex _unlock(&mtx) ; 
if (s != 0) 
errExitEN(s, “pthread mutex unlock"); 


} 


return NULL; 


int 
main(int argc, char *argv[]) 


pthread _t t1, t2; 
int loops, s; 


loops = (argc > 1) ? getInt(argv[1], GN_GT_0, “num-loops") : 10000000; 


s = pthread_create(&t1, NULL, threadFunc, &loops); 
if (s t= 0) 

errExitEN(s, "pthread_create"); 
s = pthread_create(&t2, NULL, threadFunc, &loops); 
if (s != 0) 

errExitEN(s, "pthread_create"); 


s = pthread_join(t1, NULL); 
if (s != 0) 
errExitEN(s, "pthread_join"); 
s = pthread_join(t2, NULL); 
if (s != 0) 
errExitEN(s, "pthread_join"); 


printf("glob = %d\n", glob); 
exit(EXIT SUCCESS); 


threads/thread_incr_mutex.c 
pthread_mutex_trylock()#/pthread_mutex_timedlock() 


Pthreads API 提 供 了 pthread_mutex_lockO 函 数 的 两 个 变 体 : 
pthread_mutex_trylock() 和 pthread_mutex_timedlock()。 可 参考 手册 页 
(manual page) 获取 这 些 函 数 的 原型 。 


如 果 信 号 量 已 然 锁 定 ， 对 其 执行 函数 pthread_mnutex_trylock0 会 失败 
并 返回 EBUSY 错 误 ， 除 此 之 外 ， 该 函数 与 pthread_mutex_lock() 行 为 相 
同 。 


除了 调用 者 可 以 指定 一 个 附加 参数 abstime〈 设 置 线程 等 待 获取 互 
斥 量 时 休眠 的 时 间 限 制 ) 外 ， 函 数 pthread_mutex_timedlockO) 与 
pthread_mnutex_lockO 没 有 差别 。 如 果 参 数 abstime 指 定 的 时 间 间 隔 期 满 ， 
而 调用 线程 又 没有 获得 对 互 斥 量 的 所 有 权 ， 那 么 函数 
pthread_mnutex_timedlockO 返 回 ETIMEDOUT 错 误 。 





函数 pthread_mutex_trylock() 和 pthread_mnutex_timedlockO 比 
pthread_mutex_lockO) 的 使 用 频率 要 低 很 多 。 在 大 多 数 经 过 良好 设计 的 应 
用 程序 中 ， 线 程 对 五 斥 量 的 持 有 时 间 应 尽 可 能 短 ， 以 避免 妨碍 其 他 线程 
的 并 发 执行 。 这 也 保证 了 遭 堵塞 的 其 他 线程 可 以 很 快 获取 对 互 斥 量 的 锁 
定 。 若 某 一 线程 使 用 pthread_mutex_trylock0O 周 期 性 地 轮 询 是 否 可 以 对 互 
斥 量 加 锁 ， 则 有 可 能 要 承担 这 样 的 风险 ， 当 队列 中 的 其 他 线程 通过 调用 
oe 继 获 得 对 互 斥 量 的 访问 时 ， 该 线程 将 始终 与 此 互 

量 无 缘 。 


30.1.3 ” 互 斥 量 的 性 能 


使 用 互 斥 量 的 开销 有 多 大 ?前面 已 经 展示 了 递增 共享 变量 程序 的 两 
个 不 同 版 本 : 没有 使 用 互 斥 量 的 程序 清单 30-1 和 使 用 互 斥 量 的 程序 清 
单 30-2。 在 x86-32 架 构 的 Linux 2.6.31〈 含 NPTL ) 系统 下 运行 这 两 个 程 
序 ， 如 令 单 一 线程 循环 1000 万 次 ， 前 者 共 花 费 了 0.35 秒 〈 并 产生 错误 结 
R) ， 而 后 者 则 需要 3.1 秒 。 


乍 看 起 来 ， 代 价 极 高 。 不 过 ， 考 虑 一 下 前 者 〈 程 序 清 单 30-1) 执行 
的 主 循环 。 在 该 版 本 中 ， 函 数 threadFuncO 于 for 循 环 中 ， 先 递增 循环 控 
制 变 量 ， 再 将 其 与 另 一 变量 进行 比较 ， 随 后 执行 两 个 复制 操作 和 一 个 递 
增 操作 ， 最 后 返回 循环 起 始 处 开始 下 一 次 循环 。 而 后 者 使 用 互 斥 量 
的 版 本 《程序 清单 30-2) 执行 了 相同 步骤 ， 不 过 在 每 次 循环 的 前 后 多 了 
加 锁 和 解锁 互 斥 量 的 工作 。 换 言 之 ， 对 互 斥 量 加 锁 和 解锁 的 开销 略 低 于 
第 1 个 程序 的 10 次 循环 操作 。 成 本 相对 比较 低廉 。 此 外 ， 在 通常 情况 
下 ， 线 程 会 花费 更 多 时 间 去 做 其 他 工作 ， 对 互 斥 量 的 加 锁 和 解锁 操作 相 
pen 因此 使 用 互 斥 量 对 于 大 部 分 应 用 程序 的 性 能 并 无 显著 影 
Hq] 。 


进而 言 之 ， 在 相同 系统 上 运行 一 些 简单 的 测试 程序 ， 结 果 显 示 ， 如 
将 使 用 函数 feont (155.3 节 ) 加 锁 、 解 锁 一 片 文件 区 域 的 代码 循环 
2000 万 次 ， 需 耗 时 44 秒 ， 而 将 对 系统 V 信 号 量 (semaphore) ( 见 47 章 ) 
























































的 递增 和 递减 代码 循环 2000 万 次 ， 则 需要 28 秒 。 文 件 锁 和 信和 号 量 的 问题 
在 于 ， 其 锁定 和 解锁 总 是 需要 发 起 系统 调用 〈system call) ， 而 每 个 系 

统 调 用 的 开销 虽 小 ， 但 颇 为 可 观 〈 见 3.1 节 ) 。 与 之 相反 ， 互 斥 量 的 实 

现 采 用 了 机 器 语言 级 的 原子 操作 (在 内 存 中 执行 ， 对 所 有 线程 可 见 〉， 

只 有 发 生 锁 的 争 用 时 才 会 执行 系统 调用 。 


Linux 上 ， 互 斥 量 的 实现 采用 了 futex 〈 源 自 “ 快 速 用 户 空 间 互 斥 
Æ” [fast user space mutex] 的 首 字 母 缩 写 ) ， 而 对 锁 争 用 的 处 理 则 使 用 
了 futexO 系 统 调用 。 本 书 无 意 描述 futex， 其 设计 意图 也 并 非 供用 户 空 间 

Cuser space) 应 用 程序 直接 使 用 ， 不 过 [Drepper, 2004(a)] 给 出 了 详细 质 

述 ， 还 讨论 了 如 何 使 用 futexes 来 实现 互 斥 量 。[EFranke et al., 2002] 是 一 篇 
由 futex 开 发 人 员 所 撰写 的 论文 (已 经 过 时 ) ， 介 绍 了 futex 的 早期 实现 以 
及 因 其 所 带 来 的 性 能 提升 。 
30.1.4 互 斥 量 的 死 锁 

有 时 ， 一 个 线程 需要 同时 访问 两 个 或 更 多 不 同 的 共享 资源 ， 而 每 个 
资源 又 都 由 不 同 的 互 斥 量 管理 。 当 超过 一 个 线程 加 锁 同 一 组 互 斥 量 时 ， 
就 有 可 能 发 生死 锁 。 图 30-3 展 示 了 一 个 死 锁 的 例子 ， 其 中 每 个 线程 都 成 
功 地 锁 住 一 个 互 斥 量 ， 接 着 试图 对 已 为 另 一 线程 锁定 的 互 斥 量 加 锁 。 两 
个 线程 将 无 限期 地 等 竺 下去。 


线程 A 线程 B 

















l. pthread_mutex_lock( mutex 1); 1. pthread mutex lock(mutex2): 


2. pthread mutex lock(mutex2); 2. pthread_mutex_lo k( mutex 1): 


阻塞 阻塞 











图 30-3: 两 个 线程 分 别 锁定 两 个 互 斥 量 所 导致 的 死 锁 


要 避免 此 类 死 锁 问 题 ， 最 简单 的 方法 是 定义 互 斥 量 的 层级 关系 。 当 
多 个 线程 对 一 组 互 斥 量 操 作 时 ， 总 是 应 该 以 相同 顺序 对 该 组 互 斥 量 进行 
锁定 。 例 如 ， 在 图 30-3 所 示 场 景 中 ， 如 果 两 个 线程 总 是 先 锁定 mutex1 再 
锁定 mutex2， 和 死 锁 就 不 会 出 现 。 有 时 ， 互 斥 量 间 的 层级 关系 逻辑 清晰 。 
A 即便 没有 ， 依 然 可 以 设计 出 所 有 线程 都 必须 遵循 的 强制 层级 顺 
Fo 
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方案 中 ， 线 程 先 使 用 函数 pthread_mnutex_lock0 锁 定 第 1 个 互 斥 量 ， 然 后 
使 用 函数 pthread_mutex_trylock0) 来 锁定 其 余 互 斥 量 。 如 果 任 一 
pthread_mutex_trylock() 调 用 失败 (返回 EBUSY)〉， 那 么 该 线程 将 释放 
所 有 互 斥 量 ， 也 许 经 过 一 段 时 间 间 隅 ， 从 头 再 试 。 较 之 于 按 锁 的 层级 关 
系 来 规避 死 锁 ， 这 种 方法 效率 要 低 一 些 ， 因 为 可 能 需要 历经 多 次 循环 。 
另 一 方面 ， 由 于 无 需 受 制 于 严格 的 互 斥 量 层 级 关系 ， 该 方法 也 更 为 灵 
活 。[Butenhof, 1996] 中 载 有 这 一 方案 的 范例 。 


30.1.5 ”动态 初始 化 互 斥 量 
静态 初始 值 PTHREAD_ MUTEX _INITIALIZER， 只 能 用 于 对 如 下 互 


斥 量 进行 初始 化 : 经 由 静态 分 配 且 携带 默认 属性 。 其 他 情况 下 ， 必 须 调 
用 pthread_mnutex_initO0 对 互 斥 量 进行 动态 初始 化 。 

















#include <pthread.h> 


int pthread _mutex_init(pthread_mutex_t *mulex, const pthread_mutexattr_t *altr}; 


Returns 0 on success, or a positive error number on error 





参数 mutex 指 定 函 数 执行 初始 化 操作 的 目标 互 斥 量 。 参 数 attr 是 指 
问 pthread_mutexattr_t 类 型 对 象 的 指针 ， 该 对 象 在 函数 调用 之 前 已 经 过 了 
POR AEE, FATE MARE. CRP SPARS HER 
性 。) 知 将 attr 参 数 置 为 NULL， 则 该 互 斥 量 的 各 种 属性 会 取 默 认 值 。 


SUSv3 规 定 ， 初 始 化 一 个 业已 初始 化 的 互 斥 量 将 导致 未 定义 的 行 
为 ， 应 当 避 免 这 一 行为 。 


在 如 下 情况 下 ， 必 须 使 用 函数 pthread_mutex_init()， 而 非 静 态 初 始 
Vt, ARE 


。 HATA THAN Ae. BI, BABI SE AMIN GER, 
表 中 每 个 结构 都 包含 一 个 pthread_mutex_t 类 型 的 字段 来 存放 互 斥 
量 ， 借 以 保护 对 该 结构 的 访问 。 

。 互 奈 量 是 在 栈 中 分 配 的 自动 变量 。 

。 初始 化 经 由 静态 分 配 ， 且 不 使 用 默认 属性 的 互 斥 量 。 


当 不 再 需要 经 由 上 自动 或 动态 分 配 的 互 斥 量 时 ， 应 使 用 
pthread_mnutex_destroy0O 将 其 销毁 。〈 对 于 使 用 














PTHREAD_MUTEX _INITIALIZER 静 态 初 始 化 的 互 斥 量 ， 无 需 调 用 
pthread_mutex_destroy(). ) 





#include <pthread.h> 


int pthread_mutex_destroy(pthread_mutex_t *mutex); 








Returns 0 on success, OT a positive error number on error 














只 有 当 互 斥 量 处 于 未 锁定 状态 ， 且 后 续 也 无 任何 线程 企图 锁定 它 
时 ， 将 其 销毁 才 是 安全 的 。 奉 互 斥 量 驻 留 于 动态 分 配 的 一 片 内 存 区 域 
PH, MEEI Cree) 此 内 存 区 域 前 将 其 销毁 。 对 于 目 动 分 配 的 互 斥 
量 ， 也 应 在 簿 主 函 数 返 回 前 将 其 销毁 。 


经 由 pthread_mutex_destroy0) 销 毁 的 互 斥 量 ， 可 调用 
pthread_mutex_init() 对 其 重新 初始 化 。 


30.1.6” 互 斥 量 的 属性 
如 前 所 述 ， 可 以 在 pthread_mnutex_initO 函 数 的 arg 参 数 中 指定 
pthread_mnutexattr_t 类 型 对 象 ， 对 互 斥 量 的 属性 进行 定义 。 通 过 
pthread_mutexattr_t 类 型 对 象 对 互 帮 量 属性 进行 初始 化 和 读 取 操作 的 
Pthreads 函 数 有 多 个 。 本 书 不 打算 深入 讨论 互 斥 量 属 性 的 细节 ， 也 不 会 
将 初始 化 pthread_mnutexattr_t 对 象 内 属性 的 各 种 函数 原型 一 一 列 出 。 不 
过 ， 下 一 节 会 讨论 互 斥 量 的 属性 之 一 : RA. 
30.1.7” 互 斥 量 类 型 
前 面 几 页 对 互 斥 量 的 行为 做 了 若干 论述 。 
。 同一 线程 不 应 对 同一 互 斥 量 加 锁 两 次 。 
。 线程 不 应 对 不 为 自己 所 拥有 的 互 斥 量 解锁 〈 亦 即 ， 尚 未 锁定 互 斥 
量 ) 。 
。 线程 不 应 对 一 尚未 锁定 的 互 斥 量 做 解锁 动作 。 


准确 地 说 ， 上 述 情况 的 结果 将 取 雇 于 互 斥 量 类 型 〈type) 。SUSv3 
定义 了 以 下 互 斥 量 类 型 。 


PTHREAD_MUTEX_NORMAL 



































该 类 型 的 互 斥 量 不 具有 和 死 锁 检 测 〈 目 检 ) 功能 。 如 线程 试图 对 已 由 
目 己 锁定 的 互 斥 量 加 锁 ， 则 发 生死 锁 。 互 斥 量 处 于 未 锁定 状态 ， 或 者 已 
由 其 他 线程 锁定 ， 对 其 解锁 会 导致 不 确定 的 结果 。【《 在 Linux 上 ， 对 这 
类 互 斥 量 的 上 述 两 种 操作 都 会 成 功 。 ) 


PTHREAD_MUTEX_ERRORCHECK 


MUL AR ATA ERE aR aT fa te. MA ERIA TB 
会 导致 相关 Pthreads 函 数 返 回 错误 。 这 类 互 斥 量 运 行 起 来 比 一 般 类 型 要 
以 发 现 程序 在 哪里 违反 了 互 斥 量 使 用 的 
基本 原则 。 


PTHREAD_MUTEX_RECURSIVE 


递归 互 斥 量 维护 有 一 个 锁 计 数 器 。 当 线程 第 1 次 取得 互 斥 量 时 ， 会 
将 锁 计数 器 置 1。 后 续 由 同一 线程 执行 的 每 次 加 锁 操 作 会 递增 锁 计 数 器 
的 数值 ， 而 解锁 操作 则 递减 计数 器 计数 。 只 有 当 锁 计数 器 值 降 至 0 时 ， 
才 会 释放 (release， 亦 即 可 为 其 他 线程 所 用 ) 该 互 斥 量 。 解 锁 时 如 目标 
互 斥 量 处 于 未 锁定 状态 ， 或 是 已 由 其 他 线程 锁定 ， 操 作 都 会 失败 。 


Linux 的 线程 实现 针对 以 上 各 种 类 型 的 互 斥 量 提供 了 非 标 准 的 静态 
初始 值 〈 例 如 ， 
PTHREAD_RECURSIVE MUTEX _INITIALIZER_NP) ， 以 便 对 那些 通 
过 静态 分 配 的 互 斥 量 进行 初始 化 ， 而 无 需 使 用 pthread_mnutex_initO 函 
数 。 不 过 ， 为 保证 程序 的 可 移植 性 ， 应 该 避免 使 用 这 些 初 始 值 。 


除了 上 述 类 型 ，SUSv3 还 定义 了 PTHREAD_MUTEX_DEFAULT 关 
型 。 使 用 PTHREAD_MUTEX _INITIALIZER 初 始 化 的 互 斥 量 ， 或 是 经 调 
用 参数 attr 为 NULEL 的 pthread_mnutex_initO 函 数 所 创建 的 互 斥 量 ， 都 属于 
此 类 型 。 至 于 该 类 型 互 斥 量 在 本 节 开 始 处 3 个 场景 中 的 行为 ， 规 范 有 意 
未 作 定 义 ， 意 在 为 互 斥 量 的 高 效 实 现 保留 最 大 的 灵活 性 。Linux 上 ， 
PTHREAD MUTEX_DEFAULT 类 型 互 斥 量 的 行为 与 
PTHREAD_MUTEX NORMAL 类 型 相仿 。 


程序 清单 30-3 演 示 了 如 何 设 置 互 斥 量 类 型 ， 本 例 创 建 了 一 个 珊 有 错 
误 检 查 属性 Cerror-checking) 的 互 斥 量 。 
























































程序 清单 30-3: 设置 互 斥 量 类 型 




















pthread mutex t mtx; 
pthread mutexattr_t mtxAttr; 
int s, type; 


= pthread_mutexattr_init (&mtxAttr) ; 
if (s l= 0) 
errExitEN(s, "pthread mutexattr init"); 
= pthread_mutexattr_settype(&mtxAttr, PTHREAD MUTEX_ERRORCHECK) ; 
if (s l= 0) 
errExitEN(s, "pthread mutexattr settype"); 


= pthread_mutex_init(mtx, &mtxAttr); 
if (s != 0) 
errExitEN(s, “pthread mutex init"); 


= pthread_mutexattr_destroy(&mtxAttr) ; /* No longer needed */ 
if (s != 0) 
errExitEN(s, "“pthread_mutexattr_destroy"); 





30.2 ”通知 状态 的 改变 : 条 件 变 量 (Condition 
Variable) 

互 斥 量 防止 多 个 线程 同时 访问 同一 共享 变量 。 条 件 变 量 允 许 一 个 线 
程 束 某 个 共享 变量 (或 其 他 共享 资源 ) 的 状态 变化 通知 其 他 线程 ， 并 让 
其 他 线程 等 待 ( 墙 塞 于 ) 这 一 通知 。 

一 个 未 使 用 条 件 变 量 的 简单 例子 有 助 于 展示 条 件 变 量 的 重要 性 。 假 
设 由 若干 线程 生成 一 些 “ 产 品 单 元 (result unit) ” 供 主 线程 消费 。 还 使 用 
了 一 个 由 互 斥 量 保护 的 变量 avail 来 代表 待 消费 产品 的 数量 : 


static pthread mutex t mtx = PTHREAD MUTEX INITIALIZER; 

















static int avail = 0; 


本 市 引用 的 代码 片段 摘自 于 随 本 书 发 布 的 源 代码 文件 
threads/prod_no_condvar.c. 

生产 者 线程 的 源 代码 如 下 : 
/* Code to produce a unit omitted */ 
s = pthread mutex lock(&mtx); 
if (s != 0) 

errExitEN(s, “pthread mutex lock"); 

avail++; /* Let consumer know another unit is available */ 
s = pthread_mutex_unlock(&mtx) ; 


if (s != 0) 
errExitEN(s, “pthread mutex_unlock"); 


主线 程 ( 消 费 者 ) 的 代码 如 下 : 


for (33) { 
s = pthread mutex _lock(&mtx) ; 
if (s != 0) 


errExitEN(s, "pthread mutex lock"); 


while (avail > 0) { /* Consume all available units */ 
/* Do something with produced unit */ 
avail--; 


} 


s = pthread_mutex_unlock (&mtx) ; 
if (s != 0) 
errExitEN(s, "“pthread_mutex_unlock"); 





上 述 代 码 虽 然 可 行 ， 但 由 于 主线 程 不 停 地 循环 检查 变量 avail 的 状 
态 ， 故 而 造成 CPU 资 源 的 浪费 。 采 用 了 条 件 变 量 (condition variable) ， 
这 一 问题 就 迎刃而解 : 允许 一 个 线程 休眠 〈 等 待 ) 直至 接 获 另 一 线程 的 
通知 〈 收 到 信号 ) 去 执行 某 些 操作 “〈 例 如， 出 现 一 些 “ 情 况 ” 后 ， 等 待 者 
必须 立即 做 出 响应 ) 。 


条 件 变量 总 是 结合 互 斥 量 使 用 。 条 件 变 量 就 共享 变量 的 状态 改变 发 
出 通知 ， 而 互 斥 量 则 提供 对 该 共享 变量 访问 的 互 斥 (mutual 
exclusion) 。 这 里 使 用 的 术语 “信号 ”(signal) ， 与 第 20 章 至 第 22 章 所 述 
信号 (signal) 无 关 ， 而 是 发 出 信号 的 意思 。 


30.2.1 ”由 静态 分 配 的 条 件 变 量 


如 同 互 斥 量 一 样 ， 条 件 变 量 的 分 配 ， 有 静态 和 动态 之 分 。 条 件 变 量 
的 动态 创建 延 后 到 30.2.5 节 再 行 描述 ， 这 里 先 讨 论 一 下 静态 分 配 。 

条 件 变量 的 数据 类 型 是 pthread_count t。 类 似 于 互 斥 量 ， 使 用 条 件 
变量 前 必须 对 其 初始 化 。 对 于 经 由 静态 分 配 的 条 件 变 量 ， 将 其 赋值 为 
PTHREAD_COND_INITALIZER 即 完成 初始 化 操作 。 可 参考 下 面 的 例 
F: 


pthread cond t cond = PTHREAD COND INITIALIZER; 
































依据 SUSv3 规 定 ， 将 本 节 后 续 所 描述 的 操作 施 之 于 一 
个 条 件 变量 的 副本 Ccopy) 时 ， 其 结果 未 定义 。 所 有 操作 
仅 能 针对 条 件 变 量 的 原本 执行 ， 要 么 经 由 
PTHREAD_COND_INITIALIZE 进 行 了 静态 初始 化 ， 要 么 使 





用 pthread_cond_init() 做 了 动态 初始 化 《30.2.5 市 描述 ) 处 
ER 


30.2.2 ”通知 和 等 待 条 件 变 量 


条 件 变 量 的 主要 操作 是 发 送信 号 (signal) 和 等 待 Cwait) 。 发 送信 
号 操作 即 通知 一 个 或 多 个 处 于 等 待 状态 的 线程 ， 东 个 共 孕 变量 的 状态 己 
经 改变 。 等 竺 操作 是 指 在 收 到 一 个 通知 前 一 直 处 于 阻塞 状态 。 


函数 pthread_cond_signal0 和 pthread_cond_broadcastO 均 可 针对 由 参 
数 cond 所 指定 的 条 件 变 量 而 发 送信 号 。pthread_cond_waitO 函 数 将 阻塞 
一 线程 ， 直 至 收 到 条 件 变 量 cond 的 通知 。 








#include <pthread.h> 


int pthread_cond_signal({pthread_cond_t *cond); 
int pthread_cond_broadcast(pthread_cond_t *cond); 
int pthread cond wait(pthread cond t *cond, pthread_mutex_t *mutex); 








All return 0 on success, or a positive error number on error 





函数 pthread_cond_signal0 和 pthread_cond_broadcastO 之 间 的 差别 在 
于 ， 二 者 对 阻塞 于 pthread_cond_waitO 的 多 个 线程 处 理 方式 不 同 。 
pthread_cond_signal() 函 数 只 保证 唤醒 至 少 一 条 遭 到 阻塞 的 线程 ， 而 
pthread_cond_broadcastO 则 会 唤醒 所 有 遭 阻塞 的 线程 。 


使 用 函数 pthread_cond_broadcastO) 总 能 产生 正确 结果 (因为 所 有 线 
程 应 都 能 处 理 多 余 和 虚假 的 唤醒 动作 ) ， 但 函数 pthread_cond_signal0 会 
更 为 高 效 。 不 过 ， 只 有 当 仅 需 唤 醒 一 条 〈 且 无 论 是 其 中 哪 条 ) 等 待 线程 
来 处 理 共 享 变量 的 状态 变化 时 ， 才 应 使 用 pthread_cond_signal()。 应 用 
这 种 方式 的 典型 情况 是 ， 所 有 等 竺 线程 都 在 执行 完全 相同 的 任务 。 基 于 
这 些 假设 ， 函 数 pthread_cond_signalO0 会 比 pthread_cond_broadcastO 更 有 具 
效率 ， 因 为 这 可 以 避免 发 生 如 下 情况 。 


1， 同 时 唤醒 所 有 等 待 线程。 
2. 东 一 线程 首先 获得 调度 。 此 线程 检查 了 共 胖 变量 的 状态 《在 相 














RAHI P) ， 发 现 还 有 任务 需要 完成 。 该 线程 执行 了 所 需 工 
并 改变 共 孚 变量 状态 ， 以 表明 任务 完成 ， 最 后 释放 对 相关 互 斥 量 的 
BFE 。 


3. 剩余 的 每 个 线程 轮流 锁定 互 斥 量 并 检测 共享 变量 的 状态 。 不 
过 ， 由 于 第 一 个 线程 所 做 的 工作 ， 余 下 的 线程 发 现 无 事 可 做 ， 随 即 解锁 
互 斥 量 转 而 休眠 《〈 即 再 次 调用 pthread_cond_wait()) 。 


相形 之 下 ， 函 数 pthread_cond_broadcastO 所 处 理 的 情况 是 : 处 于 等 
eee GR 《 即 各 线程 关联 于 条 件 变量 的 判定 条 
SD 


条 件 变量 并 不 保存 状态 信息 ， 只 是 传递 应 用 程序 状态 信息 的 一 种 通 
讯 机 制 。 发 送信 号 时 知 无 任何 线程 在 等 待 该 条 件 变量 ， 这 个 信号 也 就 会 
不 了 了 之 。 线 程 如 在 此 后 等 竺 该 条 件 变量 ， 只 有 当 再 次 收 到 此 变量 的 下 
一 信号 时 ， 方 可 解除 阻塞 状态 。 


函数 pthread_cond_timedwait0O 与 函数 pthread_cond_waitO 几 近 相 同 ， 
唯一 的 区 别 在 于 ， 由 参数 abstime 来 指定 一 个 线程 等 得 条 件 变 量 通知 时 休 
眠 时 间 的 上 限 。 




















#include <pthread.h> 


int pthread _cond_timedwait(pthread cond t *cond, pthread mutex t *mutex, 
const struct timespec *abslime); 








Returns 0 on success, or a positive error number on error 





参数 abstime 是 一 个 timespec 类 型 的 结构 〈 见 23.4.2 节 ) ， 用 以 指定 自 
Epoch (参考 10.1 节 ) 以 来 以 秒 和 纳 秒 (nanosecond) 为 单位 表示 的 绝对 
(absolute) 时 间 。 如 果 abstime 指 定 的 时 间 间 隔 到 期 且 无 相关 条 件 变 量 

的 通知 ， 则 返回 ETIMEOUT 错 误 。 


在 生产 者 -消费 者 〈producer-consumer) 示例 中 使 用 条 件 变量 


下 面 对 前 面 的 示例 作出 修改 ， 引 入 条 件 变 量 。 对 全 局 变量 、 相 关 互 
斥 量 以 及 条 件 变量 的 声明 代码 如 下 : 














static pthread mutex t mtx = PTHREAD MUTEX INITIALIZER; 
static pthread_cond_t cond = PTHREAD COND INITIALIZER; 


static int avail = 0; 





本 节 中 的 代码 片段 摘 目 随 本 书 发 布 的 源 代码 文件 


threads/prod_condvar.c. 


除了 增加 对 函数 pthread_cond_signal0 的 调用 外 ， 生 产 者 线程 的 代码 
与 之 前 并 无 变化 : 
s = pthread mutex lock(&mtx); 


if (s != 0) 
errExitEN(s, "pthread mutex lock"); 


avail++; /* Let consumer know another unit is available */ 


s = pthread_mutex_unlock(&mtx) ; 
if (s t= 0) 
errExitEN(s, "pthread mutex unlock"); 


s = pthread_cond_signal(&cond) ; /* Wake sleeping consumer */ 
if (s != 0) 
errExitEN(s, "pthread_cond_signal"); 


在 分 析 消 费 者 代码 之 前 ， 需 要 对 pthread_cond_wait() 函 数 做 更 为 详 
细 的 解释 。 前 文 已 经 指出 ， 条 件 变 量 总 是 要 与 一 个 互 斥 量 相关 。 将 这 些 
对 象 通过 函数 参数 传递 给 pthread_cond_wait()， 后 者 执行 如 下 操作 步 


IRo 








。 解锁 互 不 量 mutex。 
。 堵塞 调 用 线程 ， 直 至 男 一 线程 就 条 件 变 量 cond 发 出 信号 。 
。 重新 锁定 mutex。 


设计 pthread_cond_waitO 执 行 上 述 步骤 ， 是 因为 通常 情况 下 代码 会 
以 如 下 方式 访问 共享 变量 : 





s = pthread_mutex_lock(&mtx) ; 
if (s != 0) 
errExitEN(s, “pthread mutex lock"); 


while (/* Check that shared variable is not in state we want */) 
pthread cond wait(&cond, &mtx); 


/* Now shared variable is in desired state; do some work */ 


s = pthread mutex unlock(&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex unlock"); 


下 一 节 将 会 介绍 为 何 将 pthread_cond_waitO 调 用 置 于 while 循 环 中 ， 
Mm Fifi A) A 


在 以 上 代码 中 ， 两 处 对 共享 变量 的 访问 都 必须 置 于 互 斥 量 的 保护 之 
下 ， 其 原因 之 前 已 做 了 解释 。 换 言 之 ， 条 件 变 量 与 互 斥 量 之 间 存 在 痢 天 
然 的 关联 关系 。 


1. 线程 在 准备 检查 共 至 

2. 检查 共 至 变量 的 状态 

3. 如 末 共 圣 变 量 未 处 于 预期 状态 ， 线 程 应 在 等 每 条 件 变量 并 进入 
休眠 前 解锁 互 太 量 〈《 以 便 其 他 线程 能 访问 该 共 孚 变量 ) 。 

4. 当 线程 因为 条 件 变量 的 通知 而 被 再 度 唤 醒 时 ， 必 须 对 互 斥 量 再 次 
加 锁 ， 因 为 在 典型 情况 下 ， 线 程 会 立即 访问 共享 变量 。 


函数 pthread_cond_waitO 会 自动 执行 最 后 两 步 中 对 互 斥 量 的 解锁 和 
加 锁 动 作 。 第 3 步 中 互 斥 量 的 释放 与 陷入 对 条 件 变量 的 等 竺 同属 于 一 个 
原子 操作 。 换 名 话说 ， 在 函数 pthread_cond_waitO 的 调用 线程 陷入 对 条 
件 变 量 的 等 竺 之前， 其 他 线程 不 可 能 获取 到 该 互 斥 量 ， 也 不 可 能 就 该 条 
件 变量 发 出 信号。 











变量 状态 时 锁定 互 斥 量 。 




















通过 观察 得 出 推论 ， 条 件 变量 与 互 斥 量 之 间 存 在 天 然 
关系 ， 同 时 等 待 相同 条 件 变 量 的 所 有 线程 在 调用 


pthread_cond_waitO 或 pthread_cond_timedwaitO 时 必须 指定 
同一 互 斥 量 。 实 际 上 ，pthread_cond_waitO 在 调用 期 间 能 将 
条 件 变量 与 一 个 唯一 的 互 斥 量 做 动态 绑 定 。SUSv3 规 定 ， 
在 针对 同一 条 件 变量 并 发 调用 pthread_cond_waitO0 时 ， 知 使 
用 多 个 互 斥 量 会 导致 未 定义 的 结 末 。 














结合 以 上 所 有 细节 ， 使 用 pthread_cond_wait() 修 改 主 (消费 者 ) 线 
程 的 代码 如 下 : 


for (33) { 

s = pthread mutex lock(&mtx); 

if (s != 0) 
errExitEN(s, "pthread mutex lock"); 

while (avail == 0) { /* Wait for something to consume */ 
s = pthread cond wait(&cond, &mtx); 
if (s != 0) 

errExitEN(s, "pthread cond wait"); 

} 

while (avail > 0) { /* Consume all available units */ 
/* Do something with produced unit */ 
avail--; 

} 


s = pthread_mutex_unlock(&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex unlock"); 


/* Perhaps do other work here that doesn't require mutex lock */ 


最 后 ， 再 看 一 下 pthread_cond_signal() 和 pthread_cond_broadcast() 的 
使 用 。 前 面 展示 的 生产 者 代码 先 调 用 了 pthread_mutex_unlock()， 接 着 调 
用 了 pthread_cond_signal(); 换言之 ， 先 解锁 与 共享 变量 相关 的 互 斥 量 ， 
再 就 对 应 的 条 件 变量 发 出 信号 。 也 可 以 将 这 两 步 颠 倒 执 行 ，SUSv3 人 允许 
以 任意 顺序 执行 这 两 个 调用 。 











[Butenhof, 1996] 指 出 ， 在 某 些 实现 中 ， 先 解锁 互 斥 量 
再 通知 条 件 变量 可 能 比 反 序 执 行 效率 要 高 。 如 果 仅 在 发 出 
条 件 变量 信号 后 才 解 锁 互 斥 量 ， 执 行 pthread_cond_waitO 调 
用 的 线程 可 能 会 在 互 斥 量 仍 处 于 加 锁 状 态 时 惑 醒 来 ， 当 其 
发 现 互 斥 量 仍 未 解锁 ， 会 立即 再 次 休眠 。 这 会 导致 两 个 多 
余 的 上 下 文 切换 (context switch) 。 有 些 实 现 运用 等 待 变 
Æ (wait morphing) 技术 解决 了 这 一 问题 : 将 等 待 接收 信 
号 的 线程 从 条 件 变 量 的 等 待 队列 转移 至 互 斥 量 等 待 队列 。 
这 样 ， 即 便 互 斥 量 处 于 加 锁 状 态 ， 也 无 需 切 换 上 下 文 。 














30.2.3 测试 条 件 变量 的 判断 条 件 (predicate) 


每 个 条 件 变量 都 有 与 之 相关 的 判断 条 件 ， 涉 及 一 个 或 多 个 共享 变 
量 。 例 如 ， 在 上 一 节 的 代码 中 ， 与 cond 相 关 的 判断 是 (avail == 0)。 这 段 
代码 展示 了 一 个 通用 的 设计 原则 : 必须 由 一 个 while 循 环 ， 而 不 是 if 语 
句 ， 来 控制 对 pthread_cond_wait0 的 调用 。 这 是 因为 ， 当 代码 从 
pthread_cond_wait(0) 人 返回 时 ， 并 不 能 确定 判断 条 件 的 状态 ， 所 以 应 该 并 
即 重新 检查 判断 条 件 ， 在 条 件 不 满足 的 情况 下 继续 休眠 等 竺 。 


从 pthread_cond_waitO 返 回 时 ， 之 所 以 不 能 对 判断 条 件 的 状态 做 任 
何 假设 ， 其 理由 如 下 。 


。 其 他 线程 可 能 会 率先 醒 来 。 也 许 有 多 个 线程 在 等 待 获取 与 条 件 变量 
相关 的 互 斥 量 。 即 使 就 互 斥 量 发 出 通知 的 线程 将 判断 条 件 置 为 预期 
状态 ， 其 他 线程 依然 有 可 能 率先 获取 互 斥 量 并 改变 相关 共 宇 变量 的 
状态 ， 进 而 改变 判断 条 件 的 状态 。 

。 设计 时 设置 “宽松 的 ”判断 条 件 或 许 更 为 简单 。 有 时 ， 用 条 件 变 量 来 
表征 可 能 性 而 非 确定 性 ， 在 设计 应 用 程序 时 会 更 为 简单 。 换 言 之 ， 
就 条 件 变量 发 送信 号 意味 着 “可 能 有 些 事情 ”需要 接收 信号 的 线程 去 
啊 应 ， 而 不 是 “一 定 有 一 些 事情 ?要 做 。 使 用 这 种 方法 ， 可 以 基于 判 
盯 条 件 的 近似 情况 来 发 送 条 件 变 量 通 知 ， 接 收 信号 的 线程 可 以 通过 





























再 次 检查 判断 条 件 来 确定 是 否 真 的 需要 做 些 什么 。 

。 可 能 会 发 生 虚 假 唤醒 的 情况 。 在 一 些 实现 中 ， 即 使 没有 任何 其 他 线 
程 真 地 束 条 件 变 量 发 出 信号 ， 等 竺 此 条 件 变 量 的 线程 们 有 可 能 醒 
来 。 在 一 些 多 处 理 器 系统 上 ， 为 确保 高 效 实现 而 采用 的 技术 会 导致 
此 类 (不 常见 的 ) 虚假 唤醒 。SUSv3 对 此 予以 明确 认可 。 


30.2.4 ”示例 程序 . 连接 任意 已 终止 线程 


前 面 已 然 提 及 ， 使 用 pthread_joinO 只 能 连接 一 个 指定 线程 。 且 该 函 
数 也 未 提供 任何 机 制 去 连接 任意 的 已 终止 线程 。 本 节 展 示 如 何 使 用 条 件 
变量 绕 过 这 一 限制 。 


程序 清单 30-4 为 其 每 个 命令 行 参数 创建 一 个 线程 。 每 个 线程 休眠 一 
段 时 间 后 随即 退出 ， 体 眠 时 间 由 相应 命令 行 参数 所 指定 的 秒 数 决 定 。 这 
里 用 休眠 间隔 来 模拟 线程 工作 了 一 段 时 间 。 


该 程序 维护 有 一 组 全 局 变量 ， 记 录 了 所 有 已 创建 线程 的 信息 。 对 于 
每 个 线程 ， 全 局 数组 thread 中 都 含有 一 元 素 记 录 其 线程 ID 〈 字 段 tid) 以 
及 当前 状态 (字段 state )。 状 态 字 上 段 state 可 设置 为 以 下 值 : 

TS_ALIVE， 表 示 线 程 是 活动 的 ，TS_TERMINATED， 代 表 线 程 已 经 终 
结 但 尚未 被 连接 ，TS_JOINED， 表 示 线 程 终止 且 已 被 连接 。 


当 线 程 终止 时 ， 将 TS_TERMINATED 赋 给 数组 thread 中 对 应 元 素 的 
state 字 段 ， 对 表征 已 终止 但 尚未 连接 线程 的 全 局 计数 器 
(numUnjoined) 加 一 ， 并 就 条 件 变量 threadDied 发 出 信号。 


主线 程 使 用 循环 不 断 等 竺 条件 变 量 threadDied。 当 收 到 threadDied 信 
号 ， 且 存在 已 终止 线程 尚未 被 连接 时 ， 主 线程 将 扫描 thread 数 组 ， 寻 找 
state 为 TS_TERMINATED 的 数组 元 素 。 对 处 于 该 状态 的 每 个 线程 ， 以 数 
组 thread 中 的 对 心 tid 字 段 调 用 pthread_join0 函 数 ， 并 将 state 置 为 
TS_JOINED。 当 由 主线 程 创建 的 所 有 线程 终止 时 ， 即 全 局 变量 numLive 
值 为 0 时 ， 主 循环 结束 。 


以 下 shell 会 话 日 志 展 示 了 对 程序 清单 30-4 中 程序 的 调用 : 

















$ ./thread_multijoin 1 1 2 3 3 Create 5 threads 
Thread 0 terminating 
Thread 1 terminating 
Reaped thread 0 (numLive=4) 
Reaped thread 1 (numLive=3) 
Thread 2 terminating 
Reaped thread 2 (numLive=2) 
Thread 3 terminating 
Thread 4 terminating 
Reaped thread 3 (numLive=1) 
Reaped thread 4 (numLive=0) 


最 后 要 指出 ， 虽 然 示 例 中 的 线程 都 被 创建 为 处 于 可 连接 状态 ， 且 终 
止 后 立即 由 pthread_join0 了 予以 捕获 ， 其 实 无 需 采 用 这 一 方法 来 发 现 线程 
的 终止 。 可 以 将 线程 置 为 分 离 态 (detached) ， 无 需 使 用 
pthread_join()， 简 单 地 利用 thread 数 组 (及 其 他 相关 全 局 变量 ) 作为 记 
录 每 个 线程 终结 的 手段 。 




















程序 清单 30-4: 可 以 连接 任意 已 终止 线程 的 主线 程 














threads/thread_multijoin.c 


#include <pthread.h> 
#include "tlpi_hdr.h" 


static pthread_cond_t threadDied = PTHREAD_COND_INITIALIZER; 
static pthread mutex t threadMutex = PTHREAD MUTEX INITIALIZER; 
/* Protects all of the following global variables */ 


static int totThreads = 0; /* Total number of threads created */ 
static int numLive = 0; /* Total number of threads still alive or 
terminated but not yet joined */ 
static int numUnjoined = 0; /* Number of terminated threads that 
have not yet been joined */ 
enum tstate { /* Thread states */ 
TS_ALIVE, /* Thread is alive */ 
TS_TERMINATED, /* Thread terminated, not yet joined */ 
TS_JOINED /* Thread terminated, and joined */ 
i$; 
static struct { /* Info about each thread */ 
pthread t tid; /* ID of this thread */ 
enum tstate state; /* Thread state (TS_* constants above) */ 
int sleepTime; /* Number seconds to live before terminating */ 


} *thread; 


static void * /* Start function for thread */ 
threadFunc(void *arg) 


int idx = *((int *) arg); 
int s; 


sleep(thread[idx].sleepTime) ; /* Simulate doing some work */ 
printf("Thread %d terminating\n", idx); 


s = pthread_mutex_lock{&threadMutex) ; 
if (s != 0) 
errExitEN(s, "pthread mutex lock"); 


numUnjoined++; 
thread[idx].state = TS TERMINATED; 


s = pthread_mutex_unlock(&threadMutex) ; 
if (s != 0) 

errExitEN(s, "pthread mutex_unlock"); 
s = pthread_cond_signal(&threadDied) ; 
if (s != 0) 

errExitEN(s, "pthread_cond_signal"); 


return NULL; 
} 


int 
main(int argc, char *argv[]) 


int s, idx; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s nsecs...\n", argv[0]); 


thread = calloc(arge - 1, sizeof(*thread)); 
if (thread == NULL) 
errExit("calloc"); 


/* Create all threads */ 


for (idx = 0; idx < argc - 1; idx++) { 
thread[idx].sleepTime = getInt(argv[idx + 1], GN NONNEG, NULL); 
thread[idx].state = TS ALIVE; 
s = pthread create(&thread[idx].tid, NULL, threadFunc, &idx); 
if (s != 0) 
errExitEN(s, "pthread create"); 


} 


totThreads = argc - 1; 
numLive = totThreads; 


/* Join with terminated threads */ 


while (numLive > 0) { 
s = pthread_mutex_lock(&threadMutex) ; 
if (s != 0) 
errExitEN(s, "pthread mutex lock"); 


while (numUnjoined == 0) { 
s = pthread cond wait(&threadDied, &threadMutex) ; 
if (s !=0 
errExitEN(s, "pthread cond wait"); 
} 


for (idx = 0; idx < totThreads; idx++) { 
if (thread[idx].state == TS TERMINATED) { 
= pthread_join(thread[idx].tid, NULL); 
if (s != 0) 
errExitEN(s, "pthread_join”); 


thread[idx].state = TS_JOINED; 
numLive--; 
numUnjoined--; 


printf("Reaped thread %d (numLive=%d)\n", idx, numLive); 


= pthread_mutex_unlock(&threadMutex) ; 
if (s != 0) 
errExitEN(s, "pthread_mutex_unlock"); 


} 


exit(EXIT_SUCCESS) ; 
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30.25 经 由 动态 分 配 的 条 件 变 量 


使 用 函数 pthread_cond_initO 对 条 件 变 量 进行 动态 初始 化 。 需 要 使 用 
pthread_cond_init() 的 情形 类 似 于 使 用 pthread_mnutex_init0 来 动态 初始 化 
互 斥 量 的 情况 。 亦 即 ， 对 自动 或 动态 分 配 的 条 o 或 
是 对 未 采用 默认 属性 经 由 静态 分 配 的 条 件 变 量 进行 初始 化 时 ， 必 须 使 用 
pthread_cond_init(). 

















#include <pthread.h> 


int pthread_cond_init(pthread_cond_t *cond, const pthread_condattr_t *altr); 


Returns 0 on success, or a positive error number on error 

















参数 cond 表 示 将 要 初始 化 的 目标 条 件 变 量 。 类 似 于 互 斥 量 ， 可 以 指 
定之 前 经 由 初始 化 处 理 的 attr 参数 来 判定 条 件 变 量 的 属性 。 对 于 attr 所 
4415] HY pthread_condattr_t 类 型 对 象 ， 可 使 用 多 个 Pthreads 函 数 对 其 中 属 





性 进行 初始 化 。 知 将 attr 置 为 NULL， 则 使 用 一 组 缺 省 属性 来 设置 条 件 变 
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SUSvV3 规 定 ， 对 业已 初始 化 的 条 件 变量 进行 再 次 初始 化 ， 将 导致 未 
定义 的 行为 。 应 当 避 免 这 一 做 法 。 


当 不 再 需要 一 个 经 由 自动 或 动态 分 配 的 条 件 变量 时 ， 应 调用 
pthread_cond_destroyO 函 数 予 以 销毁 。 对 于 使 用 
PTHREAD_COND_INITIALIZER 进 行 静态 初始 化 的 条 件 变 量 ， 无 需 调 
用 pthread_cond_destroy()。 








#include <pthread.h> 


int pthread cond destroy(pthread cond t *cond); 


Returns 0 on success, or a positive error number on error 

















对 东 个 条 件 变量 而 言 ， 仅 当 没 有 任何 线程 在 等 待 它 时 ， 将 其 销毁 才 
古 安全 的 。 如 果 条 件 变量 驻 留 于 茶 片 动态 创建 的 内 存 区 域 ， 那 么 应 在 释 
放 该 。 经 由 上 自动 分 配 的 条 件 变量 应 在 宿主 函数 返 
回 前 予以 销毁 。 


经 pthread_cond_destroy0) 销 毁 的 条 件 变量 ， 之 后 可 以 调用 
pthread_cond_initO 对 其 进行 重新 初始 化 。 





30.3 ”总结 

线程 提供 的 强大 共享 是 有 代价 的 。 多 线程 应 用 程序 必须 使 用 互 斥 量 
和 条 件 变量 等 同步 原 语 来 协调 对 共享 变量 的 访问 。 互 斥 量 提供 了 对 共享 
变量 的 独占 式 访问 。 条 件 变 量 允 许 一 个 或 多 个 线程 等 候 通 知 : 其 他 线程 
改变 了 共享 变量 的 状态 。 
更 多 信息 


请 参考 29.10 节 所 列 的 更 多 信息 来 源 。 





30.4 ”练习 


30-1. 修改 程序 清单 30-1 (thread_incr.c) 中 的 程序 ， 以 便 线 程 起 始 
函数 在 每 次 循环 中 都 能 输出 glob 的 当前 值 以 及 能 对 线程 做 唯一 标识 的 标 
识 符 。 可 将 线程 的 这 一 唯一 标识 指定 为 创建 线程 的 函数 pthread_create0) 
的 调用 参数 。 对 于 这 一 程序 ， 需 要 将 线程 起 始 函 数 的 参数 改 为 指针 ， 指 
癌 包 含 线程 唯一 标识 和 循环 次 数 限制 的 数据 结构 。 运 行 该 程序 ， 将 输出 
重 定向 至 一 文件 ， 碍 看 内 核 在 调度 两 线程 交 蔡 执行 时 glob 的 变化 情况 。 


30-2. 实现 一 组 线程 安全 的 函数 ， 以 更 新 和 搜索 一 个 不 平衡 二 又 
树 。 此 函数 库 应 该 包含 如 下 形式 的 函数 〈 目 的 明显 ) : 


initialize(tree) ; 

add(tree, char *key, void *value); 
delete(tree, char *key) 

Boolean lookup(char *key, void **value) 


上 述 函 数 原型 中 ，tree 是 一 个 指 同 根 节点 的 结构 (为 此 需要 定义 一 
个 合适 的 结构 )。 树 的 每 个 节点 保存 有 一 个 键 - 值 对 。 还 需 为 树 中 每 个 
节点 定义 一 数据 结构 ， 其 中 应 包含 互 太 量 ， 以 确保 同时 仅 有 一 个 线程 可 
以 访问 该 节点 。initialize0、add0 和 lookupO 函 数 的 实现 相对 简单 。 
delete() 的 实现 需要 较为 深入 的 考虑 。 























无 需 维护 平衡 二 叉 树 ， 这 极 大 简化 了 实现 对 锁 的 需 
求 ， 但 同时 也 融 来 了 风险 ， 特 定 模式 的 输入 会 导致 树 的 执 
行 效率 低下 。 要 维护 平衡 二 又 树 ， 则 在 执行 add0 和 delete() 
操作 时 必然 要 在 子 树 间 移动 节点 ， 这 网 需要 更 为 复杂 的 锁 
定 策 略 。 





PILE RIE: 线程 安全 和 每 线程 
存储 


本 章 将 拓展 对 POSIX 线 程 API 的 探讨 ， 描 述 线程 安 全 (thread-safe) 
函数 以 及 一 次 性 初始 化 。 同 时 讨论 在 不 改变 函数 接口 定义 的 前 提 下 ， 如 
何 通 过 线程 特有 数据 (thread-specific data) 或 线程 局 部 存储 (thread- 
local storage) 实现 已 有 函数 的 线程 安全 。 


31.1 线程 安全 (再 论 可 重 入 性 ) 


奉 函 数 可 同时 供 多 个 线程 安全 调用 ， 则 称 之 为 线程 安全 函数 ;， 反 
之 ， 如 果 函 数 不 是 线程 安全 的 ， 则 不 能 并 发 调用 。 例 如 ， 如 下 函数 
(30.1 节 也 有 类 似 代 码 〉 就 不 是 线程 安全 的 : 


static int glob = 0; 





static void 
incr(int loops) 


int loc, j; 

for (j = 0; j < loops; j++) { 
loc = glob; 
loc++; 
glob = loc; 


} 
} 


如 果 多 个 线程 并 发 调用 该 函数 ，glob 的 最 终 值 将 不 得 而 知 。 本 例 展 
示 了 导致 线程 不 安全 的 典型 原因 : 使 用 了 在 所 有 线程 之 间 共 享 的 全 局 或 


静态 变量 。 


实现 线程 安全 有 多 种 方式 。 其 一 是 将 函数 与 互 斥 量 关 联 使 用 《如果 
函数 库 中 的 所 有 函数 都 共享 同样 的 全 局 变量 ， 那 么 或 许 应 将 所 有 函数 都 
与 该 互 斥 量 相关 联 ) ， 在 调用 函数 时 将 其 锁定 ， 在 函数 返回 时 解锁 。 这 
一 方法 的 优点 在 于 简单 。 为 一 方面 ， 这 也 意味 着 同时 只 能 有 一 个 线程 执 
行 该 函数 ， 亦 即 ， 对 该 函数 的 访问 是 串 行 的 〈serialized) 。 如 果 各 线程 
在 执行 此 函数 时 都 耗费 了 相当 多 的 时 间 ， 那 么 串 行 化 会 导致 并 友人 能 力 的 
丧失 ， 所 有 线程 将 不 再 并 发 执行 。 

另 一 种 更 为 复杂 的 解决 方案 是 : 将 共享 变量 与 互 斥 量 关 联 起 来 。 这 
需要 程序 员 们 确认 函数 的 哪些 部 分 是 使 用 了 共 至 变量 的 临界 区 ， 且 仪 在 
执行 到 临界 区 时 去 获取 和 释放 互 斥 量 。 这 将 允许 多 线程 同时 执行 一 个 函 
数 并 实现 并 行 ， 除 非 出 现 多 个 线程 需要 同时 执行 同一 临界 区 的 情况 。 


非 线程 安全 的 函数 


为 便于 开发 多 线程 应 用 程序 ， 除 了 表 31-1 所 列 函数 以 外 (其 中 大 
部 分 并 未 在 本 书 中 提 及 ) ，SUSv3 中 的 所 有 函数 都 需 实现 线 程 安全 。 

















除了 表 31-1 中 所 列 函 数 ，SUSv3 还 做 了 如 下 规定 。 


e 如 传 参 为 NULL 时 ， 函 数 ctermid0 和 tmpnam0 无 需 是 线程 安全 的 。 
e 如 果 函 数 wcrtomb0 和 wcsrtombs0O 的 最 后 一 个 参数 (ps) 为 NULL， 
那么 这 两 个 函数 也 无 需 是 线程 安全 的 。 


SUSv4 对 表 31-1 中 的 函数 做 了 以 下 修改 。 


。 移 除 函 数 ecvt()、fcvt()、gcvt()、gethostbyname() 以 及 
gethostbyaddr()， 因 为 已 从 标准 中 删除 了 这 些 函数 。 

。 增加 孙 数 strsignal() 和 system()。 由 于 system() 函 数 束 信号 处 置 所 做 的 
操作 将 影响 整个 进程 ， 故 而 是 不 可 重 入 的 。 


标准 并 未 茶 止 将 表 31-1 中 的 函数 实现 为 线程 安全 。 不 过 ， 即 使 在 茶 
些 实现 中 有 些 函 数 是 线程 安全 的 ， 为 确保 应 用 程序 的 可 移植 性 ， 也 不 应 
该 假设 这 些 函 数 在 所 有 实现 中 都 是 如 此 。 














表 31-1: SUSv3 不 要 求 这 些 函 数 是 线程 安全 的 


sommano |p angnio0 














ecvt() getopt() localeconv() wcstombs() 


encrypt() getprotobyname() localtime() 
endgrent() getprotobynumber() lrand48() I 


edoun jpoom0 [mns | | 
mm nl | 





可 重 入 和 不 可 重 入 函数 


较 之 于 对 整个 函数 使 用 互 斥 量 ， 使 用 临界 区 实现 线程 安全 虽然 有 明 
显 改进 ， 但 由 于 存在 对 互 斥 量 的 加 锁 和 解锁 开销 ， 所 以 多 少 还 是 有 些 低 
效 。 可 重 入 函数 则 无 需 使 用 互 斥 量 即 可 实现 线程 安全 。 其 要 诀 在 于 避免 
对 全 局 和 静态 变量 的 使 用 。 需 要 返回 给 调用 者 的 任何 信息 ， 亦 或 是 需要 
在 对 函数 的 历次 调用 间 加 以 维护 的 信息 ， 都 存储 于 由 调用 者 分 配 的 缓冲 
区 内 。《 初 次 碰 到 可 重 入 问题 ， 是 在 21.1.2 节 讨论 信号 处 理 器 中 的 全 局 
变量 时 。) 不 过 ， 并 非 所 有 函数 都 可 以 实现 为 可 重 入 ， 通 第 的 原因 如 
Fe 











。 根据 其 性 质 ， 有 些 函数 必须 访问 全 局 数据 结构 。malloc 函数 库 中 的 
函数 就 是 这 方面 的 典范 。 这 些 函 数 为 堆 中 的 空闲 块 维护 有 一 个 全 局 
链表 。malloc 库 函 数 的 线程 安全 是 通过 使 用 互 斥 量 来 实现 的 。 

一 些 函 数 〈 在 发 明 线 程 之 前 就 已 问世 ) 的 接口 本 身 就 定义 为 不 可 重 
入 ， 要 么 返回 指针 ， 指 向 由 函数 自身 静态 分 配 的 存储 空间 ， 要 么 利 
用 静态 存储 对 该 函数 (或 相关 函数 ) 历次 调用 间 的 信息 加 以 维护 。 
K 31-1 所 列 函 数 大 多 属于 此 类 。 例 如 ， 函 数 asctime() (10.2.3 节 ) 
M a i 
间 字 符 串 。 


对 于 一 些 接口 不 可 重 入 的 函数 ，SUSv3 为 其 定义 了 以 后 绥 _r 结 尾 的 
可 重 入 “ 殖 喘 ”。 这 些 “ 符 吴 ? 图 数 要 求 由 调用 者 来 分 配 缓冲 区 ， 并 将 缓存 
区 地 址 传 给 函数 用 以 返回 结果 。 这 使 得 调用 线程 可 以 使 用 局 部 ( 栈 ) 变 
量 来 存放 函数 结果 。 出 于 这 一 目的 ，SUSv3 定 义 了 如 下 函数 : 
asctime_r(). ctime_r(). getgrgid_r(). getgrnam_r(). getlogin_r(). 
getpwnam_r(). getpwuid_r(). gmtime_r(). localtime_r(). rand_r(). 
readdir_r(). strerror_r(). strtok_r()#ttyname_r(). 





有 些 系统 实现 为 一 些 传统 的 不 可 重 入 函数 也 提供 了 附 
加 的 可 重 入 “替身 ”。 例 如 ，glibc 束 提供 了 函数 crypt_rO、 
gethostbyname_r(). getservbyname_r(). getutent_r(), 
getutid_r()、getutline_r() 和 ptsname_r()。 不 过 ， 为 确保 应 用 
程序 的 可 移植 性 ， 不 应 假设 这 些 函 数 在 其 他 实现 中 也 存 
在 。 某 些 情况 下 ，SUSv3 并 未 规定 这 些 等 价 的 可 重 入 函 
数 ， 因 为 功能 更 强 、 又 可 重 入 的 奉 代 函数 已 然 存 在 。 例 
如 ， 函 数 getaddrinfo0 惑 更 新 且 可 重 入 ， 可 用 来 奉 代 函数 
gethostbyname()#ll getservbyname(). 





31.2 一 次 性 初始 化 


多 线程 程序 有 时 有 这 样 的 需求 : 不 管 创 建 了 多 少 线程 ， 有 些 初始 化 
动作 只 能 发 生 一 次 。 例 如 ， 可 能 需要 执行 pthread_mutex_init() 对 带 有 特 
殊 属 性 的 互 斥 量 进行 初始 化 ， 而 且 必 须 只 能 初始 化 一 次 。 如 果 由 主线 程 
来 创建 新 线程 ， 那 么 这 一 点 易如反掌 : 可 以 在 创建 依赖 于 该 初始 化 的 线 
程 之 前 进行 初始 化 。 不 过 ， 对 于 库 函 数 而 言 ， 这 样 处 理 束 不 可 行 ， 因 为 
调用 者 在 初次 调用 库 函 数 之 前 可 能 已 经 创建 了 这 些 线程 。 故 而 需要 这 样 
的 库 函 数 : 无 论 首 次 为 任何 线程 所 调用 ， 都 会 执行 初始 化 动作 。 


库 函 数 可 以 通过 函数 pthread_once0 实 现 一 次 性 初始 化 。 

















#include <pthread.h> 


int pthread_once(pthread once 七 *once_control, void (*2n2t) (void)); 





Returns 0 on success, or a positive error number on error 








利用 参数 once_control 的 状态 ， 函 数 pthread_ onceO 可 以 确保 无 论 有 
多 少 线程 对 pthread_once0 调 用 了 多 少 次 ， 也 只 会 执行 一 次 由 init 指 向 的 
调用 者 定义 函数 。 


init 函 数 没 有 任何 参数 ， 形 式 如 下 : 


void 
init (void) 


{ 
} 


/* Function body */ 


Ab, BRM once_control 必须 是 一 指针 ， 指 加 初始 化 为 
PTHREAD ONCE INIT 的 静态 变量 。 


pthread once t once var = PTHREAD ONCE INIT; 


调用 函数 pthread_onceO 时 要 指定 一 个 指针 ， 指 向 类 型 为 
pthread_once_t 的 特定 变量 ， 对 该 函数 的 首次 调用 将 修改 once_control 所 
指向 的 内 容 ， 以 便 对 其 后 续 调用 不 会 再 次 执行 init。 





常 将 Pthread_once0 和 线程 特有 数据 结合 使 用 ， 相 关内 容 会 在 下 一 





Pthreads 的 早期 版 本 不 能 对 互 斥 量 进 行 静 态 初 始 化 ， 只 
能 使 用 pthread_mutex_init() ({Butenbof, 1996]) ， 这 也 是 
函数 pthread_once(0 存 在 的 主要 原因 。 随 着 静态 分 配 互 斥 量 
功能 的 问世 ， 库 函数 可 以 使 用 一 个 经 静态 分 配 的 互 斥 量 和 
一 个 静态 布尔 型 (Boolean ) 变量 来 实现 一 次 性 初始 化 。 虽 
然 如 此 ， 出 于 方便 的 考虑 ， 函 数 pthread_once() 得 以 保留 


31.3 ”线程 特有 数据 


实现 函数 线程 安全 最 为 有 效 的 方式 就 是 使 其 可 重 入 ， 应 以 这 种 方式 
来 实现 所 有 新 的 函数 库 。 不 过 ， 对 于 已 有 的 不 可 重 入 函数 库 《〈 可 能 问世 
于 线程 流行 之 前 ) 来 说 ， 采 用 这 种 方法 通常 需要 修改 函数 接口 ， 这 也 意 
味 着 ， 需 要 修改 所 有 使 用 此 类 函数 的 应 用 程序 。 


使 用 线程 特有 数据 技术 ， 可 以 无 需 修改 函数 接口 而 实现 已 有 函数 的 
线程 安全 。 较 之 于 可 重 入 函数 ， 采 用 线程 特有 数据 的 函数 效率 可 能 要 略 
低 一 些 ， 不 过 对 于 使 用 了 这 些 调用 的 程序 而 言 ， 则 省 去 了 修改 程序 之 
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如 图 31-1 所 示 ， 线 程 特有 数据 使 函数 得 以 为 每 个 调用 线程 分 别 维护 
一 份 变量 的 副本 Ccopy) 。 线 程 特有 数据 是 长 期 存在 的 。 在 同一 线程 对 
相同 函数 的 历次 调用 间 ， 每 个 线程 的 变量 会 持续 存在 ， 函 数 可 以 向 每 个 
调用 线程 返回 各 自 的 结果 缓冲 区 〈 如 果 需 要 的 话 ) 。 














图 31-1: 线程 特有 数据 (TSD) 为 函数 提供 线程 内 存储 
31.3.1 库 函 数 视角 下 的 线程 特有 数据 


要 了 解 线程 特有 数据 相关 API 的 使 用 ， 需 要 从 使 用 这 一 技术 的 库 函 
数 角 上 度 来 考虑 如 下 问题 。 











© 该 函数 必须 为 每 个 调用 者 线程 分 配 单独 的 存储 ， 且 只 需 在 线程 初次 
调用 此 函数 时 分 配 一 次 即 可 。 

在 同一 线程 对 此 函数 的 后 续 所 有 调用 中 ， 该 函数 都 需要 获取 初次 调 
用 时 线程 分 配 的 存储 块 地 址 。 由 于 函数 调用 结束 时 会 释放 自动 变 
量 ， 故 而 函数 不 应 利用 上 自动 变量 存放 存储 块 指针 ， 也 不 能 将 指针 存 
放 于 静态 变量 中 ， 因 为 静态 变量 在 进程 中 只 有 一 个 实例 。Pthreads 
API 提 供 了 函数 来 处 理 这 一 情况 。 

不 同 〈 无 相互 依赖 关系 ) 函数 各 目 可 能 都 需要 使 用 线程 特有 数据 。 
每 个 函数 都 需要 方法 来 标识 其 自身 的 线程 特有 数据 〈 键 ) ， 以 便 与 
其 他 函数 所 使 用 的 线程 特有 数据 有 所 区 分 。 

当 线 程 退 出 时 ， 函 数 无 法 控制 将 要 发 生 的 情况 。 这 时 ， 线 程 可 能 会 
执行 该 函数 之 外 的 代码 。 不 过 ， 一 定 存 在 某 些 机 制 〈 解 构 器 ) ， 在 
线程 退出 时 会 自动 释放 为 该 线程 所 分 配 的 存储 。 和 若非 如 此 ， 随 着 持 
续 不 断 地 创建 线程 ， 调 用 函数 和 终止 线程 ， 将 会 引发 内 存 泄 露 。 


31.3.2 ”线程 特有 数据 API 概 述 
要 使 用 线程 特有 数据 ， 库 函数 执行 的 一 般 步 骤 如 下 。 


1. 函数 创建 一 个 键 Ckey) ， 用 以 将 不 同 函 数 使 用 的 线程 特有 数据 
项 区 分 开 来 。 调 用 函数 pthread_key_create(0) 可 创建 此 “ 键 "”， 且 只 需 在 首 
个 调用 该 函数 的 线程 中 创建 一 次 ， 函 数 pthread_once0O 的 使 用 正 是 出 于 这 
一 目的 。 键 在 创建 时 并 未 分 配 任何 线程 特有 数据 块 。 


2. 调用 pthread_key_create() 还 有 男 一 个 目的 ， 即 允许 调用 者 指定 一 
个 自 定 义 解构 函数 ， 用 于 释放 为 该 键 所 分 配 的 各 个 存储 块 〈 参 见 下 一 
步 ) 。 当 使 用 线程 特有 数据 的 线程 终止 时 ，Pthreads API 会 自动 调用 此 
解构 函数 ， 同 时 将 该 线程 的 数据 块 指针 作为 参数 传 入 。 


3. 函数 会 为 每 个 调用 者 线程 创建 线程 特有 数据 块 。 这 一 分 配 通 过 
调用 mallocO (BRA eK BL) 完成 ， 每 个 线程 只 分 配 一 次 ， 且 只 会 在 线 
程 初次 调用 此 函数 时 分 配 。 


4. 为 了 保存 上 一 步 所 分 配 存储 块 的 地 址 ， 函 数 会 使 用 两 个 Pthreads 
函数 : pthread_setspecific() 和 pthread_getspecific()。 调 用 函数 
pthread_setspecificO 实 际 上 是 对 Pthreads 实 现 发 起 这 样 的 请 求 : 保存 该 指 
针 ， 并 记录 其 与 特定 键 〈 该 函数 的 键 ) 以 及 特定 线程 〈 调 用 者 线程 ) 的 
关联 性 。 调 用 pthread_getspecificO 所 执行 的 是 互补 操作 : 返回 之 前 所 保 








存 的、 与 给 定 键 以 及 调用 线程 相关 联 的 指针 。 如 采 还 没有 指针 与 特定 的 
键 及 线程 相关 联 ， 那 么 pthread_getspecific() 返 回 NULL。 消 数 可 以 利用 这 
一 点 来 判断 自 映 是 否 是 初次 为 某 个 线程 所 调用 ， 大 为 初次 ， 则 必须 为 该 
线程 分 配 空间 。 


31.3.3 ”线程 特有 数据 API 详 述 

本 节 将 详 述 上 市 所 提 及 的 各 个 函数 ， 并 通过 对 线程 特有 数据 的 典型 
实现 来 说 明 其 操作 方法 。 下 一 节 会 演示 如 何 使 用 线程 特有 数据 来 实现 线 
程 安全 的 标准 C 语 言 库 函数 stderror()。 


调用 pthread_key_create() 函 数 为 线程 特有 数据 创建 一 个 新 键 ， 并 通 
过 key 所 指 问 的 缓冲 区 返回 给 调用 者 。 


因为 进程 中 的 所 有 线程 都 可 使 用 返回 的 键 ， 所 以 参数 key 应 指 癌 一 
个 全 局 变量 。 











#include <pthread.h> 


int pthread_key create(pthread_key_t *key, void (*destructor)(void *)); 


Returns 0 on success, or a positive error number on error 











参数 destructor 指 同一 个 自 定义 函数 ， 其 格式 如 下 : 


void 
dest(void *value) 


/* Release storage pointed to by ‘value’ */ 


只 要 线程 终止 时 与 key 的 关联 值 不 为 NULL，Pthreads API 会 自动 执 
行 解构 函数 ， 并 将 与 key 的 关联 值 作为 参数 传 入 解构 函数 。 传 入 的 值 通 
稼 是 与 该 键 和 关联， 且 指 癌 线程 特有 数据 块 的 指针 。 如 果 无 需 解 构 ， 那 么 
可 将 destructor 设 置 为 NULL 。 


如 果 一 个 线程 有 多 个 线程 特有 数据 块 ， 那 么 对 各 个 解 


构 函数 的 调用 顺序 是 不 确定 的 。 对 每 个 解构 函数 的 设计 应 
相互 独立。 


观察 线程 特有 数据 的 实现 有 助 于 理解 它们 的 使 用 方法 。 典 型 的 实现 
(NPTL 即 在 此 列 ) 会 包含 以 下 数组 。 


。 一 个 全 局 〈 进 程 范围 数组， 存放 线 程 特有 数据 的 键 信 息 。 
。 每 个 线程 包含 一 个 数组 ， 存 有 为 每 个 线程 分 配 的 线程 特有 数据 块 的 
指针 〈 通 过 调用 pthread_ setspecific0) 来 存储 指针 ) 。 





在 这 一 实现 中 ，pthread_key_create() 返 回 的 pthread_key_t 类 型 值 只 
是 对 全 局 数组 的 索引 (index) ， 标 记 为 pthread_keys， 其 格式 如 图 31-2 
所 示 。 数 组 的 每 个 元 素 都 是 一 个 包含 两 个 字段 Cied) 的 结构 。 第 一 个 
字段 标记 该 数组 元 素 是 否 在 用 ( 即 已 由 之 前 对 pthread_key_create() 的 调 
用 分 配 ) 。 第 二 个 字段 用 于 存放 针对 此 键 、 线 程 特有 数据 块 的 解构 函数 
指针 《〈 是 函数 pthread_key_crate0 中 参数 destructor 的 一 份 找 贝 ) 。 


pthread_keys[0] 
解构 限 数 指针 


pthread_keys{ 1] “ 在 用 ”标志 





pthread_keys{2] “ 在 用 ”标志 
解构 明 数 指针 

















图 31-2: 线程 特有 数据 键 的 实现 








函数 pthread_setspecificO 要 求 Pthreads API 将 value 的 副本 存储 于 一 数 
据 结 构 中 ， 并 将 value 与 调用 线程 以 及 key 相 关联 (key 由 之 前 对 
pthread_key_create0 的 调用 返回 ) 。Pthread_getspecific() 函 数 执行 的 操作 
与 之 相反 ， 返 回 之 前 与 本 线程 及 给 定 key 相 关 的 值 (value) 。 








#include <pthread.h> 


int pthread_setspecific(pthread_key_t key, const void *value); 
Returns 0 on success, or a positive error number on error 


void *pthread_getspecific(pthread_key t key); 








Returns pointer, or NULL if no thread-spcecific data isassociated with key 





函数 pthread_setspecificO 的 参数 value 通 常 是 一 指针 ， 指 向 由 调用 者 
分 配 的 一 块 内 存 。 当 线程 终止 时 ， 会 将 该 指针 作为 参数 传递 给 与 key 对 
应 的 解构 函数 。 


参数 value 也 可 以 不 是 一 个 指 问 内 存 区 域 的 指针 ， 而 是 
任何 可 以 赋值 (通过 强制 转换 〉 给 void* 的 标量 值 。 在 这 种 
情况 下 ， 先 前 对 pthread_key_create() 函 数 的 调用 应 将 
destructor 指 定 为 NULL。 








图 31-3 展 示 了 用 于 存储 value 的 数据 结构 的 常见 实现 。 图 中 假设 将 
pthread_keys[1] 分 配给 函数 myfunc()。Pthreads API 为 每 个 函数 维护 指向 
线程 特有 数据 块 的 一 个 指针 数组 。 其 中 每 个 数组 元 素 都 与 网 31-2 中 全 
局 pthread_keys 数组 的 元 素 一 一 对 上 应。 函数 pthread_setspecific() 在 指针 
数组 中 为 每 个 调用 线程 设置 与 key 对 应 的 元 素 。 


tsd[O] 


2R A rh pe Remy 
tsdf1] | 指针 func-() 的 线程 特 
有 数据 缓冲 区 


isdf[2] 





所 有 均 与 
pthread_keys{ 1 也 应 


线程 3 中 国 数 my 
func() 的 线程 特 
有 数据 缓冲 区 












图 31-3: 用 于 实现 线程 特有 数据 (TSD) 指针 的 数据 结构 


当 线 程 刚 刚 创建 时 ， 会 将 所 有 线程 特有 数据 的 指针 都 初始 化 为 
NULL。 这 意味 着 当 线 程 初 次 调用 库 函 数 时 ， 必 须 使 用 
pthread_getspecificO 函 数 来 检查 该 线程 是 人 否 己 有 与 key 对 应 的 关联 值 。 如 
果 没 有 ， 那 么 此 函数 会 分 配 一 块 内 存 并 通过 pthread_setspecific() 保 存 指 
ye as 在 下 一 节 实 现 线程 安全 版 的 stderror() 函 数 时 ， 将 给 

示例 。 


31.3.4 ”使 用 线程 特有 数据 API 


3.4 节 在 首 度 论 及 标准 stderror() 函 数 时 曾 指 出 ， 可 能 会 返回 一 个 指 
向 静态 分 配 字符 串 的 指针 作为 函数 结果 。 这 意味 着 stderror() 可 能 不 是 线 

















程 安全 的 。 后 面 将 以 数 页 篇 幅 讨 论 一 下 非 线程 安全 的 stderror() 实 现 ， 接 
着 说 明 如 何 使 用 线程 特有 数据 来 实现 该 函数 的 线程 安全 。 





在 包括 Linux 在 内 的 许多 UNIX 实 现 中 ， 由 标准 C 语 言 函 
数 库 提 供 的 stderrorO 函 数 都 是 线程 安全 的 。 不 过 ， 由 于 
SUSv3 并 未 规定 该 函数 必须 是 线程 安全 的 ， 而 且 这 一 
stderror0O 的 实现 又 为 使 用 线程 特有 数据 提供 了 一 个 简单 范 
例 ， 故 而 在 此 将 其 作为 示例 。 


程序 清单 31-1 演示 了 非 线程 安全 版 strerrorO 函 数 的 一 个 简单 实现 。 
该 函数 利用 了 由 glibc 定 义 的 一 对 全 局 变量 : _sys_errlist 是 一 个 指针 数 
组 ， 其 每 个 元 素 指 问 一 个 与 errno 错 误 写 相 逻 配 的 字符 串 〈 因 此 ， 例 如 ， 
_sys_errlist[EINVALI] 即 指 癌 字 符 串 Invalid operation) ; _sys_nerr 表 示 
_sys_errlist 中 的 元 素 个 数 。 
































程序 清单 31-1: 非 线程 安全 版 strerrorO 函 数 的 一 种 实现 




















threads/strerror.c 
#define GNU SOURCE /* Get ' sys nerr' and ' sys errlist' 
declarations from <stdio.h> */ 
#include <stdio.h> 
#include <string.h> 


~ 


* Get declaration of strerror() */ 


#tdefine MAX_ERROR_LEN 256 


~ 


* Maximum length of string 
returned by strerror() */ 


static char buf[MAX ERROR LEN]; /* Statically allocated return buffer */ 


char * 
strerror(int err) 
{ 
if (err < 0 || err >= sys nerr || _sys_errlist[err] == NULL) { 
snprintf(buf, MAX ERROR LEN, “Unknown error %d", err); 
} else { 
strncpy(buf, sys _errlist[err], MAX ERROR LEN - 1); 
buf[MAX ERROR LEN - 1] = ‘\0'; /* Ensure null termination */ 
} 


return buf; 


threads/strerror.c 


可 以 利用 程序 清单 31-2 中 程序 来 展示 程序 清单 31-1 中 非 线 程 安全 版 
的 streerror0 实 现 所 造成 的 后 果 。 该 程序 分 别 从 两 个 不 同 线程 中 调用 
strerror(D， 并 且 均 在 两 个 线程 调用 stderror0 之 后 才 显 示 返 回 结果 。 虽 然 
两 个 线程 为 strerror() 指 定 的 参数 值 不 同 CEINVALAIEPERM) ， 在 与 程 
序 清单 31-1 版 的 strerror() 链 接 、 编 译 后 ， 运 行 该 程序 将 产生 如 下 结果 : 


$ ./strerror test 

Main thread has called strerror() 

Other thread about to call strerror() 

Other thread: str (0x804a7c0) = Operation not permitted 
Main thread: str (0x804a7c0) = Operation not permitted 


两 个 线程 都 显示 与 EPERM 对 应 的 errmo 字 符 串 ， 因 为 第 二 个 线程 对 
strerror() 的 调用 (在 函数 threadFunc() 中 ) 履 盖 了 主线 程 调 用 strerrorO 时 
写 入 绥 冲 区 的 内 容 。 检 查 输出 结果 可 以 发 现 ， 两 个 线程 的 局 部 变量 str 均 
指 癌 同一 内 存 地 址 。 











程序 清单 31-2: 从 两 个 不 同 线程 调用 strerror() 








threads/strerror_test.c 


#include <stdio.h> 

#include <string.h> /* Get declaration of strerror() */ 
#include <pthread.h> 

#include "tlpi hdr.h" 


static void * 
threadFunc(void *arg) 


printf("Other thread about to call strerror()\n"); 


printf("Other thread: str (%p) = %s\n", str, str); 


{ 
char *str; 
str = strerror(EPERM); 
return NULL; 

} 

int 


main(int argc, char *argv[]) 


pthread 七 t; 
int s; 
char *str; 


str = strerror(EINVAL); 
printf("Main thread has called strerror()\n"); 


s = pthread create(&t, NULL, threadFunc, NULL); 
if (s != 0) 
errExitEN(s, "pthread_create"); 
5 = pthread join(t, NULL); 
if (s != 0) 
errExitEN(s, "pthread join"); 
printf("Main thread: str (%p) = %s\n", str, str); 


exit (EXIT_SUCCESS) ; 


threads/strerror_test.c 


程序 清单 31-3 是 对 函数 strerror0 的 全 新 实现 ， 使 用 了 线程 特有 数据 


来 确保 线程 安全 。 











程序 清单 31-3: 使 用 线程 特有 数据 以 实现 线程 安全 的 strerrorO 函 数 


一 threads/strerror tsd.c 
#define GNU SOURCE /* Get ' sys nerr' and ' sys errlist' 
declarations from <stdio.h> */ 
#include <stdio.h> 
#include <string.h> /* Get declaration of strerror() */ 
#include <pthread.h> 
#include "“tlpi_hdr.h" 


static pthread_once_t once = PTHREAD_ONCE_INIT; 
static pthread key t strerrorKey; 


#idefine MAX_ERROR LEN 256 /* Maximum length of string in per-thread 
buffer returned by strerror() */ 


static void /* Free thread-specific data buffer */ 
© destructor(void *buf) 


free(buf); 
static void /* One-time key creation function */ 
@ createKey(void) 
int s; 


/* Allocate a unique thread-specific data key and save the address 
of the destructor for thread-specific data buffers */ 


© s = pthread key create(&strerrorKey, destructor); 
if (s != 0) 
errExitEN(s, "pthread key create"); 


char * 
strerror(int err) 


int s; 
char *buf; 


/* Make first caller allocate key for thread-specific data */ 
® s = pthread_once(&once, createKey); 
if (s != 0) 


errExitEN(s, "pthread once"); 


®© buf = pthread getspecific(strerrorKey); 


if (buf == NULL} { /* If first call from this thread, allocate 
buffer for thread, and save its location */ 
© buf = malloc(MAX_ERROR_LEN); 


if (buf == NULL) 
errExit("malloc"); 


© s = pthread setspecific(strerrorKey, buf); 
if (s != 0) 
errExitEN(s, "pthread setspecific"); 
} 
if (err < 0 || err >= _sys_nerr || _sys errlist[err] == NULL) { 
snprintf (buf, MAX ERROR LEN, “Unknown error %d", err); 
} else { 
strncpy(buf, sys errlist[err], MAX ERROR LEN - 1); 
buf [MAX ERROR LEN - 1] = ‘\0'; /* Ensure null termination */ 
} 


return buf; 


threads/strerror_tsd.c 


改进 版 strerror() 所 做 的 第 一 步 是 调用 pthread_once())， 以 确保 (从 
任何 线程 》 对 该 函数 的 首次 调用 将 执行 createKey() 邓 。 函 数 createKey() 
会 调用 pthread_key_create() 来 分 配 一 个 线程 特有 数据 的 键 key) ， 并 将 
其 存储 于 全 局 变量 strerrorKey(G@) 中 。 对 pthread_key_create0 的 调用 同时 也 
会 记录 解构 函数 中 的 地 址 ， 将 使 用 该 解构 函数 来 释放 与 键 对 应 的 线程 特 
有 数据 缓冲 区 。 


接着 ， 函 数 strerrorO) 调 用 pthread_getspecific0)@ 以 获取 该 线程 中 对 应 
于 strerrorKey 的 唯一 缓冲 区 地 址 。 如 果 pthread_getspecific() 返 回 NULL， 
这 表明 该 线程 是 首次 调用 strerrorO) 函 数 ， 因 此 函数 会 调用 malloc0@ 分 配 
一 个 新 缓冲 区 ， 并 使 用 pthread_setspecific()Q 吕 来 保存 该 缓冲 区 的 地 址 。 
如 果 pthread_getspecificO 的 返回 值 非 NULL， 那 么 该 值 指 向 业已 存在 的 组 








冲 区 ， 此 缓冲 区 由 之 前 对 strerrorO 的 调用 所 分 配 。 

这 一 strerror0 函 数 实现 的 剩余 部 分 与 非 线程 安全 版 的 前 述 实现 相 类 
似 ， 唯 一 的 区 别 在 于 ，buf 是 线程 特有 数据 的 缓冲 区 地 址 ， 而 非 静态 变 
H. 


如 果 使 用 新 版 strerror()〔 程 序 清单 31-3) 编译 链接 测试 程序 (程序 
清单 31-2〉strerror_test_tsd， 程 序 运行 会 有 如 下 结果 : 








$ ./strerror test tsd 

Main thread has called strerror() 

Other thread about to call strerror() 

Other thread: str (0x804b158) = Operation not permitted 
Main thread: str (0x804b008) = Invalid argument 


根据 这 一 输出 ， 可 以 看 出 新 版 strerro0 是 线程 安全 的 : 两 个 线程 中 
局 部 变量 str 所 指向 的 地 址 是 不 同 的 。 


31.3.5 ”线程 特有 数据 的 实现 限制 


正如 对 线程 特有 数据 典型 实现 过 程 的 描述 所 揭示 的 ， 实 现 可 能 要 对 
其 所 文 持 的 线程 特有 数据 键 的 数量 加 以 限制 。SUSv3 要 求 至 少 文 持 
128 (_POSIX_THREAD_KEYS_MAX) 个 键 。 应 用 程序 要 么 通过 对 
PTHREAD_KEY_MAX (定义 于 <limits.h>) 的 定义 ， 要 么 通过 调用 
sysconf(_SC_THREAD_KEYS_MAX)， 来 确定 实际 支持 的 键 数 量 。 
Linux 支 持 多 达 1024 个 键 。 


即使 128 个 键 对 于 大 多 数 应 用 来 说 也 已 经 绰 综 有余 。 这 是 因为 ， 
个 库 函 数 应 该 只 会 使 用 到 少量 的 键 ， 通 和 会 只 用 一 个 。 如 果 一 个 函数 需 
要 多 个 线程 特有 数据 的 值 ， 通 音 可 将 这 些 值 置 于 一 个 结构 中 ， 并 将 该 结 
构 仅 与 一 个 线程 特有 数据 的 键 关 联 。 











31.4 ”线程 局 部 存储 


类 似 于 线程 特有 数据 ， 线 程 局 部 存储 提供 了 持久 的 每 线程 存储 。 作 
为 非 标准 特性 ， 诸 多 其 他 的 UNIX 实现 〈 例 如 Solaris 和 FreeBSD ) 为 其 
提供 了 相同 ， 或 类 似 的 接口 形式 。 

线程 局 部 存储 的 主要 优点 在 于 ， 比 线程 特有 数据 的 使 用 要 简单 。 要 
创建 线程 局 部 变量 ， 只 需 简 单 地 在 全 局 或 静态 变量 的 声明 中 包含 
_ thread iki HA AF EN AY o 


static _ thread buf[MAX ERROR LEN]; 


但 凡 带 有 这 种 说 明 符 的 变量 ， 每 个 线程 都 拥有 一 份 对 变量 的 拷贝 。 
线程 局 部 存储 中 的 变量 将 一 直 存 在， 直至 线程 终止 ， 届 时 会 目 动 释放 这 
一 存储 。 

关于 线程 局 部 变量 的 声明 和 使 用 ， 需 要 注意 如 下 几 点 。 


e。 如 果 变 量 声明 中 使 用 了 关键 字 static 或 extern， 那 么 关键 字 thread% 























须 紧 随 其 后 。 
© 与 一 般 的 全 局 或 静态 变量 声明 一 样 ， 线 程 局 部 变量 在 声明 时 可 设置 
一 个 初始 值 。 


。 可 以 使 用 C 语 言 取 址 操作 符 〈(&) 来 获取 线程 局 部 变量 的 地 址 。 


线程 局 部 存储 需要 内 核 (由 Linux 2.6 提 供 ) 、Pthreads 实 现 (由 
NPTL 提 供 〉 以 及 C 编 译 器 (在 x86-32 平 台 上 由 gcc 3.3 或 后 续 版 本 提供 ) 
的 支持 。 


程序 清单 31-4 提 供 了 使 用 线程 局 部 存储 实现 线程 安全 版 strerror() 函 
数 的 例子 。 如 果 用 该 版 strerror() 与 测试 程序 (程序 清单 31-2) 编译 、 链 
接 、 生 成 strerror_ test_tls， 那 么 运行 时 将 产生 如 下 结果 : 


$ ./strerror_test_tls 

Main thread has called strerror(} 

Other thread about to call strerror() 

Other thread: str (0x40376ab0) = Operation not permitted 
Main thread: sty (0x40175080) = Invalid argument 











程序 清单 31-4: 使 用 线程 局 部 存储 实现 线程 安全 版 的 strerrorO 函 数 





threads/strerror_tls.c 
#define GNU SOURCE /* Get ' sys nerr' and ' sys errlist' 
declarations from <stdio.h> */ 
#include <stdio.h> 
#include <string.h> /* Get declaration of strerror() */ 
#include <pthread.h> 


#define MAX ERROR LEN 256 /* Maximum length of string in per-thread 
buffer returned by strerror() */ 


static _ thread char buf[MAX ERROR LEN]; 
/* Thread-local return buffer */ 


char * 
strerror(int err) 
{ 
if (err < 0 || err >= _sys_nerr || _sys _errlist[err] == NULL) { 
snprintf(buf, MAX ERROR LEN, “Unknown error %d", err); 
} else { 
strncpy(buf, _sys_errlist[err], MAX_ERROR_LEN - 1); 
buf[MAX_ERROR_LEN - 1] = '\o'; /* Ensure null termination */ 
J 


return buf; 


threads/strerror_tls.c 


31.5 me 


各 一 图 数 可 由 多 个 线程 同时 安全 调用 ， 则 称 之 为 线程 安全 的 函数 。 
使 用 全 局 或 静态 变量 是 导致 函数 非 线程 安全 的 通 禹 原因。 在 多 线程 应 用 
中 ， 保 障 非 线程 安全 函数 安全 的 手段 之 一 是 运用 互 奈 锁 来 防护 对 该 函数 
的 所 有 调用 。 这 种 方法 带 来 了 并 发 性 能 的 下 降 ， 因 为 同一 时 点 只 能 有 一 
个 线程 运行 该 函数 。 提 升 并 友 性 能 的 妨 一 方法 是 : DUE RR UP BREE 
变量 《临界 区 ) 的 代码 前 后 加 入 互 斥 锁 。 


使 用 互 斥 量 可 以 实现 大 部 分 函数 的 线程 安全 ， 不 过 由 于 互 斥 量 的 
、 解 锁 开 销 ， 故 而 也 这 来 了 性 能 的 下 降 。 如 能 避免 使 用 全 局 或 静态 变 
， 可 重 入 函数 则 无 需 使 用 互 斥 量 即 可 实现 线程 安全 。 


SUSv3 所 规范 的 大 部 分 函数 都 需 实现 线程 安全 。SUSV3 同 时 也 列 出 
了 小 部 分 无 需 实现 线程 安全 的 函数 。 一 般 情况 下 ， 这 些 函数 将 静态 存储 
返回 给 调用 者 ， 或 者 在 对 函数 的 连续 调用 间 进 行 信 息 维护 。 根 据 定 义 ， 
这 些 函 数 是 不 可 重 入 的 ， 也 不 能 使 用 互 斥 量 来 确保 其 线程 安全 。 本 章 讨 
论 了 两 种 大 致 相当 的 编程 技术 一 一 线程 特有 数据 和 线程 局 部 存储 一 一 可 
在 无 需 改 变 函 数 接口 定义 的 情况 下 保障 不 安全 函数 的 线程 安全 。 这 两 种 
技术 均 允 许 函 数 分 配 持久 的 、 基 于 线程 的 存储 。 


更 多 信息 
请 参考 29.10 节 所 列 的 更 多 信息 来 源 。 














是 车 

















31.6 ”练习 


31-1. 试 实 现 函 数 one_time_init(control，iniD， 要 求 与 函数 
pthread_once() 执 行 等 同 操作 。 参 数 control 应 为 一 指针 ， 指 癌 经 静态 分 配 
的 结构 ， 其 中 包含 一 个 布尔 型 变量 和 一 个 互 斥 量 。 布 尔 型 变量 用 以 标识 
函数 init 是 否 曾 被 调用 过 ， 而 由 互 斥 量 来 控制 对 变量 的 访问 。 为 简化 函 
数 实现 ， 可 以 忽略 诸如 initO 调 用 失败 或 者 在 由 线程 初次 调用 时 被 取消 的 
情况 〈 亦 即 ， 无 需 为 此 做 特别 设计 ， 如 果真 友和 后 了 此 类 事件 ， 那 么 下 一 
个 调用 one time _initO 的 线程 会 重新 调用 init(D)) 。 


31-2. 使 用 线程 特有 数据 重新 实现 线程 安全 版 的 函数 dirname() 和 
basename() (18.147) 。 














第 32 章 ”线程 : 线程 取消 


在 通常 情况 下 ， 程 序 中 的 多 个 线程 会 并 发 执行 ， 每 个 线程 各 司 其 
职 ， 直 全 其 决意 退出 ， 随 即 会 调用 函数 pthread_exit(0) 或 者 从 线程 启动 函 
数 中 返回 。 


有 时 候 ， 需 要 将 一 个 线程 取消 《〈cancel) 。 亦 即 ， 向 线程 发 送 一 个 
请 求 ， 要 求 其 立即 退出 。 比 如 ， 一 组 线程 正在 执行 一 个 运算 ， 一 旦 某 个 
线程 检测 到 错误 发 生 ， 需 要 其 他 线程 退出 ， 取 消 线 程 的 功能 这 时 束 派 上 
用 场 。 还 有 一 种 情况 ， 一 个 由 图 形 用 户 界 面 GUI) 驱动 的 应 用 程序 可 
能 会 提供 一 个 “取消 ”按钮 ， 以 便 用 户 可 以 终止 后 台 茶 一 线程 正在 执行 的 


0 T E 





本 章 就 来 讨论 POSIX 线 程 的 取消 机 制 。 





32.1 取消 一 个 线程 
函数 pthread_cancel0 向 由 thread 指 定 的 线程 发 送 一 个 取消 请 求 。 





#include <pthread.h> 


int pthread_cancel(pthread_t thread); 





Returns 0 on success, or a positive error number on error 





发 出 取消 请 求 后 ， 函 数 pthread_cancel0 当 即 返回 ， 不 会 等 待 目 标 线 
程 的 退出 。 


准确 地 说 ， 目 标 线程 会 发 生 什 么 ? 何 时 发 生 ? 这 些 都 取决 于 下 节 将 
要 述 及 的 线程 取消 状态 (state) 和 类 型 (type) 。 


32.2 取消 状态 及 类 型 


函数 pthread_setcancelstate0 和 pthread_setcanceltype0O 会 设 定 标志 ， 


允许 线程 对 取消 请 求 的 啊 应 过 程 加 以 控制 。 





#include <pthread.h> 


int pthread_setcancelstate(int siale, int *oldstate); 
int pthread_setcanceltype(int type, int *oldtype); 


Both return 0 on success, or a positive error number on error 











函数 pthread_setcancelstate0O) 会 将 调用 线程 的 取消 性 状态 置 为 参数 
state 所 给 定 的 值 。 该 参数 的 值 如 下 。 


PIHREAD_CANCEL_DISABLE 


线程 不 可 取消 。 如 果 此 类 线程 收 到 取消 请 求 ， 则 会 将 请 求 挂 起 ， 直 
至 将 线程 的 取消 状态 置 为 局 用 。 


PTHREAD_CANCEL_ENABLE 

线程 可 以 取消 。 这 是 新 建 线程 取消 性 状态 的 默认 值 。 

线程 的 前 一 取消 性 状态 将 返回 至 参数 oldstate 所 指 癌 的 位 置 。 

如 果 对 前 一 状态 没有 兴趣 ，Linux 人 允许 将 oldstate 置 为 NULL。 在 很 多 
其 他 的 系统 实现 中 ， 情 况 也 是 如 此 。 不 过 ，SUSv3 并 没有 规范 这 一 特 
性 ， 所 以 要 保证 应 用 的 可 移植 性 ， 就 不 能 依赖 这 一 特性 。 应 该 总 是 为 
oldstate 设 置 一 个 非 NULL 的 值 。 


如 果 线 程 执 行 的 代码 片段 需要 不 间断 地 一 气 呵 成 ， 那 么 临时 屏 闭 线 
程 的 取消 性 状态 (PTHREAD_CANCEL DISABLE) 就 变 得 很 有 必要 。 


如 果 线 程 的 取消 性 状态 为 “局 
用 ”(PTHREAD_CANCEL_ENABLE) ， 那 么 对 取消 请 求 的 处 理 则 取决 
于 线程 的 取消 性 类 型 ， 访 类 型 可 以 通过 调用 函数 pthread_setcanceltypeO) 
时 的 参数 type 给 定 。 参 数 type 有 如 下 值 : 


PIHREAD_CANCEL_ASYNCHRONOUS 


可 能 会 在 任何 时 点 〈 也 许 是 立即 取消 ， 但 不 一 定 ) 取消 线程 。 
取消 的 应 用 场景 很 少 ， 将 延 后 至 32.6 节 再 做 讨论 。 


PTHREAD_CANCEL_DEFERED 


取消 请 求 保持 挂 起 状态 ， 直 至 到 达 取 消 点 (cancellation point, Ji, F 
W) 。 这 也 是 新 建 线程 的 缺 省 类 型 。 后 续 各 节 将 介绍 延迟 取消 
(deferred cancelability) 的 更 多 细节 。 


线程 原 有 的 取消 类 型 将 返回 至 参数 oldtype 所 指 癌 的 位 置 。 





+ 
Sa 








+ ef Mpthread_setcancelstate()HJZMoldstateze (th, 40 
果 不 关 心 原 有 取消 类 型 ， 许 多 系统 实现 (包括 Linux〉 人 允许 
将 oldtype 置 为 NULL。 同 样 ，SUSv3 也 没有 规范 这 一 行为 ， 
所 以 需要 保障 可 移植 性 的 应 用 不 应 使 用 这 一 特性 ， 应 该 总 
是 为 oldtype 设 置 一 个 非 NULL 值 。 


当 某 线程 调用 forkO0 时 ， 子 进程 会 继承 调用 线程 的 取消 性 类 型 及 状 
态 。 而 当 某 线程 调用 exec() 时 ， 会 将 新 程序 主线 程 的 取消 性 类 型 及 状态 
分 别 重 置 为 PTHREAD_CANCEL NABLE 和 
PTHREAD CANCEL DEFERRED. 





32.33 取消 点 


知 将 线程 的 取消 性 状态 和 类 型 分 别 置 为 启用 和 延迟 ， 仅 当 线 程 抵达 
某 个 取消 点 (cancellation point) 时 ， 取 消 请 求 才 会 起 作用 。 取 消 点 即 是 
对 由 实现 定义 的 一 组 函数 之 一 加 以 调用 。 


SUSv3 规 定 ， 实 现 若 提 供 了 表 32-1 中 所 列 的 函数 ， 则 这 些 函 数 必须 
征 取消 点 。 其 中 的 大 部 分 函数 都 有 能 力 将 线程 无 限期 地 堵塞 起 来 。 


表 32-1: SUSv3 规 定 必 须 是 取消 点 的 函数 


除 表 32-1 所 列 函 数 之 外 ，SUSv3 还 指定 了 大 量 函 数 ， 系 统 实现 可 以 
将 其 定义 为 取消 点 。 其 中 包括 stdio 函 数 、dlopen API. syslog API, 
nftw(O、popen0、semopO、unlink0， 以 及 从 诸如 utmp 之 类 的 系统 文件 














中 获取 信息 的 各 种 函数 。 可 移植 应 用 程序 必须 正确 处 理 这 一 情况 : 线程 
在 调用 这 些 函数 时 有 可 能 遭 到 取消 。 


SUSv3 规 定 ， 除 了 上 述 两 组 必须 或 可 能 是 可 取消 点 的 函数 之 外 ， 不 
得 将 标准 中 的 任何 其 他 函数 视 为 取消 点 〈 亦 即 ， 调 用 这 些 函 数 不 会 招致 
线程 取消 ， 可 移植 程序 无 需 加 以 处 理 ) 。 


SUSv4 在 必须 的 可 取消 点 函数 列表 中 增加 了 openat()， 并 移 除了 函数 
sigpause0 〈 将 其 移 至 “可 能 的 ”取消 点 函数 列表 中 ) 和 函数 usleep() (已 
从 标准 中 删除 ) 。 





系统 实现 可 随意 将 标准 并 未 规范 的 其 他 函数 标记 为 取 
消 点 。 任 何 可 能 造成 墙 蜗 的 函数 “有 可 能 是 因为 需要 访问 
文件 ) 部 是 取消 点 的 理想 候选 对 象 。 出 于 这 一 理由 ，glibc 
将 其 中 的 许多 非 标 准 函 数 标 记 为 取消 点 。 








线程 一 旦 收 到 取消 请 求 ， 且 启用 了 取消 性 状态 并 将 类 型 置 为 延迟 ， 
则 其 会 在 下 次 抵达 取消 点 时 终止 。 如 果 该 线程 尚未 分 离 《not 
detached) ， 那 么 为 防止 其 变 为 僵尸 线程 ， 必 须 由 其 他 线程 对 其 进行 连 
fe Goin) 。 连 接 之 后 ， 返 回 至 函数 pthread_join0 中 第 二 个 参数 的 将 是 
一 个 特殊 值 : PTHREAD_CANCELED。 


示例 程序 


程序 清单 32-1 是 一 个 使 用 pthread_cancel0 的 简单 例子 。 主 程序 创建 
一 个 线程 来 执行 无 限 循环 ， 每 次 都 在 休眠 一 秒 后 打印 循环 计数 器 的 值 。 
〈 仅 当 回 其 发 送 取消 请 求 或 者 进程 退出 时 ， 访 线程 才 会 终止 。) 同时 ， 
随即 同 新 创建 的 线程 发 送 取消 请 求 。 程 序 运 行 结 
HP: 


$ ./t_pthread_cancel 
New thread started 
Loop 1 

Loop 2 

Loop 3 

Thread was canceled 





程序 清单 32-1: 调用 pthread_cancel0 取 消 线程 


Listing 32-1: Canceling a thread with pthread_cancel() 


threads/thread_cancel.c 


#include <pthread.h> 
#include "tlpi_hdr.h" 


static void * 
threadFunc(void *arg) 


{ 
int j; 


printf("New thread started\n"); /* May be a cancellation point */ 
for (j = 1; ; j++) { 
printf("Loop %d\n", j); /* May be a cancellation point */ 
sleep(1); /* A cancellation point */ 


/* NOTREACHED */ 
return NULL; 


} 
int 
main(int argc, char *argv[]) 
{ 
pthread_t thr; 
int s; 
void *res; 
s = pthread_create(&thr, NULL, threadFunc, NULL); 
if (s != 0) 
errExitEN(s, "pthread create"); 
sleep(3); /* Allow new thread to run a while */ 
s = pthread _cancel(thr); 
if (s != 0) 
errExitEN(s, “pthread_cancel"); 
s = pthread_join(thr, &res); 
if (s != 0) 
errExitEN(s, "pthread_join"); 
if (res == PTHREAD CANCELED) 
printf("Thread was canceled\n"); 
else 
printf("Thread was not canceled (should not happen! )\n"); 
exit(EXIT_SUCCESS) ; 
} 


threads/thread cancel.c 


32.4 线程 可 取消 性 的 检测 


在 程序 清单 32-1 中 ， 由 main0 创 建 的 线程 会 执行 到 属于 取消 点 的 函 
A 〈sleep0 属 于 取消 点 ，printfO 可 能 也 是 ) ， 因 而 会 接受 取消 请 求 。 不 
过 ， 假 设 线程 执行 的 是 一 个 不 含 取消 点 的 循环 (计算 密集 型 [compute- 
bound] 循环 ) ， 这 时 ， 线 程 永 远 也 不 会 啊 应 取消 请 求 。 


函数 pthread_testcancel0 的 目的 很 简单 ， 束 是 产生 一 个 取消 点 。 线 程 
如 果 已 有 处 于 挂 起 状态 的 取消 请 求 ， 那 么 只 要 调用 该 函数 ， 线 程 就 会 随 
之 终止 。 





#include <pthread.h> 


void pthread testcancel (void); 














当 线程 执行 的 代码 未 包含 取消 点 时 ， 可 以 周期 性 地 调用 
pthread_testcancel()， 以 确保 对 其 他 线程 向 其 发 送 的 取消 请 求 做 出 及 时 响 
应 。 


32.5 ”清理 函数 (cleanup handler) 


一 旦 有 处 于 挂 起 状态 的 取消 请 求 ， 线 程 在 执行 到 取消 点 时 如 果 只 是 
草草 收场 ， Se a (Pie Re) 置 于 一 种 
不 一 致 状态 能 导致 进程 中 其 他 线程 产生 错误 结果 、 死 锁 ， 甚 至 造成 
FEJT HA I o a a 线程 可 以 设置 一 个 或 多 个 清理 函数 ， 当 线 
程 进取 消 时 会 是 动 运行 这 些 函 数 ， 在 线程 终止 之 前 可 执行 诸如 修改 全 局 
变量 ， 解 锁 互 斥 量 等 动作 。 


每 个 线程 都 可 以 拥有 一 个 清理 函数 栈 。 当 线程 站 取消 时 ， 会 治 该 栈 
目 顶 问 下 依次 执行 清理 函数 ， 首 先 会 执行 最 近 设 置 的 图 数 ， 接 着 是 次 新 
的 函数 ， 以 此 类 推 。 当 执行 完 所 有 清理 浮 数 后 ， 线 程 终 止 。 


函数 pthread_cleanup_push() 和 pthread_cleanup_pop0 分 别 负 责问 调 
用 线程 的 清理 函数 栈 添 加 和 移 除 清理 函数 。 





#include <pthread.h> 


void pthread_cleanup_push(void (*routine)(void*), void *arg); 
void pthread cleanup _pop(int execute); 











pthread_ cleanup_push() 会 将 参数 routine 所 含 的 函数 地 址 添加 到 调用 
线程 的 清理 函数 栈 顶 。 参 数 routine 是 一 个 函数 指针 ， 格 式 如 下 : 


void 
routine(void *arg) 


/* Code to perform cleanup */ 


} 


PAT pthread _ cleanup_pushO 时 给 定 的 arg 值 ， 会 作为 调用 清理 函数 
时 的 参数 。 其 参数 类 型 为 void*， 如 果 强 制 装 换 使 用 得 当 ， 那 么 通过 该 
参数 可 以 传 入 各 种 类 型 的 数据 。 


通常 ， 线 程 如 在 执行 一 段 特殊 代码 时 遭 到 取消 ， 才 需要 执行 清理 动 
作 。 如 果 线 程 顺利 执行 完 这 段 代 码 而 未 遭 取 消 ， 那 么 就 不 再 需要 清理 。 
所 以 ， 每 个 对 pthread_cleanup_pushO 的 调用 都 会 伴随 着 对 
pthread_cleanup_popO 的 调用 。 此 函数 从 清理 函数 栈 中 移 除 最 顶层 的 函 


数 。 如 果 参 数 execute 非 零 ， 那 么 无 论 如 何 都 会 执行 清理 函数 。 在 函数 
未 遭 取消 而 又 希望 执行 清理 动作 的 情况 下 ， 这 会 非 浓 方便。 


尽管 这 里 把 pthread_cleanup_pushO0 和 pthread_cleanup_popO 描 述 为 函 
数 ，SUSv3 却 允许 将 它们 实现 为 宏 (macro) ， 可 展开 为 分 别 由 {和 } 所 
包 庄 的 语句 序列 。 并 非 所 有 的 UNIX 都 这 样 做 ， 不 过 包括 Linux 在 内 的 很 
多 系统 都 是 使 用 宏 来 实现 的 。 这 意味 着 ，pthread_cleanup_push() 和 与 其 
配对 的 pthread_cleanup_popO 属 于 同一 个 语法 块 ， 必 须 一 一 对 应 。 (一 
有 旦 以 此 方式 来 实现 pthread_cleanup_pushO0 和 pthread_cleanup_popO0， 在 对 
两 者 的 调用 间 所 声明 的 变量 ， 其 作用 域 将 受 限 于 这 一 语法 块 。) 例如 ， 
以 下 代码 就 不 正确 : 


pthread_cleanup_push(func, arg); 








if (cond) { 
pthread_cleanup_pop(0); 
} 


为 便于 编码 ， 若 线程 因 调用 pthread_exit0 而 终止 ， 则 也 会 自动 执行 
尚未 从 清理 函数 栈 中 弹出 (pop) 的 清理 函数 。 线 程 正常 返回 〈return ) 
时 不 会 执行 清理 函数 。 


示例 程序 


程序 清单 32-2 提 供 了 一 个 使 用 清理 函数 的 简单 例子 。 主 程序 创建 线 
程 @)， 线 程 首先 分 配 一 块 内 存 @)， 并 将 其 地 址 存储 于 buf 中 ， 接 着 锁定 
互 斥 量 mtx 由 。 因 为 线程 可 能 会 遭 到 取消 ， 所 以 调用 
pthread_cleanup_pushO 扣 设置 清理 函数 ， 并 将 存储 于 buf 中 的 地 址 作为 参 
数 传 入 。 如 果 执 行 到 清理 函数 ， 那 么 清理 函数 会 释放 内 存 也 并 解锁 互 斥 


量 人 


线程 接着 进入 循环 ， 等 待 对 条 件 变 量 cond 的 通知 @)。 取 决 于 可 执行 
程序 是 舍 带 有 命令 行 参数 ， 此 循环 会 以 以 下 两 种 方式 结 


© AMO TER, NW main0G@) 函 数 取 消 线程 。 此 时 ， 取 消 操作 发 
生 在 对 pthread_cond_wait0(G9 的 调用 中 ， 此 函数 可 见于 程序 清单 32-1 
中 ， 属 于 取消 点 。 作 为 取消 动作 的 一 部 分 ， 会 自动 调用 由 
pthread_cleanup_push0O 设 置 的 清理 函数 。 

。 如 果 指 定 了 命令 行 参数 ， 那 么 在 将 全 局 变量 glob 设 置 为 非 零 后 ， 通 











知 条 件 变量 @。 此 时 ， 线 程 会 一 直 执行 到 
pthread_cleanup_popOG@I， 因 为 向 此 函数 传 入 了 非 零 参 数 ， 所 以 依 
然 会 调用 清理 函数 。 












































清理 函数 











程序 清单 32-2: 使 








aw. 














threads/thread_cleanup.c 
#include <pthread.h> 
#include “tlpi hdr.h" 


static pthread cond t cond = PTHREAD COND INITIALIZER; 
static pthread_mutex_t mtx = PTHREAD MUTEX_INITIALIZER; 
static int glob = 0; /* Predicate variable */ 


static void /* Free memory pointed to by ‘arg’ and unlock mutex */ 
cleanupHandler(void *arg) 


int s; 


printf("cleanup: freeing block at %p\n", arg); 
free(arg); 


printf("cleanup: unlocking mutex\n"); 
s = pthread_mutex_unlock(&mtx) ; 
if (s != 0) 
errExitEN(s, "pthread mutex_unlock"); 


} 


static void * 
threadFunc(void *arg) 


{ 
int s; 
void *buf = NULL; /* Buffer allocated by thread */ 
buf = malloc(0x10000) ; /* Not a cancellation point */ 


printf("thread: allocated memory at %p\n", buf); 


s = pthread_mutex_lock(&mtx); /* Not a cancellation point */ 
if (s != 0) 
errExitEN(s, "pthread mutex lock"); 


pthread_cleanup_push(cleanupHandler, buf); 


while (glob == 0) { 
s = pthread cond wait(&cond, &mtx); /* A cancellation point */ 
if (s != 0) 
errExitEN(s, "pthread cond wait"); 


} 
printf("thread: condition wait loop completed\n"); 
pthread_cleanup_pop(1); /* Executes cleanup handler */ 


return NULL; 
} 


int 
main(int argc, char *argv[ ]) 
pthread t+ thr; 


void *res; 
int s; 


二 s = pthread _create(&thr, NULL, threadFunc, NULL); 
if (s != 0) 
errExitEN(s, "pthread_create"); 


sleep(2); /* Give thread a chance to get started */ 
if (argc == 1) { /* Cancel thread */ 
printf("main: about to cancel thread\n"); 
© s = pthread_cancel(thr); 
if (s != 0) 
errExitEN(s, “pthread cancel"); 
} else { /* Signal condition variable */ 
printf ("main: about to signal condition variable\n"); 
glob = 1; 
w s = pthread_cond_signal(&cond); 
if (s != 0) 
errExitEN(s, “pthread_cond_signal"); 
} 
a s = pthread_join(thr, &res); 
if (s != 0) 


errExitEN(s, "pthread_join"); 
if (res == = PTHREAD CANCELED) 
printf(“main: thread was canceled\n"); 
else 
printf("main: thread terminated normally\n"); 


exit(EXIT SUCCESS); 


threads/thread_cleanup.c 


主 程序 与 遭 终 止 线程 建立 连接 中， 并 报告 线程 是 遭 到 取消 还 是 正常 


如 有 果 执 行程 序 清单 32-2 中 程序 且 不 市 任何 命令 行 参数 ， 那 么 
pr ES 用 pthread_cancel0， 清 理 函 数 也 会 得 以 自动 执行 。 输 出 
HP: 


$ ./thread_cleanup 

thread: allocated memory at 0x804b050 
main: about to cancel thread 
cleanup: freeing block at 0x804b050 
cleanup: unlocking mutex 

main: thread was canceled 


如 果 运 行 该 程序 且 带 有 命 ff 令 行 参 数 ， 那 么 main0 将 glob 设 置 为 1 并 通 
清理 函数 则 通过 pthread_cleanup_popO 的 调用 执行 ， 可 以 
到 如 下 结 














$ ./thread_cleanup s 


thread: 
main: 
thread: 
cleanup: 
cleanup: 
main: 


allocated memory at 0x804b050 
about to signal condition variable 
condition wait loop completed 
freeing block at 0x804b050 
unlocking mutex 

thread terminated normally 


32.6 ”异步 取消 


如 果 设 定 线程 为 可 异步 取消 时 (取消 性 类 型 为 
PTHREAD_CANCEL _ASYNCHRONOUS)， 可 以 在 任何 时 点 将 其 取消 
n 执行 任何 机 器 指令 时 ) ， 取 消 动作 不 会 拖延 到 下 一 个 取消 点 才 
HÍT o 


异步 取消 的 问题 在 于 ， 尽 管 清理 函数 依然 会 得 以 执行 ， 但 处 理 函 数 
却 无 从 得 知 线程 的 具体 状态 。 程 序 清单 32-2 采 用 了 延 时 取消 类 型 ， 只 有 
在 执行 到 pthread_cond_wait(0) 这 一 唯一 的 取消 点 时 ， 线 程 才 会 遭 到 取 
消 。 此 时 可 知 ， 己 将 buf 初 始 化 为 指 回 新 分 配 的 内 存 块 ， 并 有 旦 锁定 了 互 
斥 量 mtx。 不 过 ， 要 是 采用 异步 取消 ， 就 可 以 在 任意 点 取消 线程 ( 例 
如 ， 调 用 mallocO 之 前 ， 调 用 mallocO0 与 锁定 互 斥 量 之 间 ， 或 者 锁定 互 斥 
量 之 后 ) 。 清 理 函 数 无 法 知道 将 在 哪里 发 生 取 消 动作 ， 或 者 准确 地 来 
说 ， 清 理 函 数 不 清 楚 需 要 执行 哪些 清理 步 又。 此 外 ， 线 程 也 很 可 能 在 对 
mallocO 的 调用 期 间 被 取消 ， 这 极 有 可 能 造成 后 续 的 混乱 〈 见 7.1.3 
pe 


作为 一 般 性 原则 ， 可 异步 取消 的 线程 不 应 该 分 配 任 何 资 源 ， 也 不 能 
获取 互 斥 量 或 馈 。 这 导致 大 量 库 函数 无 法 使 用 ， 其 中 就 包括 Pthreads 杨 
数 的 大 部 分 。 (SUSV3 中 有 3 处 例外 pthread_cancel()、 
pthread_setcancelstate() 以 及 pthread_setcanceltype()， 规 范 明 确 要 求 将 它 
们 实现 为 “异步 取消 安全 Casync-cancel-safe) ”， 亦 即 ， 实 现 必须 确保 在 
可 异步 取消 的 线程 中 可 以 安全 调用 它们 。) 换言之 ， 异 步 取消 功能 鲜 有 
应 用 场景 ， 其 中 之 一 就 是 : 取消 在 执行 计算 密集 型 循环 的 线程 。 








32.7 总结 


函数 pthread_cancel0 人 允许 某 线 程 癌 另 一 个 线程 发 送 取消 请 求 ， 要 求 
目标 线程 终止 。 


目标 线程 如 何 响应 ， 取 决 于 其 取消 性 状态 和 类 型 。 如 果 禁 用 线程 的 
取消 性 状态 ， 那 么 请 求 会 保持 挂 起 (pending) 状态 ， 直 至 将 线程 的 取 
消 性 状态 置 为 启用 。 如 果 局 用 取消 性 状态 ， 那 么 线程 何 时 响应 请 求 则 依 
赖 于 取消 性 类 型 。 若 类 型 为 延迟 取消 ， 则 在 线程 下 一 次 调用 某 个 取消 点 
(由 SUSv3 标 准 所 规定 的 一 系列 函数 之 一 ) 时 ， 取 消 发 生 。 如 果 为 异步 
取消 类 型 ， 取 消 动作 随时 可 能 发 生 〈 鲜 有 使 用 ) 。 

线程 可 以 设置 一 个 清理 函数 栈 ， 其 中 的 清理 函数 属于 由 开发 人 员 秆 
义 的 函数 ， 当 线程 遭 到 取消 时 ， 会 上 自动 调用 这 些 函 数 以 执行 清理 工作 
〈《 例 如， 恢复 共享 变量 状态 ， 或 解锁 互 斥 量 ) o 
更 多 信息 

请 参考 列 于 29.10 节 的 深入 信息 来 源 。 














33H A: FSA 


本 章 将 就 POSIX 线 程 库 各 方面 的 细节 做 深入 探讨 ， 涉 及 线程 与 传统 
UNIX API 一 一 尤其 是 信号 以 及 进程 控制 原 语 (fork()、exec(O， 和 _exit()) 
一 一 之 间 的 交互 ， 同 时 对 Linux 上 的 两 个 POSIX 线 程 实现 CLinuxThreads 
AINPTL) 加 以 概括 ， 并 特别 指出 了 这 些 实 现 与 SUSv3 Pthreads 标 准则 的 
偏差 所 在 。 





33.1 ”线程 栈 


创建 线程 时 ， 每 个 线程 都 有 一 个 属于 自己 的 线程 栈 ， 且 大 小 固定 。 
在 Linux/x86-32 架 构 上 ， 除 主线 程 外 的 所 有 线程 ， 其 栈 的 缺 省 大 小 均 为 
2MB。 【在 一 些 64 位 架构 下 ， 默 认 尺 寸 要 大 一 些 ， 例 如 ，IA-64 有 
aoa > 为 了 应 对 栈 的 增长 (参考 图 29-1) ， 主 线程 栈 的 空间 要 大 出 
二 o 


偶尔 ， 也 需要 改变 线程 栈 的 大 小 。 在 通过 线程 属性 对 象 创 建 线 程 
时 ， 调 用 函数 pthread_attr_setstacksize0 所 设置 的 线程 属性 〈29.8 节 ) 决 
定 了 线程 栈 的 大 小 。 而 使 用 与 之 相关 的 另 一 函数 pthread_attr_setstack()， 
可 以 同时 控制 线程 栈 的 大 小 和 位 置 ， 不 过 设置 栈 的 地 址 将 降低 程序 的 可 
移植 性 。 手 册页 (manual page) 提供 了 对 这 些 函 数 的 具体 说 明 。 


更 大 的 线程 栈 可 以 容纳 大 型 的 自动 变量 或 者 深度 的 骨 套 函数 调用 
(也 许 是 递归 调用 )〉 ， 这 是 改变 每 个 线程 栈 大 小 的 原因 之 一 。 而 另 一 方 
面 ， 应 用 程序 可 能 希望 减 小 每 个 线程 栈 ， 以 便 进程 可 以 创建 更 多 的 线 
程 。 例 如 ， 在 x86-32 RAF, HP ORI) 可 访问 的 虚拟 地 址 空间 是 
3GB， 而 2MB 的 缺 省 栈 大 小 则 意味 着 最 多 只 能 创建 1500 个 线程 。 (更 
为 准确 的 最 大 值 还 视 乎 文本 段 、 数 据 段 、 共 享 函数 库 等 对 虚拟 内 存 的 消 
耗 量 。) 特定 架构 的 系统 上 ， 可 采用 的 线程 栈 大 小 最 小 值 可 以 通过 调用 
sysconf(_SC_THREAD_STACK_MION) 来 确定 。 在 Linux/x86-32 上 的 
NPTL 实 现 中 ， 该 调用 返回 16384。 














在 NPTL 线 程 实现 中 ， 如 果 对 线程 栈 尺寸 资源 限制 
(RLIMIT_STACK) 的 设置 不 同 于 unlimited， 那 么 创建 线 
程 时 会 以 其 作为 默认 值 。 对 该 限制 的 设置 必须 在 运行 程序 
之 前 ， 通 常 通过 执行 shell 内 建 命令 ulimit-s 完 成 (在 C shell 
下 命令 为 limit stacksize) 。 在 主 程序 中 调用 setrlimit0 来 设 
置 限制 的 办 法 可 能 行 不 通 ， 因 为 NPTL 在 调用 main0 之 前 的 
运行 时 初始 化 期 间 就 已 经 确定 了 默认 的 栈 大 小 。 





33.2 AREA (ES 


UNIX 信 号 模型 是 基于 UNIX 进 程 模型 而 设计 的 ， 问 世 比 Pthreads 要 
早 几 十 年 。 自 然而 然 ， 信 号 与 线程 模型 之 间 存 在 一 些 明 显 的 冲突 。 主 要 
是 因为 ,一 方面 ， 针 对 单线 程 进程 要 保持 传统 的 信号 语义 (Pthreads 不 
应 改变 传统 进程 的 信号 语义 ) ， 与 此 同时 ， 又 需要 开发 出 适用 于 多 线程 
进程 环境 的 新 信号 模型 。 


信号 与 线程 模型 之 间 的 差异 意味 着 ， 将 二 者 结合 使 用 ， 将 会 非常 复 
杂 ， 应 尽 可 能 加 以 避免 。 尽 管 如 此 ， 有 的 时 候 还 是 必须 在 多 线程 程序 中 
处 理 信号 问题 。 本 节 将 讨论 信号 与 线程 间 的 交互 ， 并 描述 在 多 线程 程序 
中 处 理 信号 的 各 种 有 效 函 数 。 


33.2.1 UNIX 信 号 模型 如 何 映 射 到 线程 中 


要 了 解 UNIX 信 号 如 何 映 射 到 Pthreads 模 型 ， 就 需要 了 解 ， 信 号 模型 
的 哪些 方面 属于 进程 层面 〈 由 进程 中 的 所 有 线程 所 共享 ) ， 哪 些 方面 是 
属于 进程 中 的 单个 线程 层面 。 如 下 是 对 其 关键 点 的 汇总 。 


。 信号 动作 属于 进程 层面 。 如 果 某 进程 的 任 一 线程 收 到 任何 未 经 〈 特 
殊 ) 处 理 的 信号 ， 且 其 缺 省 动作 为 stop 或 terminate， 那 么 将 停止 或 
者 终止 该 进程 的 所 有 线程 。 
对 信号 的 处 置 属于 进程 屋面， 进程 中 的 所 有 线程 共享 对 每 个 信号 的 
处 置 设置 。 如 果菜 一 线程 使 用 函数 sigaction() 为 某 类 信号 (比如 ， 
SIGINT) 创建 了 处 理 函 数 ， 那 么 当 收 到 SIGINT 时 ， 任 何 线程 都 会 
去 调用 该 处 理 函 数 。 与 之 类 似 ， 如 果 将 对 信号 的 处 置 设置 为 忽略 
(ignore) ， 那 么 所 有 线程 都 会 忽略 该 信号 。 
言 号 的 发 送 既 可 针对 整个 进程 ， 也 可 针对 某 个 特定 线程 。 满 足 如 下 
三 者 之 一 的 信号 当 属 面向 线程 的 。 

o 信号 的 产生 源 于 线程 上 下 文中 对 特定 硬件 指令 的 执行 〈 即 22.4 

节 所 描述 的 硬件 异常 ， SIGBUS、SIGFPE、SIGILL 和 





























SIGSEGV) 。 
o 当 线 程 试图 对 已 断 开 的 (broken pipe) 管道 进行 写 操作 时 所 产 
生 的 SIGPIPE 信 和 号。 


o 由 函数 pthread_kill0 或 pthread_sigqueueO 所 发 出 的 信号 ， 这 些 
函数 《由 33.2.3 节 摘 述 ) 允许 线程 回 同一 进程 下 的 其 他 线程 发 


a Se 
由 其 他 机 制 产 生 的 所 有 信号 都 是 面 癌 进程 的 。 例 如 ， 其 他 进程 
通过 调用 kill0) 或 者 sigqueue() 所 发 送 的 信号 ;用户 键入 特殊 的 
终端 字符 所 产生 的 信号 ， 诸 如 SIGINT 和 SIGTSTP; 还 有 一 些 
信号 由 软件 事件 产生 ， 例 如 终端 窗口 大 小 的 调整 
(SIGWINCH) 或 者 定时 器 到 期 (例如 ，SIGALRM) 。 
当 多 线程 程序 收 到 一 个 信号 ， 且 该 进程 已 然 为 此 信和 号 创建 了 信和 号 处 
理 程 序 时 ， 内 核 会 任 选 一 条 线程 来 接收 这 一 信号 ， 并 在 该 线程 中 调 
用 信和 号 处 理 程 序 对 其 进行 处 理 。 这 种 行为 与 信号 的 原始 语义 保持 了 
一 致 。 让 进程 针对 单个 信号 重复 处 理 多 次 是 没有 意义 的 。 
ao ft (mask) 是 针对 每 个 线程 而 言 。 (对 于 多 线程 程序 来 说 ， 
并 不 存在 一 个 作用 于 整个 进程 范围 的 信号 掩 码 ， 可 以 管理 所 有 线 
程 。) 使 用 Pthreads API 所 定义 的 函数 pthread_sigmask()， 各 线程 可 
独立 阻止 或 放行 各 种 信和 号。 通过 操作 每 个 线程 的 信号 掩 码 ， 应 用 程 
序 可 以 控制 哪些 线程 可 以 处 理 进程 收 到 的 信号。 
针对 为 整个 进程 所 挂 起 (pending) 的 信号 ， 以 及 为 每 条 线程 所 挂 
起 的 信号 ， 内 核 都 分 别 维护 有 记录 。 调 用 函数 sigpendingO 会 返回 为 
整个 进程 和 当前 线程 所 挂 起 信号 的 并 集 。 在 新 创建 的 线程 中 ， 每 线 
程 的 挂 起 信号 集合 初始 时 为 空 。 可 将 一 个 针对 线程 的 信号 仅 回 目标 
线程 投 送 。 如 果 该 信号 遭 线程 阻 塞 ， 那 么 它 会 一 直 保 持 挂 起 ， 直 至 
线程 将 其 放行 〈 或 者 线程 终止 ) 。 
如 果 信 和 号 处 理 程序 中 断 了 对 pthread_mutex_lockO 的 调用 ， 那 么 该 调 
用 总 是 会 目 动 重 新 开始 。 如 果 一 个 信号 处 理 函 数 中 断 了 对 
pthread_cond_wait() 的 调用 ， 则 该 调用 要 么 自动 重新 开始 (Linux 就 
是 如 此 ) ， 要 么 返回 0， 表 示 遭 遇 了 假 唤 醒 ( 如 30.2.3 节 所 述 ， 此 
时 ， 设 计 展 好 的 应 用 程序 会 重新 检查 相应 的 判断 条 件 并 重新 发 起 调 
FA) 。SUSv3 对 这 两 个 函数 的 行为 要 求 与 此 处 的 描述 一 致 。 
备 选 信号 栈 是 每 线程 特有 的 (参考 21.3 闻 对 函数 sigaltstack() 的 挡 
述 ) 。 新 创建 的 线程 并 不 从 创建 者 处 继承 备 选 信号 栈 。 




















更 确切 地 说 ，SUSv3 规 定 每 个 内 核 调 度 实体 (KSE) 
都 有 一 个 单独 的 备 选 信号 栈 。 在 按 1:1 比 例 实现 线程 的 系统 
中 ， 例 如 Linux， 每 一 个 线程 对 应 一 个 KSE( 见 33.4 节 )。 











33.2.2 ”操作 线程 信号 掩 码 


刚 创 建 的 新 线程 会 从 其 创建 者 处 继承 信号 掩 码 的 一 份 找 贝 。 线 程 可 
以 使 用 pthread_sigmask() 来 改变 或 /并 获取 当前 的 信号 掩 码 。 








#include <signal.h> 


int pthread sigmask(int how, const sigset t *set, sigset t *oldset); 





Returns 0 on success, or a positive error number on error 





除了 所 操作 的 是 线程 信号 掩 码 之 外 ，pthread_sigmask() 与 
sigprocmaskO 的 用 法 完全 相同 〈 见 20.10 节 ) 。 


SUSv3 特 别 指出 ， 注 明 在 多 线程 程序 中 使 用 函数 
sigprocmask(0， 其 结果 是 未 定义 的 ， 也 无 法 保证 程序 的 可 
移植 性 。 事 实 上 ， 函 数 sigprocmask0 和 pthread_sigmaskO 在 
包括 Linux 在 内 的 很 多 系统 实现 中 是 相同 的 。 





33.2.3” 癌 线 程 友 送信 号 


函数 pthread_kill0 回 同一 进程 下 的 另 一 线程 发 送信 号 sig。 目 标 线程 
由 参数 thread 标 识 。 





#include <signal.h> 


int pthread_kill(pthread_t éhread, int sig); 





Returns 0 on success, or a posilive error number on error 





因为 仅 在 同一 进程 中 可 保证 线程 ID 的 唯一 性 (参见 29.5 节 ) ， 所 以 
无 法 调用 pthread_kil0 回 其 他 进程 中 的 线程 发 送信 和 号。 


在 实现 函数 pthread_kill0 时 ， 使 用 了 Linux 特 有 的 
tgkill (tgid, tid, sig) 系统 调用 ， 将 信号 sig 发 送 给 由 
tid《〈 由 gettidO 所 返回 的 内 核 线程 ID) 标识 的 线程 ， 该 线程 
从 属于 由 tgid 标 识 的 线程 组 中 。 更 多 细节 ， 请 参考 tgkill(2) 
FH 


Linux 特 有 的 函数 pthread_sigqueueO 将 pthread_kill0 和 sigqueueO 的 功 
oa 〈 见 22.8.1 节 ) : 回 同 一 进程 中 的 另 一 线程 发 送 携 市 数据 的 
言 号 。 





#define GNU SOURCE 
#include <signal.h> 


int pthread_sigqueue(pthread_t thread, int seg, const union sigval value); 


Returns 0 on success, or a positive error number on error 











与 函数 pthread_kill0 一 样 ，sig 表 示 将 要 发 送 的 信号 ，thread 标 识 目 标 
线程 。 参 数 value 则 指定 了 伴随 信号 的 数据 ， 其 使 用 方式 与 函数 
sigqueue0 中 的 对 应 参数 相同 。 


函数 pthread_sigqueueO 从 2.11 版 开始 加 入 glibc 函 数 库 
中 ， 同 时 需要 内 核 的 文 持 。 始 于 Linux 2.6.31， 内 核 通过 系 
统 调用 rt_tgsigqueueinfo() 来 提供 这 一 支持 。 


33.2.4 ”妥善 处 理 异步 信号 


第 20 章 人 至 第 22 间 所 探讨 的 各 种 因素 〈 诸 如， 可 重 入 问题 、 重 局 遭 中 





斯 的 系统 调用 ， 以 及 避免 竞争 条 件 ) ， 当 使 用 信和 号 处 理 函 数 对 异步 产生 
的 信号 加 以 处 理 时 ， 这 些 都 将 导致 情况 变 得 复杂 。 另 外 ， 没 有 任何 
Pthreads API 属 于 异步 信号 安全 Casync-signal-safe) 函数 ， 均 无 法 在 信 
号 处 理 函 数 〈21.1.2 节 ) 中 安全 加 以 调用 。 因 为 这 些 原 因 ， 所 以 当 多 线 
程 应 用 程序 必须 处 理 异 步 产生 的 信号 时 ， 通 常 不 应 该 将 信号 处 理 函 数 作 
为 接收 信号 到 达 的 通知 机 制 。 相 反 ， 推 荐 的 方法 如 下 。 


。 所 有 线程 都 阻塞 进程 可 能 接收 的 所 有 异步 信号 。 最 简单 的 方法 是 ， 
在 创建 任何 其 他 线程 之 前 ， 由 主线 程 阻 塞 这 些 信号 。 后 续 创 建 的 每 
个 线程 都 会 继承 主线 程 信号 掩 码 的 一 份 找 贝 。 

。 再 创建 一 个 专用 线程 ， 调 用 函数 sigwaitinfo()、sigtimedwait() 或 
sigwait() 来 接收 收 到 的 信号 。22.10 节 对 sigwaitinfo() 和 sigtimedwait() 
做 了 说 明 。 下 面 则 对 sigwait0 有 上 所 描述 。 


这 一 方法 的 优势 在 于 ， 同 步 接收 异步 产生 的 信号 。 当 接收 到 信和 号 
时 ， 专 有 线程 可 以 安全 地 修改 共享 变量 《在 互 斥 量 的 保护 之 下 ) ， 并 可 
调用 并 非 异 步 信 号 安全 (non-async-signal-safe) 的 函数 。 也 可 以 就 条 件 
变量 发 出 信号 ， 并 采用 其 他 线程 或 进程 的 通讯 及 同步 机 制 。 


函数 sigwait0 会 等 待 set 所 指 信号 集合 中 任 一 信号 的 到 达 ， 接 收 该 信 
号 ， 且 在 参数 sig 中 将 其 返回 。 
































#include <signal.h> 


int sigwait(const sigset_t *set, int *sig); 








Returns 0 on success, OT a positive error number on error 





除了 以 下 不 同 以 外 ，sigwait() 的 操作 与 sigwaitinfo() 相 同 。 


。 国 数 sigwaitO 只 返回 信号 编号 ， 而 非 返 回 一 个 描述 信号 信息 的 
siginfo_t 类 型 结构 。 

。 并 且 返 回 值 与 其 他 线程 相关 函数 保持 一 致 〈 而 非 传 统 UNIX 系 统 调 
用 返回 的 0 或 -1) 。 


如 有 多 个 线程 在 调用 sigwait0 等 竺 同一 信号 ， 那 么 当 信和 号 到 达 时 只 
有 一 个 线程 会 实际 接收 到 ， 也 无 法 确定 收 到 信和 号 的 会 是 哪 条 线程 。 








33.3 ”线程 和 进程 控制 


与 信号 机 制 类 似 ，execO、fork0 和 exitO 的 问世 均 早 于 Pthreads 
T 接 下 来 的 段落 将 指出 在 多 线程 程序 中 使 用 此 类 系统 调用 所 应 关注 
JAH o 


线程 和 exec() 


只 要 有 任 一 线程 调用 了 exec0O 系 列 函 数 之 一 时 ， 调 用 程序 将 被 完全 
蔡 换 。 除 了 调用 exec0 的 线程 之 外 ， 其 他 所 有 线程 都 将 立即 消失 。 没 有 
任何 线程 会 针对 线程 特有 数据 执行 解构 函数 (destructor) ， 也 不 会 调用 
清理 函数 〈cleanup handler) 。 访 进程 的 所 有 互 斥 量 〈 为 进程 私有 ) 和 
调用 exec0O 之 后 ， 调 用 线程 的 线程 ID 是 
\ 确 定 的 。 


线程 和 fork() 


当 多 线程 进程 调用 fork0 时 ， 仅 会 将 发 起 调用 的 线程 复制 到 子 进 程 
中 。〈 子 进程 中 该 线程 的 线程 ID 与 父 进 程 中 发 起 fork0 调 用 线程 的 线程 
ID 相 一 致 。) 其 他 线程 均 在 子 进程 中 消失 ， 也 不 会 为 这 些 线程 调用 清理 
函数 以 及 针对 线程 特有 数据 的 解构 函数 。 这 将 导致 如 下 一 些 问 题 。 


。 虽然 只 将 发 起 调用 的 线程 复制 到 子 进程 中 ， 但 全 局 变量 的 状态 以 及 
所 有 的 Pthreads 对 象 〈 如 互 斥 量 、 条 件 变 量 等 ) 都 会 在 子 进程 中 得 
以 保留 。 (因为 在 父 进程 中 为 这 些 Pthreads 对 象 分 配 了 内 存 ， 而 子 
进程 则 获得 了 该 内 存 的 一 份 拷贝 。) 这 会 导致 很 棘手 的 问题 。 例 
如 ， 假 设 在 调用 forkO 时 ， 另 一 线程 已 然 锁定 了 某 一 互 斥 量 ， 且 对 
某 一 全 局 数据 结构 的 更 新 也 做 到 了 一 半 。 此 时 ， 子 进程 中 的 该 线程 
无 法 解锁 这 一 互 斥 量 〈 因 为 其 并 非 该 互 斥 量 的 属 主 ) ， 如 果 试 图 获 
取 这 一 互 斥 量 ， 线 程 会 遭 阻 塞 。 此 外 ， 子 进程 中 的 全 局 数据 结构 找 
s e 因为 对 其 进行 更 新 的 线程 在 执行 到 一 半 
IT YA 5 

因为 并 未 执行 清理 函数 和 针对 线程 特有 数据 的 解构 函数 ， 多 线程 程 
序 的 fork0O 调 用 会 导致 子 进 程 的 内 存 汇 漏 。 另 外 ， 子 进程 中 的 线程 
很 可 能 无 法 访问 《〈 父 进程 中 ) 由 其 他 线程 所 创建 的 线程 特有 数据 
项 ， 因 为 ( 子 进程 ) 没有 相应 的 引用 指针 。 




















由 于 这 些 问 题 ， 推 荐 在 多 线程 程序 中 调用 fork0 的 唯一 情况 是 : 其 
后 紧 跟 对 exec0 的 调用 。 因 为 新 程序 会 敢 症 原 有 内 存 ，exec0 将 导致 子 进 
程 的 所 有 Pthreads 对 象 消失 。 


对 于 那些 必须 执行 fork0， 而 其 后 又 无 exec0 跟 随 的 程序 来 说 ， 
Pthreads API 提 供 了 一 种 机 制 : fork 处 理 函 数 Chandler) 。 可 以 利用 函数 
pthread_atfork() 来 创建 fork 处 理 函 数 ， 格 式 如 下 : 


pthread atfork(prepare func, parent func, child func); 


每 一 次 pthread_atforkO 调 用 都 会 将 prepare_func 添 加 到 一 个 函数 列表 
中 ， 在 调用 fork() 创 建新 的 子 进程 之 前 ， 会 ( 按 与 注册 次 序 相 反 的 顺 
序 ) 自动 执行 该 函数 列表 中 的 函数 。 与 之 类 似 ， 会 将 parent_func 和 
child_func 添 加 到 一 函数 列表 中 ， 在 forkO 返 回 前 ， 将 分 别 在 父 、 子 进程 
中 《〈 按 注册 顺序 ) 上 自动 运行 。 


在 使 用 线程 的 函数 库 中 ， 有 时 候 fork 处 理 函 数 很 实用 。 如 果 没 有 这 
一 机 制 ， 对 于 那些 随意 调用 了 此 函数 库 和 fork0， 又 对 函数 库 创 建 的 其 
他 线程 一 无 所 知 的 应 用 程序 ， 函 数 库 还 真是 无 计 可 施 。 

调用 fork0O 所 产生 的 子 进程 从 调用 forkO 的 线程 处 继承 fork 处 理 函 
数 。 执 行 execO 期 间 ，fork 处 理 函 数 将 不 再 保留 《因为 处 理 函 数 的 代码 会 
FET rexec() Mite Pie B78 it) 。 


关于 fork 处 理 函 数 及 其 使 用 的 更 多 细节 可 以 参考 [Butenhof，1996]。 
































在 Linux 上 ， 如 果 使 用 NPTL 线 程 库 的 程序 执行 了 
vfork()， 那 么 将 不 再 调用 fork 处 理 函 数 。 不 过 ， 在 使 用 
LinuxThreads 程 序 的 同一 情况 下 却 有 效 。 


线程 与 exit() 
如 果 任 何 线程 调用 了 exit0， 或 者 主线 程 执行 了 return， 那 么 所 有 线 





程 都 将 消失 ， 也 不 会 执行 线程 特有 数据 的 解构 函数 以 及 清理 函数 。 


33.4 ”线程 实现 模型 


本 节 将 涉及 一 些 理论 知识 ， 简 要 阐述 实现 线程 API 的 3 种 不 同 模型 ， 
从 而 为 33.5 节 中 关于 Linux 线 程 实现 的 讨论 提供 必要 的 背景 知识 。 这 3 种 
实现 模型 的 差异 主要 集中 在 线程 如 何 与 内 核 调 度 实体 (KSE，Kernel 
Scheduling Entity〉 相 映射 。KSE 是 内 核 分 配 CPU 以 及 其 他 系统 资源 的 
Bias 单位 。 《在 早 于 线程 而 出 现 的 传统 UNIX 中 ，KSE 等 同 于 进 
To ) 


多 对 一 (M:1) 实现 (用 户 级 线程 ) 


在 M:1 线 程 实现 中 ， 关 乎 线程 创建 、 调 度 以 及 同步 《〈 互 斥 量 的 锁 
定 ， 条 件 变量 的 等 待 等 ) 的 所 有 细节 全 部 由 进程 内 用 户 空间 Cuser- 
| 
Ho 





M:1 实 现 的 优势 不 多 ， 其 中 最 大 的 优点 在 于 ， 许 多 线程 操作 (例如 
线程 的 创建 和 终止 、 线 程 上 下 文 间 的 切换 、 互 斥 量 以 及 条 件 变量 操作 ) 
速度 都 很 快 ， 因 为 无 需 切换 到 内 核 模 式 。 此 外 ， 由 于 线程 库 无 需 和 内核 文 
持 ， 所 以 M:1 实 现在 系统 间 的 移植 相对 要 容易 一 些 。 


不 过 ，M:1 实 现 也 存在 一 些 严 重 缺 陷 。 


当 一 线程 发 起 系统 调用 (如 read()) 时 ， 控 制 由 用 户 空间 的 线程 库 
转交 给 内 核 。 这 就 意味 着 ， 如 果 read(0) 调 用 遭 到 阻塞 ， 那 么 所 有 的 
ZR RE HS Ze BNE BE © 

内 核 无 法 调度 进程 中 的 这 些 线程 。 因 为 内 核 并 不 知晓 进程 中 存在 这 
些 线程 ， 也 就 无 法 在 多 处 理 器 平台 上 将 各 线程 调度 给 不 同 的 处 理 
侣 。 力 外 ， 也 不 可 能 将 一 进程 中 某 线程 的 优先 级 调整 为 蝇 于 其 他 进 
程 中 的 线程 ， 这 是 没有 意义 的 ， 因 为 对 线程 的 调度 完全 在 进程 中 处 
H 


一 对 一 《1:1) 实现 (内 核 级 线程 ) 


在 1:1 线 程 实现 中 ， 每 一 线程 映射 一 个 单独 的 KSE。 内 核 分 别 对 每 个 
线程 做 调度 处 理 。 线 程 同 步 操 作 通 过 内 核 系 统 调用 实现 。 











1:1 实 现 消 除了 M:1 实 现 的 种 种 次 端 。 遭 阻塞 的 系统 调用 不 会 导致 进 
程 的 所 有 线程 被 阻塞 ， 在 多 处 理 器 硬件 平台 上 ， 内 核 还 可 以 将 进程 中 的 
多 个 线程 调度 到 不 同 的 CPU 上 。 


不 过 ， 因 为 需要 切换 到 内 核 模 式 ， 所 以 诸如 线程 创建 、 上 下 文 切换 
以 及 同步 操作 就 要 慢 一 些 。 另 外 ， 为 每 个 线程 分 别 维护 一 个 KSE 也 需要 
开销 ， 如 果 应 用 程序 包含 大 量 线程 ， 则 可 能 对 内 核 调 度 露 造成 严重 的 负 
担 ， 降 低 系统 的 整体 性 能 。 


尽管 有 这 些 缺 点 ，1:1 实 现 通 稼 更 胜 于 M:1 实 现 。LinuxThreads 和 
NPTL 都 采用 1:1 模 型 。 








在 NPTIL 的 开 及 期 间 ， 为 了 使 得 包含 数 以 千 计 线程 的 进 
程 得 以 高 效 运行 ， 投 入 了 巨大 的 努力 ， 对 内 核 调 度 需 进行 
了 重 写 并 设计 了 新 的 线程 实现 。 后 续 的 测试 也 显示 了 预期 
目标 的 达成 。 





多 对 多 (M:N) 实现 〈 两 级 模型 ) 
MI:N 实 现 旨 在 结合 1:1 和 M:1 模 型 的 优点 ， 避 免 二 者 的 缺点 。 


在 M:N 模型 中 ， 每 个 进程 都 可 拥有 多 个 与 之 相关 的 KSE， 并 且 也 可 
以 把 多 个 线程 映射 到 一 个 KSE。 这 种 设计 允许 内 核 将 同一 应 用 的 线程 调 
度 到 不 同 的 CPU 上 运行 ， 同 时 也 解决 了 随 线程 数量 而 放大 的 性 能 问题 。 


M:N 模型 的 最 大 问题 是 过 于 复杂 。 线 程 调 度 任务 由 内 核 及 用 户 空 间 
的 线程 库 共同 承担 ， 二 者 之 间 势 必要 进行 分 工 协 作 和 信息 交换 。 在 M:N 
模型 下 ， 按 照 SUSv3 标 准 要求 来 管理 信号 也 极为 复杂 。 








最 初 曾 考虑 采用 M:N 模 型 来 实现 NPTEL 线 程 库 ， 但 若 要 


保证 Linux 调 度 器 即使 在 处 理 大 量 KSE 的 情况 下 也 能 应 对 目 
如 ， 则 需要 对 内 核 押 作 的 改动 范围 过 大 ， 可 能 也 没有 必 
要 ， 故 而 否决 了 这 一 方案 。 


33.5 Linux POSIX 线 程 的 实现 
针对 Pthreads API: Linux 下 有 两 种 实现 。 


e LinuxThreads: 这 是 最 初 的 Linux 线 程 实 现 ， 由 Xavier Leroy 开 发 。 

e NPTL (Native POSIX Threads Library) : 这 是 Linux 线 程 实现 的 现 
代 版 ， 由 Ulrich Drepper 和 Ingo Molnar 开 发 ， 以 取代 LinuxThreads 。 
NPTL 的 性 能 优 于 LinuxThreads， 也 更 符合 SUSv3 的 Pthreads 标 准 。 
对 NPTL 的 支持 需要 修改 内 核 ， 这 始 于 Linux 2.6. 





一 度 ， 人 们 曾 将 由 IBM 开发 的 另 一 线程 实现 
NGPT (Next Generation POSIX Threads) 视 为 
LinuxThreads 的 继任 者 。NGPT 采 用 M:N 模型 设计 ， 性 能 明 
显 优 于 LinuxThreads。 不 过 ，NPTL 的 开发 者 决意 推出 新 的 
实现 。NPTL 的 设计 方法 有 所 调整 ， 采 用 1:1 模 型 ， 性 能 
优 于 NGPT。 随 着 NPTL 的 发 布 ， 对 NGPT 的 开发 也 随 之 终 
Me 


后 续 各 节 将 讨论 这 两 种 实现 的 更 多 细节 ， 并 将 二 者 对 SUSv3 
Pthreads 标 准 的 背离 之 处 一 一 指 处 。 


此 处 值得 强调 的 是 : LinuxThreads 实 现 已 经 过 时 ， 并 且 glibc 从 2.4 版 
本 开始 也 已 不 再 支持 它 ， 所 有 新 的 线程 库 开 发 都 基于 NPTL。 


33.5.1 LinuxThreads 


多 年 以 来 ，LinuxThreads 曾 一 直 是 Linux 上 的 主流 线程 实现 ， 也 能 够 
满足 各 种 线程 化 应 用 程序 实现 的 需要 。LinuxThreads 实 现 的 要 点 如 下 。 


。 线程 的 创建 使 用 了 clone()， 并 指定 有 如 下 标志 : 


CLONE_VM | CLONE FILES | CLONE_FS | CLONE_SIGHAND 

这 意味 着 ，LinuxThreads 线 程 共享 虚拟 内 存 、 文 件 描述 符 、 文 件 系 
统 相 关 信息 (umask， 根 目录 和 当前 工作 目录 )〉 以 及 信号 处 置 。 不 
过 ， 线 程 间 并 不 共享 进程 ID 和 父 进程 ID。 

除了 由 应 用 程序 创建 的 线程 以 外 ，LinuxThreads 还 会 创建 一 个 附加 
的 管理 线程 ， 负 责 处 理 其 他 线程 的 创建 和 终止 。 


e LinuxThreads 利 用 信号 来 处 理 内 部 的 操作 。 对 于 支持 实时 信和 号 的 内 


核 来 说 (Linux 2.2 及 以 后 版 本 ) ， 会 使 用 头 3 个 实时 信号 。 对 于 老 
版 本 内 核 ， 则 使 用 SIGUSR1 和 SIGUSR2。 应 用 程序 不 能 使 用 这 些 信 
Fo (对 于 各 种 线程 同步 操作 而 言 ， 使 用 信号 会 导致 较 高 延迟 。) 








LinuxThreds 对 标准 行为 的 背离 之 处 


LinuxThreads 在 很 多 方面 与 SUSv3 Pthreads 标 准 并 不 一 致 。 


(LinuxThreads 实 现 受 限于 其 开发 时 可 用 的 内 核 特性 ， 而 在 此 范围 内 ， 
则 会 尽量 保持 一 致 。) 以 下 列表 对 背离 之 处 作 了 概述 。 


。 在 同一 进程 的 不 同 线程 中 调用 getpid0 会 返回 不 同 的 值 。 调 用 








getppidO0 则 反应 了 如 下 事实 : 除了 主线 程 以 外 的 所 有 线程 都 由 进程 
的 管理 线程 创建 〈getppid0 会 返回 管理 线程 的 进程 ID ) 。 在 主线 程 
和 其 他 线程 中 ， 对 getppidO 调 用 的 返回 值 相 同 。 
如 果 某 线程 调用 fork() 创 建 了 一 子 进程 ， 那 么 任何 其 他 线程 都 可 使 
用 wait0 或 类 似 技 术 来 获取 子 进程 的 终止 状态 。 不 过 ， 事 实 并 非 如 
此 ， 只 有 创建 子 进程 的 线程 才能 使 用 wait()。 
如 果菜 线程 执行 了 exec()， 那 么 按照 SUSv3 要 求 ， 将 终止 所 有 其 他 
线程 。 不 过 ， 只 要 调用 exec() 的 是 主线 程 之 外 的 线程 ， 那 么 产生 进 
程 则 与 调用 线程 拥有 相同 的 进程 ID， 而 与 主线 程 的 进程 ID 不 同 。 而 
依照 SUSv3 标 准 ， 该 进程 ID 应 与 主线 程 的 进程 ID 保持 一 致 。 
线程 之 间 不 会 共享 凭证 〈 用 户 ID 与 用 户 组 ID) 。 当 一 多 线程 进程 执 
行 一 个 set- user- ID 程序 时 ， 将 导致 线程 之 间 无 法 通过 pthread_kill0 
来 发 送信 号 ， 因 为 这 两 个 线程 的 凭证 已 经 发 生 了 改变 ， 发 送 线程 不 
再 有 权 发 信号 给 目标 线程 〈 请 参考 图 20-2) 。 另 外 ， 由 于 
LinuxThreads 实 现在 内 部 使 用 了 信和 号， 一 有 旦 线程 改变 了 目 身 的 赁 
证 ， 那 么 各 种 Pthreads 操 作 有 可 能 失败 或 者 挂 起 Chang) 。 
还 未 能 顾及 SUSv3 关 于 线程 与 信号 间 交 互 规范 的 各 个 方面 。 

o 采用 Kill0 或 者 sigqueue0 回 某 进 程 发 送 的 信号 ， 应 该 由 目标 进 

程 中 不 阻塞 该 信号 的 任意 线程 来 接收 和 处 理 。 不 过 ， 因 为 


























LinuxThreads 线 程 的 进程 ID 不 同 ， 所 以 只 能 将 信号 送 给 特定 线 
程 。 要 是 该 线程 阻塞 这 一 信号 ， 即 使 其 他 线程 并 不 阻塞 此 信 
号 ， 它 也 会 一 直 保 持 挂 起 (pending) 。 
LinuxThreads 并 不 文 持 信 号 为 整个 进程 挂 起 的 概念 ， 只 文 持 每 
个 线程 分 别 挂 起 信号。 

如 果 信 号 针对 包含 某 个 多 线程 应 用 的 进程 组 ， 那 么 应 用 中 的 所 
有 线程 〈 即 每 个 创建 了 信号 处 理 函 数 的 线程 ) 都 会 处 理 该 信 
号， 而 不 是 由 任意) 某 个 线程 去 处 理 。 例 如 ， 键 入 某 个 终端 
字符 就 会 产生 针对 前 台 进 程 组 的 任务 控制 〈job-control) 信 
背 选 信号 栈 设置 〈 由 sigaltstack0 建 立 ) 是 针对 每 个 线程 的 。 不 
过 ， 如 果 新 线程 不 慎 从 pthread_createO 调 用 者 那里 继承 了 备 选 
信号 栈 设 置 ， 那 么 这 两 个 线程 将 共享 同一 备 选 信号 栈 。SUSv3 
规定 新 线程 启动 时 不 应 定义 备 选 信号 栈 。LinuxThreads 这 一 “ 违 
规 ” 操 作 的 后 果 是 ， 如 果 两 个 线程 恰巧 在 它们 共享 的 备 选 信和 号 
栈 中 同时 处 理 不 同 的 信和 号， 很 可 能 会 导致 混乱 (例如 ， 程 序 崩 
it) 。 这 一 问题 可 能 非常 难以 重 现 ， 也 很 难 调试 ， 因 为 问题 的 
出 现 依赖 于 在 同一 时 点 处 理 两 个 信号 ， 这 种 情况 极其 罕见 。 





(6) 
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ie) 


在 使 用 LinuxThreads 的 程序 中 ， 新 线程 可 以 通过 调用 
sigaltstack() 来 确保 使 用 与 其 创建 者 线程 不 同 的 备 选 信号 栈 
(或 许 根 本 束 没 有 栈 ) 。 不 过 ， 可 移植 程序 (以 及 创建 线 
程 的 库 函 数 ) 并 不 知道 这 些 ， 因 为 在 其 他 实现 上 这 并 非 必 
须 。 另 外 ， 即 使 采用 这 种 技术 ， 依 然 可 能 产生 竞争 条 件 : 
新 线程 在 有 机 会 调用 sigaltstack0O 之 前 依然 有 可 能 接收 并 处 
理 备 选 栈 上 的 信号。 


。 线程 不 共享 一 般 的 任务 号 以 及 进程 组 号 。 不 能 利用 setsidO0 和 
setpgid() 系 统 调用 去 改变 多 线程 程序 中 的 会 话 号 以 及 进程 组 号 。 

o 使 用 fcnt10 建 立 的 记录 锁 也 不 能 共 圣 。 重 复 地 对 同一 类 型 的 锁 的 请 
求 是 无 法 合并 在 一 起 执行 的 。 














oer 限制 。SUSv3 定 义 资 源 限 制 是 一 种 进程 范围 的 属 
性 


也 数 times() 返 回 的 CPU 时 间 以 及 由 getrusage0 返 回 的 资源 使 用 信息 
也 都 是 针对 每 一 个 线程 的 。 这 些 系统 调用 应 该 返回 这 个 进程 的 忌 


量 。 
。 一 些 版 本 的 ps(1) 会 显示 进程 中 的 所 有 线程 (包括 管理 线程 》， 作 
为 单独 的 项 ， 且 它们 的 进程 号 也 不 相同 。 
线程 之 间 并 不 共享 由 setpiorityO) 设 置 的 nice 值 。 
使 用 setitimerO 创 建 的 间隔 定时 器 也 无 法 在 线程 之 间 共 享 。 
线程 之 间 不 能 共享 System V 信 号 量 还 原 (semadj) 值 。 








LinuxThreads 的 其 他 问题 


除了 以 上 与 SUSv3 标 准 的 偶 差 外 ，LinuxThreads 实 现 还 有 如 下 问 
题 。 


。 如 果 管 理 线程 被 杀 掉 ， 那 么 余下 的 线程 只 能 手工 清理 。 

。 多 线程 程序 的 核心 转 储 (core dump) 可 能 并 不 包含 所 有 的 线程 
(甚至 可 能 也 不 包含 触发 转 储 的 线程 〉。 

。 只 有 从 主线 程 调用 非 标准 的 iocttOTIOCNOTTY 操 作 才 能 移 除 进程 与 
控制 终端 的 关联 。 





33.5.2 NPTL 


设计 NPTEL 是 为 了 弥补 LinuxThreads 的 大 部 分 的 缺陷 。 特 别 是 如 下 部 
LN 


。 NPTL 更 接近 SUSv3 Pthreads 标 准 。 
。 使 用 NPTL 的 有 大 量 线程 的 应 用 程序 的 性 能 要 远 优 于 LinuxThreads。 





NPTL 人 允许 应 用 程序 创建 大 量 的 线程 。NPTL 实 现 的 测 
试 程序 可 以 创建 10 万 个 线程 。 对 于 LinuxThreads， 实 际 线程 
数量 的 限制 大 约 是 一 两 千 个 。 “应 当 承 认 ， 很 少 有 程序 需 
要 创建 这 个 多 的 线程 。) 





NPTL 实 现 的 开发 从 2002 年 开始 ， 大 约 在 第 2 年 完成 。 同 时 ，Linux 


内 核 为 适应 NPTL 也 做 了 各 种 调整 。 这 些 变 动 出 现在 Linux 2.6 内 核 ， 并 
对 NPTL 的 如 下 方面 提供 支持 。 


改进 线程 组 的 实现 (28.2.1707) 。 

增加 futex 作 为 一 种 同步 机 制 (futex 作 为 一 种 通用 机 制 ， 并 不 只 是 为 
NPTIL 而 设计 ) 。 

增加 新 的 系统 调用 〈get_thread_area0 和 set_thread_area0) 以 便 支持 
线程 本 地 存储 。 

支持 线程 化 的 核心 转 储 和 对 多 线程 程序 的 调试 功能 。 

修改 并 文 持 与 Pthreads 模 型 一 样 的 信号 处 理 。 

增加 新 的 系统 调用 exit_groupO0， 可 以 终止 进程 中 的 所 有 线程 〈 从 
gibc2.3 开 始 ， 库 函数 exitO 是 exit_groupO 的 包装 函数 ， 而 函数 
pthread_exitO 调 用 真正 的 内 核 系 统 调 用 _exit0)， 仅 终止 调用 的 线 
人 


重 写 内 核 调 度 程 序 以 便 能 够 有 效 地 调度 和 处 理 大 量 (上 千 个 ) KSE 
的 情况 。 

提升 内 核 进程 终止 的 执行 效率 。 

扩展 系统 调用 clone() (28.277) 。 

NPTL 实 现 最 基本 的 部 分 如 下 : 


线程 使 用 函数 cloneO 创 建 并 指定 如 下 标志 。 


CLONE_VM | CLONE_FILES | CLONE_FS | CLONE_SIGHAND | 
CLONE THREAD | CLONE SETTLS | CLONE PARENT SETTID | 
CLONE CHILD CLEARTID | CLONE_SYSVSEM 


NPTL 比 LinuxThreads 可 以 共享 更 多 的 信息 。 标 志 CLONE_THREAD 





意思 是 新 线程 与 创建 者 线程 属于 同一 个 线程 组 ， 并 且 共 享 同 样 的 进程 号 
以 及 父 进程 号 。CLONE_SYSVSEM 表 示 新 线程 与 创建 者 共享 System V 
信号 量 还 原 值 。 


使 用 ps(1) 列 出 一 个 运行 在 NPTL 下 的 多 线程 程序 时 ， 


只 会 输出 一 条 记录 。 为 了 看 到 进程 中 的 线程 信息 ， 可 以 使 
用 ps-L 选 项 。 


。 实现 的 内 部 使 用 前 两 个 实时 信号 。 应 用 程序 不 能 使 用 这 些 1 


号 。 


其 中 一 个 信号 用 来 实现 线程 的 取消 功能 。 另 一 个 信和 号 
用 于 确保 进程 中 的 所 有 线程 拥有 同样 的 用 户 号 和 用 户 组 
号 。 而 在 内 核 模 式 ， 线 程 有 不 同 的 用 户 和 组 赁 证。 所 以 
NPTL 实 现 对 每 一 个 改变 用 户 号 和 用 户 组 号 的 系统 调用 
Csetuid0)、setresuid0 等 以 及 类 似 的 组 操作 函数 ) AY GLAS eR 
数 都 做 了 修改 ， 以 确保 进程 中 的 所 有 线程 都 做 了 相应 的 改 
BS. 


e 与 LinuxThreads 不 同 ，NPTL 并 不 需要 管理 线程 。 
NPTL 标 准 一 致 性 


这 些 改变 意 ` 味 春 NPTL 比 LinuxThreads 更 接近 SUSv3 标 准 。 在 作者 撰 
写本 书 的 时 候 ， 遗 留 以 下 不 一 致 的 地 方 。 


。 线程 之 间 不 共享 nice 值 。 
在 早期 的 2.6.x 内 核 中 ， 还 有 一 些 额 外 的 不 一 致 的 地 方 。 


。 内 核 版 本 2.6.16 之 前 ， 备 选 信号 栈 是 针对 每 个 线程 的 ， 但 是 新 的 线 
程 从 调用 pthread_create() 函 数 的 线程 那里 错误 地 继承 了 备 选 信 号 栈 
设置 (通过 sigaltstack0O 产 生 ) , 导致 出 现 两 个 线程 共享 同一 备 选 信 
号 栈 的 问题 。 

。 内 核 2.6.16 之 前 ， 只 有 一 个 线程 组 的 组 长 〈“ 即 主线 程 ) 可 以 通过 调 


用 函数 setsid0 启 动 一 个 新 的 会 话 。 

。 内 核 2.6.16 之 前 ， 只 有 一 个 线程 组 的 组 长 可 以 使 用 函数 setpgidO 让 宿 
主 进程 成 为 进程 组 主 进程 。 

e 早 于 2.6.12 的 内 核 版 本 ， 在 同一 进程 的 线程 之 间 无 法 共享 使 用 
setitimer() 创 建 的 间隔 定时 器 。 

s n ~ 内 核 版 本 ， 同 一 进程 中 的 所 有 线程 并 不 共享 资源 限制 
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© 早 于 2.6.9 的 内 核 版 本 ， 函 数 times0 返 回 的 CPU 时 间 以 及 函数 

getrusage() 返 回 的 资源 使 用 信息 都 是 针对 每 个 线程 的 。 


NPTL 设 计 与 LinuxThreads ABI 兼 容 。 那 些 与 提供 LinuxThreads 的 
GNU C 库 链接 的 程序 换 用 NPTL 时 无 需 再 重新 编译 。 不 过 当 程 序 运 行 在 
NPTL 环 境 时 某 些 行为 可 能 会 有 些 不 同 ， 主 要 是 因为 NPTL 更 接近 于 
SUSv3 Pthreads 标 准 。 


33.5.3” 哪 一 种 线程 实现 


一 些 Linux 发 布 版 本 附带 包 换 LinuxThreads 和 NPTL 的 GNU C 库 ， 依 
据 系 统 运行 在 何 种 内 核 上 动态 地 确定 链接 哪 一 种 GNUC E. (IK HER 
布 版 本 有 其 历史 原因 ， 自 版 本 2.4 后 glibc 不 再 提供 LinuxThreads。) 所 以 
有 时 候 可 能 需要 回答 以 下 的 问题 。 


e 特定 的 Linux 发 布 版 本 中 ， 哪 一 种 线程 实现 是 有 效 的 ? 
。 在 既 提 供 LinuxThreads 也 提供 NPTL 的 Linux 发 布 版 本 中 ， 缺 省 使 用 
哪 一 种 ? 如 何 明 确 地 选择 一 个 应 用 程序 所 使 用 的 线程 库 ? 
找 出 线程 实现 


可 以 通过 一 些 技术 去 找 出 某 个 特定 系统 使 用 的 线程 实现 ， 也 可 以 发 
现在 提供 两 种 线程 实现 的 系统 上 运行 的 程序 默认 使 用 的 实现 版 本 。 

在 提供 glibc 2.3.2 或 后 续 版 本 的 系统 上 ， 可 以 使 用 如 下 命令 找 出 系 
统 提 供 的 线程 实现 ， 如 果 提 供 两 种 实现 的 ， 则 显示 默认 的 那个 : 
$ getconf GNU_LIBPTHREAD VERSION 


ee READER E HAE TH 























$ ldd /bin/1s | grep libc.so 
libc.so.6 => /lib/tls/libc.so.6 (0x40050000) 


NPTL 2.3.4 


A glibc 2.3.2 以 来 ， 程 序 可 以 通过 confstr(3) 获 得 类 似 的 信息 ， 并 取得 
glibc 特 定 的 配置 变量 _CS_GNU_LIBPTHREAD_VERSION 的 值 。 


使 用 老 版 本 GNUC 库 的 系统 上 ， 需 要 做 一 些 额 外 的 动作 。 首 现 ， 下 
面 的 命令 可 以 被 用 来 显示 程序 运行 时 使 用 的 GNUC 库 的 路 径 ( 这 里 使 用 
标准 程序 ls 作为 例子 ， 其 位 置 为 /bin/ls) : 


$ /lib/tls/libc.so.6 | egrep -i 'threads|nptl' 
Native POSIX Threads Library by Ulrich Drepper et al 


GNU C 库 的 路 径 显 示 在 => 之 后 。 如 果 作 为 命令 执行 这 个 路 径 的 程 
序 ， 那 么 glibc 将 会 显示 关于 目 身 的 一 系列 信息 。 可 以 通过 grep 选 取 与 线 
程 实现 相关 的 信息 。 


在 egrep 正 则 表达 式 (regular expression) 中 包含 npt， 是 因为 某 些 包 
含 NPTL 的 glibc 发 布 显示 如 下 的 字符 串 信息 : 


NPTL 0.61 by Ulrich Drepper 


因为 glibc 路 径 会 随 着 不 同 的 Linux 发 布 而 改变 ， 可 以 使 用 shell 的 蔡 
换 功 能 来 产生 一 个 显示 Linux 系 统 上 使 用 的 线程 实现 信息 的 命令 行 : 


$ $(1dd /bin/ls | grep libc.so | awk '{print $3}') | egrep -i ‘threads|nptl' 
Native POSIX Threads Library by Ulrich Drepper et al 


选择 程序 使 用 的 线程 实现 


在 即 提供 NPTL 也 提供 LinuxThreads 的 Linux 系 统 上 ， 能 够 明确 地 控 
制 具体 使 用 的 线程 实现 有 时 候 非 常 地 有 用 。 最 常见 的 例子 是 ， 当 遇 到 一 
个 旧 有 的 依赖 于 某 些 LinuxThreads 行 为 〈 可 能 非 标 准 ) 的 程序 时 ， 要 能 
够 强制 程序 使 用 指定 的 线程 实现 ， 而 不 是 默认 的 NPTL 。 


出 于 这 个 目的 ， 可 以 使 用 一 个 动态 链接 器 (dynamic linker) 能够 理 
解 的 特定 的 环境 变量 LD_ASSUME_KERNEL。 顾 名 思 义 ， 这 个 环境 变 
量 告诉 动态 链接 器 就 好 像 运 行 在 特定 的 Linux 内 核 版 本 上 一 样 。 通 过 指 
定 并 不 提供 NPTL 支 持 的 内 核 版 本 《例如 2.2.5) 可 以 确保 LinuxThreads 被 



































使 用 到 。 所 以 可 以 使 用 如 下 命令 运行 一 个 基于 LinuxThreads 的 多 线程 应 
用 程序 : 


$ LD ASSUME KERNEL=2.2.5 ./prog 


当 环 境 变 量 设置 与 之 前 所 及 的 显示 使 用 的 线程 实现 信息 的 命令 行 一 
起 使 用 时 ， 可 以 看 到 如 下 的 一 些 信息 : 


$ export LD ASSUME KERNEL=2.2.5 
$ $(ldd /bin/ls | grep libc.so | awk '{print $3}') | egrep -i 'threads|nptl' 
linuxthreads-0.10 by Xavier Leroy 


可 以 通过 LD_ASSUME_KERNEL 设 置 的 内 核 版 本 号 的 
范围 受 一 些 限 制 因 素 的 制约 。 在 一 些 提供 NPTL 和 
LinuxThreads 的 一 般 发 布 版 本 中 ， 将 版 本 号 指定 为 2.2.5 已 经 


足够 保证 会 使 用 LinuxThreads。 此 环境 变量 更 完整 的 描述 请 
参考 http://people.redhat.com/drepper/assumkernel.html。 


33.6 Pthread API 的 高 级 特性 
Pthreads API 还 包括 一 些 如 下 的 高 级 特性 。 


e 实时 调度 (Realtime scheduling) : 可 以 对 线程 设置 实时 调度 策略 以 
及 优先 级 。 类 似 于 35.3 节 中 摘 述 的 进程 的 实时 调度 的 系统 调用 。 

。 进程 共享 互 太 量 和 条 件 变量 : SUSv3 规 定 进程 之 间 共 SF ER BAR 
件 变量 是 可 选 的 〈 不 只 是 针对 进程 中 的 线程 而 言 ) 。 这 种 情况 ， 条 
人 k 享 内 存 中 分 配 。NPTL 文 持 这 

寺 性 

。 高 级 线程 同步 原 语 : 这 些 功 能 包括 障碍 (barrier) 、 读 写 锁 (read- 

write lock) 以 及 自 旋 锁 (spin lock) 。 


关于 这 些 特性 的 更 多 的 细节 请 参考 [Butenhof，1996]。 

















33.7 ”总结 


不 要 将 线程 与 信号 混合 使 用 ， 只 要 可 能 多 线程 应 用 程序 的 设计 应 该 
避免 使 用 信号 。 如 果 多 线程 应 用 必须 处 理 异步 信号 的 话 ， 通 常 最 简洁 的 
方法 是 所 有 的 线程 都 阻塞 信号 ， 创 建 一 个 专门 的 线程 调用 sigwait(O 函 数 
(或 者 类 似 的 函数 ) 来 接收 收 到 的 信号 。 这 个 线程 就 可 以 安全 地 执行 像 
aaa (处 于 互 斥 量 的 保护 之 下 ) 和 调用 非 异 步 信号 安全 的 函 

一 般 有 两 种 有 效 的 Linux 线 程 实现 : LinuxThreads 和 NPTL。 
LinuxThreads 多 年 以 来 一 直 为 Linux 使 用 ， 但 是 很 多 方面 并 不 遵循 SUSv3 
的 标准 ， 而 且 已 经 过 时 。 全 新 的 NPTL 实 现 更 接近 SUSv3 标 准 并 且 提 供 
更 优 的 性 能 ， 现 今 的 Linux 发 布 也 都 提供 这 种 实现 。 


更 多 的 信息 

请 参考 列 于 29.10 市 的 更 多 的 信息 来 源 。 

LinuxThreads 的 作者 编写 了 实现 文档 ， 可 以 在 如 下 地 址 找到 : 
http:/pauillac.inria.fr/ 一 xlerowlinuxthreads/。NPTL 实 现在 如 下 的 论文 


(有 些 过 时 ) 中 有 所 描述 : http:/people.redhat.com/drepper/nptl- 
design.pdf. 








33.8 AJ 


33-1. 编写 程序 以 便 证 明 : 作为 函数 sigpending() 的 返回 值 ， 同 一 个 
进程 中 的 的 不 同 线程 可 以 拥有 不 同 的 panding 信 号 。 可 以 使 用 函数 
pthread_kill0 分 别 发 送 不 同 的 信号 给 阻塞 这 些 信号 的 两 个 不 同 的 线程 ， 
接着 调用 sigpending() 方 法 并 显示 这 些 pending 信 号 的 信息 。“【 可 能 会 发 
现 程序 清单 20-4 中 函数 的 作用 。 ) 


33-2. 假设 一 个 线程 使 用 forkO 创 建 了 一 个 子 进程 。 当 子 进程 终止 
时 ， 可 以 保证 由 此 产生 的 SIGCHLD 信 和 号 一 定 会 发 送 给 调用 forkO 的 线程 
吗 《〈 可 以 用 进程 中 的 其 他 线程 做 对 比 ) ? 














欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗 下 IT 专业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 IT 专业 优质 出 版 资源 和 编 
得 策划 团队 ， 打 造 传统 出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印刷 与 POD 按 需 印刷 结合 的 出 版 平台 ， 提 供 最 新 技术 资讯 
为 作者 和 读者 打造 交流 互动 的 平台 。 
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社区 里 都 有 什么 ? 
购买 图 书 

我 们 出 版 的 图 书 涵盖 主流 IT 技 术 ， 在 编程 语言 、Web 搁 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅 销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实 现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 
下 载 资源 

社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 


另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 
可 以 免费 下 载 。 


与 作 译 者 互动 


很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 
题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 趣 
的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 关注 的 作者 提出 采访 题 
目 。 











灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 
邮电 出 版 社 书 库 发 货 ， 电 子 书 提 供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 间 
买 到 心仪 的 新 书 。 


用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 





时 ， 在 ”里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 

















购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购 书 
时 输入 “57AWG”， 然后 点 击 “ 使 用 优惠 码 ”， 即 可 享受 电子 书 8 折 优 惠 〈 本 优惠 券 只 可 使 用 一 
R) o 


纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 购 
买 ， 多 种 阅读 选择 。 





























软 技 能 : 代码 之 外 的 生存 指南 

[5] Z. FB (John Z Sonmez ) (作者 ) EJA GS) iiss (EARR) 
C 6 % 9. OK 
nS 推荐 AS 阅读 


这 是 一 本 真正 从 “人 ”【 而 非 按 术 也 非 管理 ) 的 角度 关注 软件 开发 人 员 生 和 映 发 展 的 书 ， 书 中 论述 的 
内 容 降 涉及 生活 习惯 ， 又 包括 尽 维 方式 ,凸显 技 术 中 “人 ”的 因素 ,全面 涝 解 软 件 行业 从 业 人 员 所 
雳 知道 的 所 有 “ 软 技 能 ”。 

本 书 紧 焦 于 软件 开发 人 员 生 活 的 方方面面 , 从 更 秘 画 试 的 沪 程 到 精 耕 绍 作出 一 份 杀手 级 简历 ， 从 创 
建 大 和 受 欢 迎 的 博客 到 打 和 咕 你 的 个 人 品牌 ， 从 提高 自己 工作 效 至 到 与 如 何 与 “拖延 症 ” 做 斗争 ， 基 至 
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社区 里 还 可 以 做 什么 ? 
提交 勘误 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勘 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 

社区 提供 基于 Markdown 的 写作 环境 ， 台 欢 写作 的 您 可 以 在 此 一 试 
身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 上 自 出 版 的 乐 
趣 ， 轻 松 实现 出 版 的 梦想 。 


am A T E 





会 议 活 动 早 知 道 
您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 
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第 34 章 “进程 组 、 会 话 和 作业 控制 


进程 组 和 会 话 在 进程 之 间 形 成 了 一 种 两 级 层次 关系 : 进程 组 是 一 组 
相关 进程 的 集合 ， 会 话 是 一 组 相关 进程 组 的 集合 。 读 者 通过 本 章 的 学 习 
就 能 弄 清 楚 两 个 术语 中 “相关 ”的 含义 。 

进程 组 和 会 话 是 为 支持 shell 作 业 控 制 而 定义 的 抽象 概念 ， 用 户 通 过 
shell 能 够 交互 式 地 在 前 台 或 后 台 运 行 命令 。 术 语 “ 作 业 ” 通 常 与 术语 “ 进 
程 组 ”作为 同义词 来 看 符 。 


本 章 将 介绍 进程 组 、 会 话 和 作业 控制 。 





34.1 概述 


进程 组 由 一 个 或 多 个 共享 同一 进程 组 标识 符 CPGID) 的 进程 组 
成 。 进 程 组 ID 是 一 个 数字 ， 其 类 型 与 进程 ID 一 样 Cpid_t) 。 一 个 进程 组 
拥有 一 个 进程 组 首 进 程 ， 该 进程 是 创建 该 组 的 进程 ， 其 进程 ID 为 该 进程 
组 的 ID， 新 进程 会 继承 其 父 进程 所 属 的 进程 组 ID。 


进程 组 拥有 一 个 生命 周期 ， 其 开始 时 间 为 首 进 程 创建 组 的 时 刻 ， 结 
束 时 间 为 最 后 一 个 成 员 进程 退出 组 的 时 刻 。 一 个 进程 可 能 会 因为 终止 而 
退出 进程 组 ， 也 可 能 会 因为 加 入 了 另外 一 个 进程 组 而 退出 进程 组 。 进 程 
组 首 进 程 无 需 是 最 后 一 个 离开 进程 组 的 成 员 。 


会 话 是 一 组 进程 组 的 集合 。 进 程 的 会 话 成 员 关 系 是 由 其 会 话 标识 符 
(SID) 确定 的 ， 会 话 标识 符 与 进程 组 ID 一 样 ， 是 一 个 类 型 为 pid_t 的 数 
字 。 会 话 首 进程 是 创建 该 新 会 话 的 进程 ， 其 进程 ID 会 成 为 会 话 ID。 新 
进程 会 继承 其 父 进程 的 会 话 ID。 


一 个 会 话 中 的 所 有 进程 共享 单个 控制 终端 。 控 制 终端 会 在 会 话 首 进 
程 首 次 打开 一 个 终端 设备 时 被 建立 。 一 个 终端 最 多 可 能 会 成 为 一 个 会 话 
的 控制 终端 。 


在 任 一 时 刻 ， 会 话 中 的 其 中 一 个 进程 组 会 成 为 终端 的 前 台 进 程 组 ， 
其 他 进程 组 会 成 为 后 台 进 程 组 。 只 有 前 台 进 程 组 中 的 进程 才能 从 控制 终 
端 中 读 取 输入 。 当 用 户 在 控制 终端 中 输入 其 中 一 个 信号 生成 终端 字符 之 
后 ， 该 信号 会 被 发 送 到 前 台 进 程 组 中 的 所 有 成 员 。 这 些 字符 包括 生成 
SIGINTI 的 中 断 字符 (通常 是 Control-C) 、 生 成 SIGQUIT 的 退出 字符 
(通常 是 Control\) 、 生 成 SIGSTP 的 挂 起 字符 (通常 是 Control-Z)。 


当 到 控制 终 问 的 连接 建立 起 来 〈 即 打开 ) 之 后 ， 会 话 首 进程 会 成 为 


该 终端 的 控制 进程 。 成 为 控制 进程 的 主要 标志 是 当 断 开 与 终端 之 间 的 连 
接 时 内 核 会 同 该 进程 友 送 一 个 SIGHUP 信 号 。 














通过 检查 Linux 特 有 的 /proc/PID/stat 文 件 ， 就 能 确定 任 
意 进程 的 进程 组 ID 和 会 话 ID。 此 外 ， 还 能 确定 进程 的 控制 


终端 的 设备 ID“〈 一 个 十 进 制 数字 ， 包 含 主 ID 和 辅 ID ) 和 控 
制 该 终端 的 控制 进程 的 进程 ID。 更 多 细 市 信息 请 参考 
proc(5) 手 册 。 





会 话 和 进程 组 的 主要 用 途 是 用 于 shell 作 业 控 制 。 读 者 通过 一 个 具体 
的 例子 束 能 够 弄 清楚 这 些 概 念 了。 如 对 于 交互 式 登录 来 讲 ， 控 制 终 端 是 
用 户 登 录 的 途径。 登录 shell 是 会 话 首 进程 和 终端 的 控制 进程 ， 也 是 其 自 
号 进 程 组 的 唯一 成 员 。 从 shell 中 发 出 的 每 个 命令 或 通过 管道 连接 的 一 组 
命令 都 会 导致 一 个 或 多 个 进程 的 创建 ， 并 且 shell 会 把 所 有 这 些 进 程 都 放 
在 一 个 新 进程 组 中 。 这 些 进 程 在 一 开始 是 其 进程 组 中 的 唯一 成 员 ， 它 
们 创建 的 所 有 子 进程 会 成 为 该 组 中 的 成 员 。) 当 命令 或 以 管道 连接 的 一 
组 命令 以 & 符 号 结束 时 会 在 后 合 进程 组 中 运行 这 些 命 令 ， 人 否则 就 会 在 前 
re E E 
话 的 一 部 分 。 








在 窗口 环境 中 ， 控 制 终端 是 一 个 伪 终 端 。 每 个 终端 窗 
口 剖 有 一 个 独立 的 会 话 ， 窗 口 的 局 动 shell 是 会 话 首 进程 和 
终 站 的 控制 进程 。 








在 除 任务 控制 之 外 的 其 他 场景 中 也 有 可 能 用 到 进程 
组 ， 因 为 进程 组 具备 两 个 有 用 的 属性 : 在 特定 的 进程 组 中 
父 进程 能 够 等 待 任意 子 进程 〈 参 见 26.1.2 节 ) 和 信号 能 够 被 
发 送 给 进程 组 中 的 所 有 成 员 《〈 参 见 20.5 节 ) 。 


图 34-1 给 出 了 执行 下 面 的 命令 之 后 各 个 进程 之 间 的 进程 组 和 会 话 关 


ZAN 


$ echo $$ Display the PID of the shell 







400 
$ find / 2> /dev/null | we -1 & Creates 2 processes in background group 
[1] 659 
$ sort < longlist | unig -c Creates 2 processes in foreground group 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 会 话 400 ------------- 
进程 组 首 进 程 
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控制 进程 
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前 器 PGID- 660 


控制 STD 二 400 


图 34-1 进程 组 、 会 话 和 控制 终端 之 间 的 关系 








34.2 ”进程 组 


每 个 进程 都 拥有 一 个 以 数字 表示 的 进程 组 ID， 表 示 该 进程 所 属 的 进 
程 组 。 新 进程 会 继承 其 父 进程 的 进程 组 ID， 使 用 getpgrpO 能 够 获取 一 个 
进程 的 进程 组 ID。 





#include <unistd.h> 


pid t getpgrp(void); 


Always successfully returns process group ID of calling process 














如 果 getpgrpO 的 返回 值 与 调用 进程 的 进程 ID 匹配 的 话 就 说 明 该 调 
用 进程 是 其 进程 组 的 首 进程 。 


setpgid() 系 统 调 用 将 进程 ID 为 pid 的 进程 的 进程 组 ID 修改 为 pgid。 





#include <unistd.h> 


int setpgid(pid t pid, pid t pgid); 








Returns 0 on success, or -1 on error 





如 果 将 pid 的 值 设 置 为 0， 那 么 调用 进程 的 进程 组 ID 就 会 被 改变 。 如 
果 将 pgid 的 值 设 置 为 0， 那 么 ID 为 pid 的 进程 的 进程 组 ID 会 被 设置 成 pid 
的 值 。 因 此 ， 下 面 的 setpgid0 调 用 是 等 价 的 。 


setpgid(0, 0); 
setpgid(getpid(), 0); 
setpgid(getpid(), getpid()); 


如 果 pid 和 pgid 参 数 指定 了 同一 个 进程 ( 即 pgid 是 0 或 者 与 ID 为 pid 的 
进程 的 进程 ID 匹配 ) ， 那 么 就 会 创建 一 个 新 进程 组 ， 并 且 指 定 的 进程 会 
成 为 这 个 新 组 的 首 进 程 ( 即 进程 的 进程 组 ID 与 进程 ID 是 一 样 的 ) 。 如 
果 两 个 参数 的 值 不 同 〈 即 pgid 不 是 0 或 者 与 ID 为 pid 的 进程 的 进程 ID 不 
， 那 么 setpgid0 调 用 会 将 一 个 进程 从 一 个 进程 组 中 移 到 另 一 个 进 
星 组 中 。 


通常 调用 setpgid0 〈 以 及 34.3 节 中 介绍 的 setsid0) 函数 的 是 shell 和 





login(1)。 在 37.2 节 中 将 会 看 到 一 个 程序 在 使 自己 变 成 daemon 的 过 程 中 也 
会 调用 setsid()。 


在 调用 setpgidO 时 存在 以 下 限制 。 


pid 参 数 可 以 仅 指 定 调 用 进程 或 其 中 一 个 子 进程 。 违 反 这 条 规则 会 
导致 ESRCH 错 误 。 

在 组 之 间 移 动 进 程 时 ， 调 用 进程 、 由 pid 指 定 的 进程 (可 能 是 另外 
一 个 进程 ， 也 可 能 就 是 调用 进程 ) 以 及 目标 进程 组 必须 要 属于 同一 
个 会 话 。 违 反 这 条 规则 会 导致 EPERM 错 误 。 

pid 参 数 所 指定 的 进程 不 能 是 会 话 首 进 程 。 违 反 这 条 规则 会 导致 
EPERM 错 误 。 

一 个 进程 在 其 子 进 程 已 经 执行 execO 后 就 无 法 修改 该 子 进程 的 进程 
组 ID 了。 违反 这 条 规则 会 导致 EACCES 错 误 。 之 所 以 会 有 这 条 约 
束 条 件 的 原因 是 在 一 个 进程 开始 执行 之 后 再 修改 其 进程 组 ID 的 话 
会 使 程序 变 得 混乱 。 


在 作业 控制 shell 中 使 用 setpgid0) 


一 个 进程 在 其 子 进程 已 经 执行 exec0 之 后 就 无 法 修改 该 子 进程 的 进 
和 即 需 要 满足 
下 列 条 件 。 


。 一 个 任务 〈 即 一 个 命令 或 一 组 以 管道 符 连 接 的 命令 ) 中 的 所 有 进程 
必须 被 放置 在 一 个 进程 组 中 。 (通过 图 34-1 中 bash 创 建 的 两 个 进程 
组 束 能 看 出 。) 这 一 步 允 许 shell 使 用 killpg()〈 或 使 用 负 的 pid 值 来 调 
用 kill0) 来 同时 癌 进 程 组 中 的 所 有 成 员 发 送 作业 控制 信号 。 一 般 来 
讲 ， 这 一 步 需 要 在 发 送 任意 作业 控制 信号 前 完成 。 

每 个 子 进 程 在 执行 程序 之 前 必须 要 被 分 配 到 进程 组 中 ， 因 为 程序 本 
吴 是 不 清楚 如 何 操作 进程 组 ID 的 。 


对 于 任务 中 的 各 个 进程 来 讲 ， 父 进程 和 子 进程 都 可 以 使 用 setpgid() 
来 修改 子 进程 的 进程 组 DD。 但 是 ， 由 于 在 父 进 程 执行 fork()“ 参 见 24.4 
TW) 之 后 父 进程 与 子 进 程 之 间 的 调度 顺序 是 无 法 确定 的 ， 因 此 无 法 依靠 
父 进程 在 子 进程 执行 exec0 之 前 来 改变 于 进程 的 进程 组 ID， 同 样 也 无 法 
依靠 子 进程 在 父 进程 癌 其 发 送 任意 作业 控制 信号 之 前 修改 其 进程 组 ID。 
《依赖 这 些 行 为 中 的 任意 一 个 行为 都 会 导致 竞争 条 件 。) 因此， 在 编写 
作业 控制 snell 程 序 时 需要 让 父 进程 和 子 进程 在 forkO 调 用 之 后 立即 调用 





























setpgid0) 来 将 子 进 程 的 进程 组 ID 设置 为 同样 的 值 ， 并 且 父 进程 需要 忽略 
在 setpgid0 调 用 中 出 现 的 所 有 EACCES 错 误 。 换 名 话说 ， 在 一 个 作业 控 
制 shell 程 序 中 可 能 会 出 现 像 程 序 清单 34-1 中 给 出 的 代码 。 


程序 清单 34-1: 作业 控制 shell 程 序 如 何 设置 子 进程 的 进程 组 ID 





























pid t childPid; 

pid t pipelinePgid; /* PGID to which processes in a pipeline 
are to be assigned */ 

/* Other code */ 


childPid = fork(); 

switch (childPid) { 

case -1: /* fork() failed */ 
/* Handle error */ 


case 0: /* Child */ 
if (setpgid(0, pipelinePgid) == -1) 
/* Handle error */ 
/* Child carries on to exec the required program */ 


default: /* Parent (shell) */ 
if (setpgid(childPid, pipelinePgid) == -1 && errno != EACCES) 
/* Handle error */ 
/* Parent carries on to do other things */ 


} 








在 处 理由 管道 符 连 接 起 来 的 命令 时 事情 会 变 得 比 程 序 清单 34-1 更 加 
复杂 一 点 ， 父 shell 需 要 记录 管道 中 第 一 个 进程 的 进程 ID 并 使 用 这 个 值 
作为 该 组 中 所 有 进程 的 进程 组 ID (pipelinePgid) 。 


获取 和 修改 进程 组 ID 的 其 他 《〈 过 时 的 ) 接口 


这 里 需要 解释 一 下 为 何 getpgrp() 和 setpgid() 两 个 系统 调用 名 称 中 的 
ABA Fl 


在 一 开始 ，4.2BSD 提 供 了 一 个 getprgp(pid) 系 统 调用 来 返回 进程 ID 
为 pid 的 进程 的 进程 组 ID。 在 实践 中 ，pid 几 乎 总 是 用 来 表示 调用 进程 。 
结果 ，POSIX 委 员 会 认为 这 个 系统 调用 过 于 复杂 了 ， 因 此 他 们 采纳 了 
System V getpgrp() 系 统 调 用 ， 这 个 系统 调用 不 接收 任何 参数 并 返回 调用 
进程 的 进程 组 ID。 


为 了 修改 进程 组 ID，4.2BSD 提 供 了 setpgrp(pid,pgid) 系 统 调用 ， 它 与 

















setpgid0 的 行为 是 相似 的 。 这 两 个 系统 调用 之 间 最 主要 的 差别 在 于 BSD 
setpgrpO 能 够 用 来 将 进程 组 ID 设置 为 任意 值 。《〈 前 面 曾 经 提 及 过 不 能 使 
用 setpgid0 将 一 个 进程 迁移 至 其 他 会 话 中 的 进程 组 。) 这 会 引起 一 些 安 
全 问题 ， 但 在 实现 任务 控制 程序 时 也 更 加 灵活 。 结 果 ，POSIX 委 员 会 决 
定 给 这 个 函数 增加 额外 的 限制 条 件 并 将 其 命名 为 setpgid()。 


更 复杂 的 事情 是 SUSv3 指 定 了 一 个 getpgid(pid) 系 统 调用 ， 它 与 老式 
的 BSD getpgrpO 的 功能 是 一 样 的 。 此 外 ， 它 还 定义 了 一 个 从 System V 演 
人 它 不 接受 任何 参数 ， 与 setpgid(0, 0) 调 用 几乎 是 等 价 





尽管 对 于 实现 shell 作 业 控 制 来 讲 ， 利 用 前 面 介绍 的 setpgidO) 和 
getpgrpO 〇 系统 调用 已 经 足够 了。 但 与 其 他 大 多 数 UNIX 实 现 一 样 ，Linux 
也 提供 了 getpgid(pid) 和 setpgrp(void)。 为 了 同 后 兼容 ， 很 多 从 BSD 演 化 
人 


在 编译 程序 时 如 果 显 式 地 定义 _BSD_SOURCE 特 性 测试 宏 的 话 ， 
glibc 会 使 用 从 BSD 演 化 而 来 的 setpgrp0 和 getpgrp(0 来 取代 默认 版 本 。 








34.3 Si 


会 话 是 一 组 进程 组 集合 。 一 个 进程 的 会 证 成 员 关 系 古 由 其 会 话 ID 来 
定义 的 ， 会 话 ID 是 一 个 数字 。 新 进程 会 继承 其 父 进程 的 会 话 ID getsid() 
系统 调用 会 返回 pid 指 定 的 进程 的 会 话 ID。 





#define XOPEN SOURCE 500 
#include <unistd.h> 


pid_t getsid(pid_t pid); 


Returns session ID of specified process, or (pid_t) -1 on error 








如 果 pid 参 数 的 值 为 0， 那 么 getsid0) 会 返回 调用 进程 的 会 话 ID。 


在 一 些 UNIX 实 现 中 (如 HP-UX 11) ， 只 有 当 调 用 进 

程 与 pid 指 定 的 进程 属于 同一 个 会 话 时 才能 使 用 getsid0) 来 获 

取 进 程 的 会 WID. 〈SUSv3 无 此 限制 。) 换 句 话说 ， 只 能 

通过 这 个 调用 的 结果 ， 即 成 功 或 失败 (EPERM) ， 来 和 弄 清 

楚 指 定 进程 与 调用 进程 是 否 属于 同一 个 会 话 。 而 在 Linux 和 
大 多 数 其 他 实现 中 并 不 存在 这 一 限制 。 





如 果 调 用 进程 不 是 进程 组 首 进 程 ， 那 么 setsid0 会 创建 一 个 新 会 话 。 





#include <unistd.h> 
pid t setsid(void); 


Returns session ID of new session, or (pid_t) -1 on error 








setsid() 系 统 调用 会 按照 下 列 步 又 创建 一 个 新 会 话 。 


。 调用 进程 成 为 新 会 话 的 首 进程 和 该 会 话 中 新 进程 组 的 首 进程 。 调 用 
进程 的 进程 组 ID 和 会 话 ID 会 被 设置 成 该 进程 的 进程 ID。 
。 调用 进程 没有 控制 终端 。 所 有 之 前 到 控制 终 问 的 连接 都 会 被 断 开 。 


如 果 调 用 进程 是 一 个 进程 组 首 进程 ， 那 么 setsid0) 调 用 会 报 出 
EPERM 错 误 。 避 免 这 个 错误 发 生 的 最 简单 的 方式 是 执行 一 个 forkO 并 让 
父 进程 终止 以 及 让 子 进 程 调用 setsid0。 由 于 子 进 程 会 继承 其 父 进程 的 进 
22H ID 并 接收 属于 自己 的 唯一 的 进程 ID， 因 此 它 无 法 成 为 进程 组 首 进 


程 。 


约束 进程 组 首 进程 对 setsid0 的 调用 是 有 必要 的 。 因 为 如 果 没 有 这 个 
约束 的 话 ， 进 程 组 组 长 就 能 够 将 其 自身 迁移 至 为 一 个 (新 的 ) 会 话 中 
了 ， 而 该 进程 组 的 其 他 成 员 则 仍然 位 于 原来 的 会 话 中 。 不 会 创建 一 个 
新 进程 组 ， 因 为 根据 定义 ， 进 程 组 首 进程 的 进程 组 ID 已 经 与 其 进程 ID 一 
样 了 。) 这 会 破坏 会 话 和 进程 组 之 间 严 格 的 两 级 层次 ， 因 此 一 个 进程 组 
的 所 有 成 员 必 须 属于 同一 个 会 话 。 





当 使 用 fork0 创 建 一 个 新 进程 时 ， 内 核 会 确保 它 拥有 一 
个 唯一 的 进程 ID， 并 且 该 进程 ID 不 会 与 任意 已 有 进程 的 进 
程 组 ID 和 会 话 ID 相同 。 这 样 ， 即 使 进程 组 或 会 话 首 进程 退 
出 之 后 ， 新 进程 也 无 法 复 用 首 进程 的 进程 ID， 从 而 也 无 法 
成 为 既 有 会 话 和 进程 组 的 首 进程 。 








程序 清单 34-2 演 示 了 使 用 setsid0) 来 创建 一 个 新 会 话 。 为 了 检查 该 进 
程 已 经 不 再 拥有 控制 终 痢 了， 这 个 程序 尝试 打开 一 个 特殊 文 
件 /dev/tty〔 下 一 市 将 予以 介绍 ) 。 当 运行 这 个 程序 时 会 看 到 下 面 的 结 


$ ps -p $$ -o "pid pgid sid command' $$ is PID of shell 

PID PGID SID COMMAND 
12243 12243 12243 bash PID, PGID, and SID of shell 
$ ./t_setsid 


$ PID=12352, PGID=12352, SID=12352 
ERROR [ENXIO Device not configured] open /dev/tty 


从 输出 中 可 以 看 出 ， 进 程 成 功 地 将 其 目 身 迁移 至 了 新 会 话 中 的 一 个 
新 进程 组 中 。 由 于 这 个 会 话 没有 控制 终端 ， 因 此 open() 调 用 会 失败 。 
(从 上 面 程 序 输 出 的 倒数 第 二 行 中 可 以 看 出 ，hell 提 示 符 与 程序 输出 泥 
杂 在 一 起 了 ， 因 为 shell 注 意 到 父 进程 在 fork0O 调 用 之 后 就 退出 了 ， 因 此 
在 子 进程 结束 之 前 就 输出 了 下 一 个 提示 符 。) 























程序 清单 34-2 ”创建 一 个 新 会 话 














pesjc/t_setsid.c 
#define XOPEN SOURCE 500 
#include <unistd.h> 
#include <fcntl.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


if (fork() != 0) /* Exit if parent, or on error */ 
_exit(EXIT SUCCESS); 


if (setsid() == -1) 
errExit("setsid"); 


printf("PID=41d, PGID=%1d, SID=%ld\n", (long) getpid(), 
(long) getpgrp(), (long) getsid(0)); 


if (open("/dev/tty", O_RDWR) == -1) 


errExit("open /dev/tty"); 
exit (EXIT SUCCESS); 


pesjc/t_setsid.c 


34.4 控制 终端 和 控制 进程 


一 个 会 话 中 的 所 有 进程 可 能 会 拥有 一 个 〈 单 个) 控制 终端 。 会 话 在 
被 创建 出 来 的 时 候 是 没有 控制 终端 的 ， 当 会 话 首 进 程 首次 打开 一 个 还 没 
有 成 为 某 个 会 话 的 控制 终端 的 终端 时 会 建立 控制 终端 ， 除 非 在 调用 
open()iY#1E0_NOCTTY#nic 。 一 个 终端 至 多 只 能 成 为 一 个 会 话 的 控制 
ZS iff o 











SUSv3 定 义 了 函数 tcgetsid(int fd) 〈 在 <termios.h> 头 文件 
中 进行 定义 ) ， 它 返回 与 由 fd 指 定 的 控制 终端 相关 联 的 会 
话 的 ID。glibc 提 供 了 这 个 函数 《〈 它 是 使 用 ioctlO TIOCGSID 
操作 实现 的 ) 。 





控制 终端 会 被 由 forkO 创 建 的 子 进 程 继 承 并 且 在 execO 调 用 中 得 到 保 


持 





当 会 话 首 进程 打开 了 一 个 控制 终端 之 后 它 同 时 也 成 为 了 该 终端 的 控 
制 进程 。 在 发 生 终 端 断 开 之 后 ， 内 核 会 同 控 制 进程 发 送 一 个 SIGHUP 信 
o 的 发 生 。 在 34.6.2 节 中 将 会 介绍 更 多 有 关 这 一 方面 的 
细节 ak o 


如 果 一 个 进程 拥有 一 个 控制 终端 ， 那 么 打开 特殊 文件 /devwtty 就 能 够 
获取 该 终端 的 文件 描述 符 。 这 对 于 一 个 程序 在 标准 输入 和 输出 被 重 定 同 
之 后 需要 确保 目 己 确实 在 与 控制 终端 进行 通信 是 很 有 用 的 。 如 在 8.5 节 
中 介绍 的 getpassO 函 数 会 因此 而 打开 /dewtty。 如 果 进 程 没 有 控制 终端 ， 
那么 在 打开 /dewtty 时 会 报 出 ENXIO 的 错误 。 


删除 进程 与 控制 终端 之 间 的 关联 关系 


使 用 ioctl(fd, TIOCNOTTY) 操 作 能 够 删除 进程 与 文件 描述 符 fd 指 定 
的 控制 终端 之 间 的 关联 关系 。 在 调用 这 个 函数 之 后 再 试图 打开 /dewtty 文 














件 的 话 就 会 失败 。“《〈 尽 管 SUSv3 没 有 指定 这 个 操作 ， 但 大 多 数 UNIX 实 
现 都 支持 TIOCNOTTY 操 作 。) 


如 果 调 用 进程 是 终端 的 控制 进程 ， 那 么 在 控制 进程 终止 时 (参见 
34.6.2) 会 发 生 下 列 事情 。 


1. 会 话 中 的 所 有 进程 将 会 失去 与 控制 终端 之 间 的 关联 关系 。 


2. 控制 终端 失去 了 与 该 会 话 之 间 的 关联 关系 ， 因 此 另 一 个 会 话 首 
进程 就 能 够 获取 该 终端 以 成 为 控制 进程 。 

3. 内 核 会 回 前 台 进 程 组 的 所 有 成 员 发 送 一 个 SIGHUP 信 和 号 《和 一 个 
SIGCONT 信 号 ) 来 通知 它们 控制 终端 的 丢失 。 
在 BSD 上 建立 一 个 控制 终端 

SUSv3 并 不 文 持 一 个 会 话 获 取 未 指定 的 控制 终端 ， 在 打开 终端 时 仅 


# 定 O_NOCTTY 标 记 的 话 只 能 确保 该 终端 不 会 成 为 会 话 的 控制 终端 
上 面 描述 的 Linux 语 义 源 自 System V 系 统 。 

在 BSD 系 统 上 ， 在 会 话 首 进程 中 打开 一 个 终端 不 会 导致 该 终端 成 为 
控制 终端 ， 不 管 是 否 指定 了 O_NOCTTY 标 记 。 相 反 ， 会 话 首 进程 需要 
使 用 ioctl0 TIOCSCTTY 操 作 来 显 式 地 将 文件 描述 符 fd 指 定 的 终端 建立 为 
控制 终端 。 


if (ioctl(fd，TIOCSCTTY) == -1) 
errExit ("ioctl"); 


只 有 在 会 话 没 有 控制 终端 时 才能 执行 这 个 操作 。 


Linux 系 统 上 也 有 TIOCSCTTY 操 作 ， 但 在 其 他 〈 非 BSD) 实现 中 用 
得 并 不 多 。 


获取 表示 控制 终端 的 路 径 名 : ctermid() 


ctermid0O 函 数 返 回 表示 控制 终端 的 路 径 名 。 




















#include <stdio.h> /* Defines L_ctermid constant */ 


char *ctermid(char *ttyname) ; 


Returns pointer to string containing pathname of controlling terminal, 
or NULL if pathname could not be determined 











ctermid() 函 数 以 两 种 不 同 的 方式 返回 控制 终端 的 路 径 名 : 通过 函数 
结果 和 通过 ttyname 指 向 的 缓冲 区 。 


如 有 果 ttyname 不 为 NULL， 那 么 它 是 一 个 大 小 至 少 为 L_ctermid 字 节 的 
绥 冲 区 ， 并 且 路 径 名 会 被 复制 进 这 个 数组 中 。 这 里 浮 数 的 返回 值 也 是 一 
个 指向 该 缓冲 区 的 指针 。 如 果 ttyname 为 NULL， 那 么 ctermid0 返 回 一 个 
指 回 静态 分 配 的 缓冲 区 的 指针 ， 绥 锌 区 中 包含 了 路 径 名 。 当 ttyname 为 
NULL 时 ，ctermidO 是 不 可 重 入 的 。 


在 Linux 和 其 他 UNIX 实 现 中 ，ctermid0 通 常会 生成 字符 串 /dewtty。 
引入 这 个 函数 的 目的 是 为 了 能 更 加 容易 地 将 程序 移植 到 非 UNIX 系 统 
By 





34.5 ”前台 和 后 台 进 程 组 


控制 终端 保留 了 前 台 进 程 组 的 概念 。 在 一 个 会 话 中 ， 在 同一 时 刻 只 
有 一 个 进程 能 成 为 前 台 进 程 ， 会 话 中 的 其 他 所 有 进程 都 是 后 台 进 程 组 。 
前 台 进 程 组 是 唯一 能 够 自由 地 读 取 和 写 入 控制 终端 的 进程 组 。 当 在 控制 
终端 中 输入 其 中 一 个 信号 生成 终端 字符 之 后 ， 终 端 驱动 器 会 将 相应 的 信 
号 发 送 给 前 台 进程 组 的 成 员 。34.7 节 将 会 对 此 进行 深入 介绍 。 





从 理论 上 来 讲 ， 可 能 会 出 现 一 个 会 话 没 有 前 台 进 程 组 
的 情况 。 如 当前 合 进程 组 中 的 所 有 进程 都 终止 并 且 没 有 其 
他 进程 注意 到 这 个 事实 而 将 自己 移动 到 前 台 时 就 会 出 现 这 
种 情况 。 但 在 实践 中 这 种 情况 是 比较 少见 的 。 通 党 shell 进 
旦 会 监控 前 台 进 程 组 的 状态 ， 当 它 注 意 到 前 台 进 程 组 结束 
之 后 (通过 wait()) 会 将 自己 移动 到 前 台 。 





tcgetpgrp() 和 tcsetpgrp0 函 数 分 别 获 取 和 修改 一 个 终 病 的 进程 组 。 这 
些 函 数 主要 供 任务 控制 shell 使 用 。 





ftinclude <unistd.h> 


pid_t tcgetpgrp(int fd); 


Returns process group ID of terminal’s foreground process group, 
or -1 on error 


int tcsetpgrp(int fd, pid_t pgid); 





Returns 0 on success, or -1 on error 








tegetpgrp() PA Bi E| SC 1 Hitt 8 FF fd Pt Tis E I A a FY BT S RETE FY aE 
THID, 1%% vin ioe Vad FA ERE HI FE till sino 


如 果 这 个 终端 没有 前 台 进 程 组 ， 那 么 tcgetpgrp0O 返 回 一 
个 大 于 1 并 且 与 所 有 既 有 进程 组 ID 都 不 匹配 的 值 。〈SUSv3 
规定 了 这 种 行为 。) 





tcsetpgrpO 函 数 修改 一 个 终端 的 前 台 进 程 组 。 如 果 调 用 进程 拥有 一 
个 控制 终端 ， 那 么 文件 描述 符 fd 引 用 的 就 是 那个 终端 ， 接 痢 tcsetpgrp(O) 会 
将 终端 的 前 人 台 进 程 组 设置 为 pgid 参 数 指定 的 进程 组 ， 该 参数 必须 与 调用 
进程 所 属 的 会 话 中 的 一 个 进程 的 进程 组 ID 匹配 。 


tcgetpgrp() 和 tcsetpgrpO 在 SUSv3 中 都 被 标准 化 了 。 在 Linuxz 上 ， 与 
很 多 其 他 UNIX 实 现 一 样 ， 这 些 函数 是 通过 两 个 非 标准 的 ioctLO 操 作 来 实 
现 的 ， 即 TIOCGPGRP 和 TIOCSPGRP。 





34.6 SIGHUP{Z 5 


当 一 个 控制 进程 失去 其 终端 连接 之 后 ， 内 核 会 向 其 发 送 一 个 
SIGHUP 信 号 来 通知 它 这 一 事实 。 (还 会 发 送 一 个 SIGCONT 信 号 以 确保 
当 该 进程 之 前 被 一 个 信号 停止 时 重新 开始 该 进程 。) 一 般 来 讲 ， 这 种 情 
况 可 能 会 在 下 面 两 个 场景 中 出 现 。 


e EONS, RRR ES 

9 丢失 。 

。 当 工作 站 上 的 终端 窗口 被 关闭 时 。 发 生 这 种 情况 是 因为 最 近 打开 的 
与 终端 窗口 关联 的 伪 终 端的 主 侧 的 文件 描述 符 被 关闭 了 。 


SIGHUP 信 号 的 默认 处 理 方式 是 终止 进程 。 如 果 控 制 进程 处 理 了 或 
人 
结束 的 错误 。 











SUSv3 声 称 如 果 终 端 断 开 发 生 的 同时 还 满足 调用 read0 
时 抛 出 EIO 错 误 的 条 件 的 话 ， 那 么 调用 readO0 既 有 可 能 返回 
文件 结束 ， 也 有 可 能 返回 EIO 错 误 。 可 移植 的 程序 必须 要 处 
理 好 这 两 种 情况 。 在 34.7.2 节 和 34.7.4 节 中 将 介绍 在 哪些 情 
况 下 调用 read0 会 发 生 EIO 错 误 。 


问 控 制 进 程 发 送 SIGHUP 信 号 会 引起 一 种 链 式 反 应 ， 从 而 导致 将 
UR E T R A E 


。 控制 进程 通常 是 一 个 shell。shell 建 立 了 一 个 SIGHUP 信 号 的 处 理 
器 ， 这 样 在 进程 终止 之 前 ， 它 能 够 将 SIGHUP 信 号 发 送 给 由 它 所 创 
建 的 各 个 任务 。 在 默认 情况 下 ， 这 个 信和 号 会 终止 那些 任务 ， 但 如 宋 
它们 捕获 了 这 个 信号 ， 就 能 知道 shell 进 程 已 经 终止 了 。 








。 在 终止 终端 的 控制 进程 时 ， 内 核 会 解除 会 话 中 所 有 进程 与 该 控制 终 
端 之 间 的 关联 关系 以 及 控制 终端 与 该 会 话 的 关联 关系 (因此 男 一 个 
会 话 首 进程 可 以 请 求 该 终端 成 为 控制 终端 了 ) ， 并 目 通 过 向 该 终端 
PRR 时 组 的 成 员 发 送 SIGHUP 信 号 来 通知 它们 控制 终端 的 丢 





下 一 节 将 深入 介绍 这 两 种 方式 的 细 市 信息 。 


SIGHUP 信 号 也 可 以 用 作 他 用 。 在 34.7.4 节 中 可 以 看 到 
当 一 个 进程 组 成 为 孤儿 进程 组 时 会 生成 SIGHUP 信 和 号。 此 
外 ， 手 工 发 送 SIGHUP 信 号 通常 用 来 触发 daemon 进 程 重 新 
初始 化 目 身 或 重新 读 取 其 配置 文件 。“《〈 根 据 定 义 ，daemon 
进程 没有 控制 终端 ， 因 此 无 法 从 内 核 接收 SIGHUP 信 号 
37.4 节 将 会 介绍 如 何 配合 使 用 SIGHUP 信 号 和 daemon 进 程 。 


34.6.1 ”在 shell 中 处 理 SIGHUP 信 号 


在 登录 会 话 中 ，shel] 通 常 是 终端 首 的 控制 进程 。 大 多 数 shell 程 序 在 交 
互 式 运行 时 会 为 SIGHUP 信 号 建立 一 个 处 理 器 。 这 个 处 理 器 会 终止 
shell， 但 在 终止 之 前 会 同 由 shell 创 建 的 各 个 进程 组 (包括 前 台 和 后 台 进 
TH) 发 送 一 个 SIGHUP 信 号 。 (在 SIGHUP 信 号 之 后 可 能 会 发 送 一 个 

SIGCONT 信 和 号， 这 依赖 于 shell 本 喘 以 及 任务 当前 是 否 处 于 停止 状 
态 。) 至 于 这 些 组 中 的 进程 如 何 响应 SIGHUP 信 号 则 需要 根据 应 用 程序 
的 具体 需求 ， 如 果 不 采 取 特 殊 的 动作 ， 那 么 默认 情况 下 将 会 终止 进程 。 








一 些 任 务 控 制 shell 在 正常 退出 (如 登 出 或 在 shell 窗 口 
中 接 下 Control-D) 时 也 会 发 送 SIGHUP 信 和 号 来 停止 后 台 任 
务 。bash 和 Korn shell 都 采取 了 这 种 处 理 方式 〈 在 首次 登 出 








尝试 时 打印 出 一 条 消息 之 后 ) 。 





nohup(1) 命 令 可 以 用 来 使 一 个 命令 对 SIGHUP 信 号 免疫 
一 一 即 执行 命令 时 将 SIGHUP 信 号 的 处 理 设 置 为 SIG_IGN。 
bash 内 置 的 命令 disown 提 供 了 类 似 的 功能 ， 它 从 shell 的 任务 
列表 中 删除 一 个 任务 ， 这 样 在 shell 终 止 时 就 不 会 回 该 任务 
发 送 SIGHUP 信 号 了 。 


程序 清单 34-3 演 示 了 shell 接 收 SIGHUP 信 号 并 向 其 创建 的 任务 发 送 
SIGHUP 信 和 号 的 过 程 。 这 个 程序 的 主要 任务 是 创建 一 个 子 进程 ， 然 后 让 
父 进程 和 子 进 程 暂 停 执 行 以 捕获 SIGHUP 信 和 号 并 在 收 到 该 信号 时 打印 一 
条 消息 。 如 果 在 执行 程序 时 使 用 了 一 个 可 选 的 命令 行 参数 〈 它 可 以 是 任 
意 字符 串 ) ， 那 么 子 进 程 会 将 其 自身 放置 在 一 个 不 同 的 进程 组 中 〈 在 同 
一 个 会 话 中 ) 。 这 个 功能 对 于 说 明 shell 不 会 向 不 是 由 它 创建 的 进程 组 发 
送 SIGHUP 信 号 ， 即 使 该 进程 组 与 shell 位 于 同一 个 会 话 中 来 讲 是 非常 有 
用 的 。〔 由 于 程序 中 最 后 一 个 for 循 环 是 一 个 无 限 循环 ， 因 此 这 个 程序 使 
用 了 alarm0 设 置 一 个 定时 器 来 发 送 SIGALRM 信 和 号。 如 果 一 个 进程 没有 
终止 的 话 ， 那 么 当 它 接收 到 SIGALRM 信 号 而 不 做 处 理 时 会 导致 进程 终 
止 。) 


























程序 清单 34-3: 捕获 SIGHUP 信 和 号 











pgsjc/catch_SIGHUP.c 


#define XOPEN SOURCE 500 
#include <unistd.h> 
#include <signal.h> 
#include "tlpi hdr.h" 


static void 
handler({int sig) 
{ 


} 


Int 
main(int argc, char *argv[]) 


pid t childPid; 
struct sigaction sa; 


setbuf(stdout, NULL); /* Make stdout unbuffered */ 


sigemptyset(&sa.sa_mask); 

sa.sa_flags = 0; 

sa.sa_handler = handler; 

if (sigaction(SIGHUP, &sa, NULL) == -1) 
errExit("sigaction"); 


childPid = fork(); 
if (childPid == -1) 
errExit ("fork"); 


if (childPid == 0 && argc > 1) 
if (setpgid(0, 0) == -1) /* Move to new process group */ 
errExit("setpgid"); 


printf("PID=%ld; PPID=%ld; PGID=%ld; SID=%ld\n", (long) getpid(), 
(long) getppid(), (long) getpgrp(), (long) getsid(o)); 


alarm(60); /* An unhandled SIGALRM ensures this process 
will die if nothing else terminates it */ 
for(;;) { /* Wait for signals */ 
pause(); 


printf("%ld: caught SIGHUP\n", (long) getpid()); 
} 


pesjc/catch_SIGHUP.c 


假设 在 一 个 终 ? 令 来 运行 程序 清单 34-3 中 的 
程序 的 两 个 实例 ， 接 看 关闭 终端 窗口 


$ echo $$ PID of shell is ID of session 
5533 

$ ./catch_SIGHUP > samegroup.log 2>81 & 

$ ./catch_SIGHUP x > diffgroup.log 2>&1 


NaS IR 会 导致 创建 两 个 进程 ， 这 两 个 进程 属于 由 shell 创 建 的 进 
i 命令 创建 了 一 个 子 进程 ， 子 进程 将 自身 放置 在 了 一 个 不 同 
和 进程 组 中 。 


当 查 看 samegroup.log 时 会 发 现 其 中 包含 了 下 面 的 输出 ， 表 明 两 个 进 
程 组 的 成 员 都 收 到 了 shell 发 送 的 信和 号 。 





$ cat samegroup.log 
PID=5612; PPID=5611; PGID=5611; SID=5533 Child 
PID=5611; PPID=5533; PGID=5611; SID=5533 Parent 
5611: caught SIGHUP 
5612: caught SIGHUP 


当 查 看 diffgroup.log 时 会 发 现下 面 的 输出 ， 表 明 shell 在 收 到 SIGHUP 
时 不 会 癌 不 是 由 它 创建 的 进程 组 发 送信 和 号。 
$ cat diffgroup.log 
PID=5614; PPID=5613; PGID=5614; SID=5533 Child 


PID=5613; PPID=5533; PGID=5613; SID=5533 Parent 
5613: caught SIGHUP Parent was signaled, but not child 


34.6.2 ”SIGHUP 和 控制 进程 的 终止 


如 果 因 为 终端 断 开 引起 的 向 控制 进程 发 送 的 SIGHUP 信 号 会 导致 控 
制 进程 终止 ， 那 么 SIGHUP 信 号 会 被 发 送 给 终端 的 前 台 进 程 组 中 的 所 有 
成 员 《〈 见 25.2 节 ) 。 这 个 行为 是 控制 进程 终止 的 结果 ， 而 不 是 专门 与 
SIGHUP 信 号 关联 的 行为 。 如 果 控 制 进程 出 于 任何 原因 终止 ， 那 么 前 合 
进程 组 就 会 收 到 SIGHUP 信 号。 





在 Linux 上 ，SIGHUP 信 号 后 面 会 跟 痢 一 个 SIGCONT 信 
号 以 确保 在 进程 组 之 前 被 一 个 信号 停止 的 情况 下 恢复 该 进 
时 组。 但 SUSv3 并 没有 指定 这 种 行为 ， 并 且 在 这 种 情况 下 
大 多 数 其 他 UNIX 实 现 不 会 发 送 SIGCONT 信 号 。 











程序 清单 34-4 演 示 了 控制 进程 的 终止 导致 癌 终端 的 前 台 进 程 组 的 所 
有 成 员 发 送 SIGHUP 信 号 。 这 个 程序 为 每 个 命令 行 参 数 都 创建 了 一 个 子 
进程 包 。 如 果 相 应 的 命令 行 参数 是 4， 那 么 子 进 程 会 将 自身 放置 在 自己 
的 《不同 的 ) 进程 组 中 @， 否 则 的 话 子 进程 加 入 到 父 进 程 所 在 的 进程 组 
中 。 (这 里 使 用 了 字母 s 来 指定 后 面 这 种 处 理 方式 ， 尺 管 可 以 使 用 除 d 
之 外 的 任意 字母 。) 接着 各 个 子 进程 设置 了 SIGHUP 信 号 处 理 吕 (4)。 为 
确保 它们 能 够 在 进程 终止 事件 不 发 生 的 情况 下 正常 终止 ， 父 进程 和 子 进 














程 都 调用 了 alarm() 设 置 一 个 定时 器 以 在 60 秒 之 后 发 送 一 个 SIGALRM 信 
号 @。 最 后 所 有 进程 〈 包 括 父 进程 ) 打印 出 了 它们 的 进程 ID 和 进程 组 
ID(G)， 接 着 循环 等 待 信号 的 到 达 (@O。 当 发 出 信号 之 后 ， 处 理 器 会 打印 出 
进程 的 进程 ID 和 信和 号 数值 四 。 














程序 清单 34-4 在 终端 断 开 发 生 时 捕获 SIGHUP 信 和 号 























一 pgsjc/disc SIOHUP.c 
#define _GNU_SOURCE /* Get strsignal() declaration from <string.h> */ 

#include <string.h> 

#include <signal.h> 

#include "tlpi hdr.h" 


static void /* Handler for SIGHUP */ 
handler(int sig) 


{ 
© printf ("PID %ld: caught signal %2d (%s)\n", (long) getpid(), 
sig, strsignal(sig)); 
/* UNSAFE (see Section 21.1.2) */ 


Int 
main(int argc, char *argv[]) 


pid t parentPid, childPid; 
int j; 
struct sigaction sa; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s {d|s}... [ > sig.log 2>&1 ]\n", argv[0]); 


setbuf(stdout, NULL); /* Make stdout unbuffered */ 


parentPid = getpid(); 
printf("PID of parent process is: %ld\n", (long) parentPid); 
printf("Foreground process group ID is: %4ld\n", 

(long) tcgetpgrp(STDIN_FILENO)); 


© for (j = 1; j < argc; j++) { /* Create child processes */ 
childPid = fork(); 
if (childPid == -1) 
errExit("fork"); 


if (childPid == 0) { /* Tf child... */ 
© if (argv[j][o] == 'd') /* 'd' --> to different pgrp */ 
if (setpgid(0, 0) == -1) 
errExit("setpgid"); 


sigemptyset (&sa.sa_mask); 
sa.sa flags = 0; 
sa.sa handler = handler; 


@) if (sigaction(SIGHUP, &sa, NULL) == -1) 
errExit("sigaction"); 
break; /* Child exits loop */ 
} 
} 


/* All processes fall through to here */ 
© alarm(60); /* Ensure each process eventually terminates */ 
®© printf("PID=%ld PGID=%ld\n", (long) getpid(), (long) getpgrp()); 
D 5 T eh /* Wait for signals */ 
pgsjc/disc_SIGHUP.c 
P 假设 使 用 下 面 的 命令 在 一 个 终端 窗口 中 运行 了 程序 清单 34-4 中 的 程 
Fo 





$ exec ./disc_SIGHUP d s s > sig.log 2>&1 


exec 命 令 时 一 个 shell 内 置 命 令 ， A 导致 shell 执 行 一 个 exec() 来 使 用 
指定 的 程序 取代 自己 。 由 于 shell 是 终端 的 控制 进程 ， 因 此 现在 这 个 程 
序 已 经 成 为 了 控制 进程 并 且 在 终 * 
在 关闭 终端 窗口 之 后 ， 在 Sig.log 文 件 中 会 看 到 下 面 的 输出 。 


PID of parent process is: 12733 

Foreground process group ID is: 12733 

PID=12755 PGID=12755 First child is in a different process group) 
PID=12756 PGID=12733 Remaining children are in same PG as parent 
PID=12757 PGID=12733 


PID=12733 PGID=12733 This is the parent process 
PID 12756: caught signal 1 (Hangup) 
PID 12757: caught signal 1 (Hangup) 


关闭 终端 窗口 会 导致 SIGHUP 信 号 被 发 送 给 控制 进程 ( 父 进 程 〉， 
HET SP BUTAREAR IS 用 止 。 从 上 面 可 以 看 出 ， 两 个 子 进程 与 父 进程 位 于 同 
一 个 进程 组 中 《终端 的 前 人 台 进 程 组 ) ， 它 们 都 收 到 了 SIGHUP 信 号 ， 但 
位 于 另 一 个 进程 组 Ca) 中 的 子 进程 并 没有 收 到 这 个 信号 。 


34.7 ”作业 控制 


作业 控制 是 在 1980 年 左右 由 BSD 系 统 上 的 C shell 首 次 推出 的 特性 。 
作业 控制 允许 一 个 shel 用 户 同 时 执行 多 个 命令 〈 作 业 ) ， 其 中 一 个 命令 
在 前 台 运 行 ， 其 余 的 命令 在 后 台 和 运行。 作业 可 以 被 停止 和 恢复 以 及 在 前 
后 台 之 间 移 动 ， 下 面 会 对 此 了 予以 详细 介绍 。 





在 初始 的 POSIX.1 标 准 中 ， 对 作业 的 支持 是 可 选 的 。 后 
面 的 UNIX 标 准 使 这 个 功能 成 为 了 必 备 功能 。 


在 基于 字符 的 哑 终 端 盛 行 的 年 代 《〈 物 理 终端 设备 只 能 显示 ASCII 字 
符 ) ， 很 多 shell 用 户 都 知道 如 何 使 用 shell 作 业 控 制 命令 。 在 运行 X 
Window System 的 位 图 显示 器 出 现 之 后 ， 熟 悉 shell 作 业 控 制 的 人 束 越 来 
越 少 了 ， 但 作业 控制 仍然 是 一 项 非常 有 用 的 特性 。 使 用 作业 控制 管理 多 
个 同时 执行 的 命令 比 在 几 个 窗口 之 间 来 回 切换 更 快速 和 简单 。 对 于 那些 
不 熟悉 作业 控制 的 读者 来 讲 ， 可 以 看 一 下 下 面 这 个 简短 的 入 门 指南 。 在 
介绍 完 入 门 指南 之 后 将 会 介绍 作业 控制 实现 方面 的 细节 信息 并 考虑 作业 
控制 对 应 用 程序 设计 的 约束 。 


34.7.1 在 shell 中 使 用 作业 控制 


当 输 入 的 命令 以 & 符 号 结束 时 ， 该 命令 会 作为 后 合 任务 运行 ， 如 下 
面 的 示例 所 示 。 


$ grep -x SIGHUP /usr/src/linux >x & 








[1] 18932 Job I: process running grep has PID 18932 
$ sleep 60 & 
[2] 18934 Job 2: process running sleep has PID 18934 


shell 会 为 后 台 的 每 个 进程 赋 一 个 唯一 的 作业 号 。 当 作业 在 后 台 运 行 
之 后 以 及 在 使 用 各 种 作业 控制 命令 操作 或 监控 作业 时 作业 号 会 显示 在 方 
括 写 中 。 作 业 和 号 后 面 的 数字 是 执行 这 个 命令 的 进程 的 进程 ID 或 管道 中 最 








后 一 个 进程 的 进程 ID。 在 后 面 几 个 段落 中 介绍 的 命令 中 会 使 用 ”%num 来 
引用 作业 ， 其 中 num 是 shell 赋 给 作业 的 作业 号 。 








在 很 多 情况 下 是 可 以 省 略 %num 的 ， 当 省 略 %num 时 默 
认 指 当前 作业 。 当 前 作业 是 在 前 合 最 新 被 停止 的 作业 〈 使 
用 下 面 介绍 的 挂 起 字符 ) 或 者 如 果 没 有 这 样 的 作业 的 话 ， 
最 新 作业 是 在 后 人 台 局 动 的 任务 。 《不同 shell 确 定 哪个 后 合 
作业 为 当前 作业 的 细 市 方面 稍微 有 些 不 同 。〉 为 外 ，%% 
和 9%+ 符 号 指 的 是 当前 作业 ，%- 符 号 指 的 是 上 一 个 当前 作 
业 。 在 jobs 命 令 的 输出 中 ， 当 前 的 和 上 一 个 当前 作业 分 别 用 
加 号 (+) MRS OC) 标记 ， 稍 后 就 会 对 此 了 予以 介绍 。 

















jobs 是 shell 内 置 的 一 个 命令 ， 它 会 列 出 所 有 后 台 作 业 。 


$ jobs 
[1]- Running grep -r SIGHUP /usr/src/linux >x & 
[2]+ Running sleep 60 & 


在 这 个 时 刻 ，shell 是 终端 的 前 台 进 程 。 由 于 仪 有 一 个 前 台 进 程 能 够 
从 控制 终端 读 取 输 入 和 接收 终端 生成 的 信号 ， 因 此 有 了 时候 需 要 将 后 人 台 作 
业 移 动 到 前 台 。 这 是 通过 fg 这 个 shell 内 置 命 令 来 完成 的 。 


$ fg %1 
grep -r SIGHUP /usr/src/linux >x 


从 上 面 的 示例 中 可 以 看 出 ， 当 在 前 后 人 台 之 间 移 动作 业 时 shell 会 重新 
打印 出 该 作业 的 命令 行 。 读 者 通过 阅读 下 面 的 内 容 就 会 发 现 ， 当 作业 在 
后 台 的 状态 发 生变 化 时 ，shell 也 会 重新 打印 该 作业 的 命令 行 。 





当 作 业 在 前 台 运 行 时 可 以 使 用 终端 挂 起 字符 (通常 是 Control-Z) 来 
挂 起 作业 ， 它 会 回 终 端的 前 台 进 程 组 发 送 一 个 SIGTSTP 信 号。 


Type Control-Z 
[1]+ Stopped grep -r SIGHUP /usr/src/linux >x 


在 按 下 Control-Z 之 后 ，shell 会 打印 出 在 后 台 被 停止 的 命令 。 如 果 需 
要 的 话 ， 可 以 使 用 fg 命令 在 前 台 恢 复 这 个 作业 或 使 用 bg 命令 在 后 台 恢 复 
这 个 命令 。 不 管 使 用 哪个 命令 恢复 作业 ，shell 都 会 通过 向 任务 发 送 一 个 
SIGCONT 信 号 来 恢复 被 停止 的 作业 。 


$ bg %1 
[1]+ grep -r SIGHUP /usr/src/linux >x & 


通过 向 后 台 作 业 发 送 一 个 SIGSTOP 信 和 号 能 够 停止 该 后 台 作业 。 


$ kill -STOP %1 








[1]+ Stopped grep -r SIGHUP /usr/src/linux >x 

$ jobs 

[1]+ Stopped grep -r SIGHUP /usr/src/linux >x 

[2]- Running sleep 60 & 

$ bg %1 Restart job in background 


[1]+ grep -r SIGHUP /usr/src/linux >x & 


Korn 和 C shell 提 供 了 一 个 命令 stop 作 为 kill-stop 快 捷 方 
ue 





当 后 台 作 业 最 后 执行 结束 之 后 ，shell 会 在 打印 下 一 个 shell 提 示 符 之 
前 先 打 印 一 条 消 居 。 


Press Enter to see a further shell prompt 


[1]- Done grep -r SIGHUP /usr/src/linux >x 
[2]+ Done sleep 60 
$ 


只 有 前 台 作 业 中 的 进程 才能 够 从 控制 终端 中 读 取 输入 。 这 个 限制 条 
件 避 免 了 多 个 作业 竞争 读 取 终端 输入 。 如 果 后 台 人 作业 尝试 从 终端 中 读 取 
输入 ， 就 会 接收 到 一 个 SIGTTIN 信 号 。SIGTTIN 信 号 的 默认 处 理 动 作 是 
停止 作业 。 


FEE“ BF VA AJ TS JLT EAS ts BEF 
回 车 键 就 能 看 到 作业 状态 变更 信息 。 根 据 内 核 的 调度 决 
策 ，shell 可 能 会 在 打印 下 一 个 shell 提 示 符 之 前 接收 到 有 关 
后 台 作 业 状 态 变 更 的 通知 。 





现在 必须 要 将 作业 移 到 前 台 来 (fg) 并 向 其 提供 所 需 的 输入 了 。 如 
果 需 要 的 话 ， 可 以 通过 先 挂 起 该 作业 后 在 后 台 恢复 该 作业 bg》 的 方式 
继续 该 作业 的 执行 。 (当然 ， 在 这 个 特定 的 例子 中 ，cat 将 会 再 次 立即 被 
停止 ， 因 为 它 会 再 次 尝试 从 终端 中 读 取 输入 。) 


在 默认 情况 下 ， 后 台 作 业 是 被 允许 同 控 制 终端 输入 内 容 的 。 但 如 果 
终端 设置 了 TOSTOP 标 记 终 端 输 出 停止 ， 参 见 62.5 闻 )， 那 么 当 后 台 
作业 尝试 在 终端 上 输出 时 会 导致 SIGTTOU 信 号 的 产生 。 (使 用 stty 命 令 
能 够 设置 TOSTOP 标 志 ，62.3 节 将 会 对 此 予以 介绍 。) 与 SIGTTIN 信 和 号 
一 样 ，SIGTTOU 信 和 号 会 停止 作业 。 


$ stty tostop Enable TOSTOP flag for this terminal 
$ date & 

[1] 19023 

$ 

Press Enter once more to see job state changes displayed prior to next shell prompt 


[1]+ Stopped date 
可 以 通过 将 作业 移 到 前 全 来 得 看 作业 的 输出 。 


$ fg 
date 
Tue Dec 28 16:20:51 CEST 2010 


作业 具备 多 种 状态 ， 作 业 控 制 以 及 shell 命 令 和 终端 字符 (以 及 相应 
的 信号 ) 可 以 使 作业 在 不 同 状态 之 间 迁 移 ， 图 34-2 对 作业 的 状态 进行 了 
总 结 。 这 些 作 业 可 以 通过 同 作 业 发 送 各 种 信号 来 到 达 ， 如 SIGINT 和 
SIGQUIT 信 号 ， 而 这 些 信号 可 以 通过 键盘 来 生成 。 
















= 1. Control-C (SIGINT 
在 前 端 执行 ---------- 
2. Control-\ (SIGQUIT) 


wh 






1. kill -STOP (SIGSTOP) 
2, 终端 读 (SIGTTIN) 
3. 终端 写 (+TOSTOP ) (SIGTTOU) 


图 34-2 ”作业 控制 状态 
34.7.2 ”实现 作业 控制 


本 节 将 先 介 绍 与 实现 作业 控制 有 关 的 各 个 方面 ， 最 后 介绍 一 个 能 使 
作业 控制 操作 更 加 透明 的 示例 程序 。 


尽管 作业 控制 一 开始 在 POSIX.1 标 准 中 是 可 选 的， 但 在 后 面 的 标准 
包括 SUSvV3， 则 要 求实 现 必须 要 支持 作业 控制 。 这 种 支持 所 震 的 条 
iT: 


。 实现 必须 要 提供 特定 的 作业 控制 信号 : SIGTSTP. SIGSTOP, 
SIGCONT、SIGTTOU 以 及 SIGTTIN。 此 外 ，SIGCHLD 信 号 (参见 
26.3 节 ) 也 是 必需 的 ， 因 为 它 允 许 shell (所 有 任务 的 父 进程 ) 找 出 
其 子 进程 何 时 执行 终止 或 被 停止 了 。 

o 终端 驱动 器 必须 要 文 持 作业 控制 信号 的 生成 ， 这 样 当 输 入 特定 的 字 
符 或 进行 终端 VO 以 及 在 后 台 作 业 中 执行 特定 的 其 他 终端 操作 (下 
面 将 会 予以 介绍 ) 时 需要 将 恰当 的 信号 《〈 如 图 34-2 所 示 ) 发 送 到 相 
关 的 进程 组 。 为 了 能 够 完成 这 些 动作 ， 终 端 驱动 器 必须 要 记录 与 终 





端 相 关联 的 会 话 ID 〈 控 制 进程 ) 和 前 台 进 程 组 ID 〈 图 34-1) 。 
shell 必 须要 支持 作业 控制 (大 多 数 现 代 shell 都 具备 这 个 功能 ) 。 这 
种 支持 是 通过 前 面 介绍 的 将 作业 在 前 台 和 后 台 之 间 迁 移 以 及 监控 作 
业 的 状态 的 命令 的 形式 来 完成 的 。 其 中 某 些 命令 会 向 作业 发 送信 和 号 
《如 图 34-2 所 示 ) 。 此 外 ， 在 执行 将 作业 从 前 台 运 行 的 状态 迁移 至 
其 他 状态 的 操作 中 ，shell 使 用 tcsetpgrpO 调 用 来 调整 终端 驱动 器 中 
与 前 台 进 程 组 有 关 的 记录 信息 。 











在 20.5 节 中 曾经 讲 过 ， 信 号 一 般 只 有 在 发 送 进程 的 真 
实 或 有 效用 户 ID 与 接收 进程 的 真实 用 户 ID 或 保存 的 set-user- 
ID 匹配 时 才 会 被 发 送 给 进程 ， 但 SIGCONT 是 这 个 规则 的 一 
个 例外 。 内 核 允许 一 个 进程 〈 如 shell) 向 同一 会 话 中 的 任 
意 进 程 发 送 SIGCONT 信 号 ， 不 管 进程 的 验证 信息 是 什么 。 
在 SIGCONT 信 号 上 放宽 这 个 规则 是 有 必要 的 ， 这 样 当 用 户 
开始 一 个 会 修改 自身 的 验证 信息 〈 特 别 是 真实 的 用 户 ID) 
的 set-user-ID 程 序 时 ， 仍 然 能 够 在 程序 被 停止 时 通过 
SIGCONT 信 和 号 来 恢复 这 个 程序 的 运行 。 





SIGTTIN 和 SIGTTOU 信 和 号 


SUSv3 对 后 台 进 程 的 SIGTTIN 和 SIGTTOU 信 和 号 的 产生 规定 了 一 些 特 
殊 情 况 〈Linux 实 现 了 这 些 规 定 ) 。 


。 当 进 程 当前 处 于 阻塞 状态 或 忽视 SIGTTIN 信 号 的 状态 时 则 不 发 送 
SIGTTIN 信 号 ， 这 时 试图 从 控制 终端 发 起 read() 调 用 会 失败 ，errno 
会 被 设置 成 EIO。 这 种 行为 的 逻辑 是 没有 这 种 行为 的 话 进程 就 无 法 
知道 不 允许 进行 read0 操 作 。 

。 即使 终端 被 设置 了 TOSTOP 标 记 ， 当 进程 当前 处 于 阻塞 状态 或 忽视 
SIGTTIN 信 号 的 状态 时 也 不 发 送 SIGTTOU 信 号 。 这 时 从 控制 终端 发 
起 writeO) 调 用 是 允许 的 〈 即 TOSTOP 标 记 被 忽视 了 ) 。 

。 不 管 是 否 设置 了 TOSTOP 标 记 ， 当 后 台 进 程 试图 在 控制 终端 上 调用 














会 修改 终端 驱动 器 数 据 结 构 的 特定 函数 时 会 生成 SIGITTOU 信 号。 
这 些 函 数 包 括 tcsetpgrp()、tcsetattr()、tcflush()、tcflow()、 
tcsendbreak() 以 及 tcdrain()。 (第 62 章 将 会 介绍 这 些 函 数 。) 如 果 
SIGTTOU 信 和 号 被 阻 豆 或 被 忽视 了 ， 那 么 这 些 调用 就 会 成 功 。 


示例 程序 : 演示 作业 控制 的 操作 


通过 程序 清单 34-5 给 出 的 程序 能 够 看 出 shell 是 如 何 将 命令 以 管道 连 
接 的 形式 组 织 进 一 个 作业 的 《进程 组 ) 。 此 外 ， 通 过 这 个 程序 还 能 监控 
发 送 的 特定 信号 以 及 在 作业 控制 中 对 终端 的 前 台 进 程 组 设置 所 做 的 变 
更 。 读 者 可 以 以 管 着 的 形式 运行 这 个 程序 的 多 个 实例 ， 如 下 面 的 例子 所 


ZN o 





$ ./job_mon | ./job_mon | ./job_mon 
程序 清单 34-5 中 的 程序 执行 了 下 面 的 操作 。 


。 在 启动 的 时 候 ， 程 序 为 SIGINT、SIGTSTP 和 SIGTSTP 信 和 号 由 安装 了 
一 个 处 理 器 ， 该 处 理 器 执行 下 面 的 动作 。 
o 显示 终端 的 前 台 进 程 组 4Q)。 为 避免 在 输出 中 出 现 多 行 相同 的 内 
容 ， 只 有 进程 组 首 进 程 才能 执行 这 个 动作 。 
o 显示 进程 的 ID、 进 程 在 管道 中 的 位 置 以 及 接收 到 的 信号 @)。 
o 当 处 理 器 捕获 到 SIGTSTP 信 号 时 必须 要 做 一 些 额 外 的 处 理工 
作 ， 因 为 捕获 到 这 个 信号 不 会 停止 进程 。 这 样 要 停止 进程 的 话 
处 理 器 就 需要 发 出 一 个 SIGSTOP 信 号 @， 因 为 这 个 信号 总 是 会 
a A E E 
理 方式 。) 
如 果 程 序 是 管道 中 的 第 一 个 进程 ， 那 么 它 就 会 打印 出 所 有 进程 的 输 
出 的 标题 @。 为 了 检测 进程 本 身 是 否 是 管道 中 的 第 一 个 进程 (或 最 
后 一 个 进程 》， 程 序 使 用 了 isatty0 函 数 〈62.10 市 中 将 会 予以 介绍 ) 
来 检查 其 标准 输入 《或 输出 ) 是 否 是 一 个 终端 @。 如 果 指 定 的 文件 
描述 符 是 一 个 管道 ， 那 么 jsatty() 返 回 false (0) 。 
程序 构建 了 一 个 消息 并 将 消息 传递 给 了 管道 中 的 下 一 个 命令 。 这 个 
消息 是 一 个 表明 进程 在 管道 中 的 位 置 的 整数 。 因 此 ， 对 于 第 一 个 进 
程 来 讲 ， 消 息 中 包含 数字 1。 如 果 程 序 是 管道 中 的 第 一 个 进程 ， 那 
么 消息 被 初始 化 为 0。 如 果 程 序 不 是 管道 中 的 第 一 个 进程 ， 那 么 程 
序 首 先 会 从 其 前 面 的 进程 中 读 取 这 个 消息 @。 程 序 在 将 控制 权 传递 
给 下 一 个 进程 之 前 会 递增 消息 值 @@。 


















































。 不 管 程序 在 管道 中 所 处 的 位 置 如 何 ， 它 都 会 输出 一 行 包 含 其 在 管道 
中 的 位 置 、 进 程 ID、 父 进程 ID、 进 程 组 ID 以 及 会 话 ID 的 文本 9)。 

。 除非 程序 是 管道 中 的 最 后 一 个 命令 ， 否 则 束 会 写 入 一 个 整数 消息 以 
将 其 传递 给 管道 中 的 下 一 个 命令 。 

。 最 后 ， 程 序 会 无 限 循 环 并 使 用 pause() 等 待 信号 0。 

















程序 清单 34-5: 观察 作业 控制 中 的 进程 处 理 




















一 pgsjc/job mon.c 
#define _GNU_SOURCE /* Get declaration of strsignal() from <string.h> */ 
#include <string.h> 

#include <signal.h> 

#include <fcntl.h> 

#include "tlpi_hdr.h" 


static int cmdNum; /* Our position in pipeline */ 


static void /* Handler for various signals */ 
handler({int sig) 


/* UNSAFE: This handler uses non-async-signal-safe functions 
(fprintf(), strsignal(); see Section 21.1.2) */ 


© 


© 


©®© 


if (getpid() == getpgrp()) /* If process group leader */ 
fprintf(stderr, "Terminal FG process group: %ld\n", 
(long) tcgetpgrp(STDERR_FILENO)); 
fprintf(stderr, "Process %ld (%d) received signal %d (%s)\n", 
(long) getpid(), cmdNum, sig, strsignal(sig)); 


/* If we catch SIGTSTP, it won't actually stop us. Therefore we 
raise SIGSTOP so we actually get stopped. */ 


if (sig == SIGTSTP) 
raise(SIGSTOP) ; 
} 


int 
main(int argc, char *argv[]) 


struct sigaction sa; 


sigemptyset(&sa.sa_mask); 

sa.sa_flags = SA RESTART; 

sa.sa_ handler = handler; 

if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction"); 

if (sigaction(SIGTSTP, &sa, NULL) == -1) 
errExit("sigaction"); 

if (sigaction(SIGCONT, &sa, NULL) == -1) 
errExit("sigaction") ; 


/* If stdin is a terminal, this is the first process in pipeline: 
print a heading and initialize message to be sent down pipe */ 


if (isatty(STDIN FILENO)) { 
fprintf(stderr, “Terminal FG process group: %ld\n", 
(long) tcgetpgrp(STDIN_FILENO)); 


fprintf(stderr, "Command PID PPID PGRP SID\n"); 
cmdNum = 0; 
} else { /* Not first in pipeline, so read message from pipe */ 


if (read(STDIN FILENO, &cmdNum, sizeof(cmdNum)) <= 0) 
fatal("read got EOF or error"); 
} 
cmdNum++; 


fprintf(stderr, "%4d %5ld %51d %51d %51d\n", cmdNum, 
(long) getpid(), (long) getppid(), 
(long) getpgrp(), (long) getsid(o)); 


/* If not the last process, pass a message to the next process */ 
if (tisatty(STDOUT FILENO)) /* If not tty, then should be pipe */ 
if (write(STDOUT_FILENO, &cmdNum, sizeof(cmdNum)) == -1) 
errMsg("“write"); 


for(;;) /* Wait for signals */ 
pause(); 


pgsjc/job_mon.c 


下 面 的 shell 会 话 演示 了 程序 清单 34-5 中 的 程序 的 用 法 。 它 首先 打印 
出 了 shell 的 进程 ID〈 和 它 是 会 话 首 进程 和 进程 组 首 进 程 ， 尽 管 它 是 进程 组 
中 的 唯一 成 员 ) ， 接 独创 建 了 一 个 包含 两 个 进程 的 后 合作 业 。 


从 上 面 的 输出 可 以 看 出 ，shell 仍 然 是 终端 的 前 人 台 进 程 ， 并 且 新 作业 
与 shell 位 于 同一 个 会 话 中 ， 所 有 进程 都 位 于 同一 个 进程 组 中 。 从 进程 ID 
可 以 看 出 ， 作 业 中 进程 的 创建 顺序 与 命令 在 命令 行 中 出 现 的 顺序 是 一 至 
Ko 大 多 数 shell 是 这 样 处 理 的 ， 但 有 些 shell 实 现 创 建 进程 的 顺序 与 命 
令 在 命令 行 中 出 现 的 顺序 不 一 致 。) 





$ echo $$ Show PID of the shell 

1204 

$ ./job_mon | ./job_mon & Start a job containing 2 processes 
[1] 1227 


Terminal FG process group: 1204 
Command PID PPID PGRP SID 
1 1226 1204 1226 1204 
2 1227 1204 1226 1204 


下 面 继续 创建 第 二 个 包含 三 个 进程 的 后 台 作 业 。 


$ ./job_mon | ./job mon | ./job mon & 
[2] 1230 
Terminal FG process group: 1204 
Command PID PPID PGRP SID 

1 1228 1204 1228 1204 

2 1229 1204 1228 1204 

3 1230 1204 1228 1204 


从 上 面 可 以 看 出 ，shell 仍 然 是 终端 的 前 台 进 程 组 ， 新 任务 中 的 进程 
与 shell 位 于 同一 个 会 话 中 ， 但 所 处 的 进程 组 则 与 第 一 个 任务 中 的 进程 所 
人 ee eee eo 
SIGINT 信 号。 








$ fg 

./job_mon | ./job_mon | ./job mon 

Type Control-C to generate SIGINT (signal 2) 

Process 1230 (3) received signal 2 (Interrupt) 
Process 1229 (2) received signal 2 (Interrupt) 
Terminal FG process group: 1228 

Process 1228 (1) received signal 2 (Interrupt) 


从 上 面 的 输出 可 以 看 出 ，SIGINT 信 号 被 发 送 给 了 前 台 进 程 组 中 的 
所 有 进程 ， 并 且 这 个 作业 现在 已 经 成 为 了 终端 的 前 台 进 程 组 。 接 着 问 这 


个 作业 发 送 一 个 SIGTSTP 信 号。 


Type Control-Z to generate SIGTSTP (signal 20 on Linux/x86-32). 
Process 1230 (3) received signal 20 (Stopped) 

Process 1229 (2) received signal 20 (Stopped) 

Terminal FG process group: 1228 

Process 1228 (1) received signal 20 (Stopped) 


[2]+ Stopped ./job_mon | ./job_mon | ./job_mon 

现在 进程 组 中 的 所 有 成 员 都 被 停止 了 。 从 输出 中 可 以 看 出 进程 组 
1228 是 前 台 作 业 ， 但 当 这 个 作业 被 停止 之 后 ，shel 变 成 了 前 台 进 程 组 ， 
虽然 这 一 反 无 法 从 输出 中 看 出 。 


接着 使 用 bg 命令 重新 开始 这 个 作业 ， 该 命令 会 向 作业 中 的 进程 发 送 
一 个 SIGCONT 信 和 号 。 





$ bg Resume job in background 
[2]+ ./job_mon | ./job_mon | ./job_mon & 

Process 1230 (3) received signal 18 (Continued) 

Process 1229 (2) received signal 18 (Continued) 


Terminal FG process group: 1204 The shell ts in the foreground 
Process 1228 (1) received signal 18 (Continued) 

$ kill %1 %2 We've finished: clean up 
[1]- Terminated ./job_mon | ./job_mon 

[2]+ Terminated ./job_mon | ./job_mon | ./job_mon 


34.7.3 ”处 理 作 业 控 制 信 号 


由 于 对 于 大 多 数 应 用 程序 来 讲 作业 控制 的 操作 是 透明 的 ， 因 此 它们 
无 需 对 作业 控制 信号 采取 特殊 的 动作 ， 但 像 vi 和 less 之 类 的 进行 屏幕 处 
理 的 程序 则 是 例外 ， 因 为 它们 需要 控制 文本 在 终端 上 的 布局 和 修改 各 种 
终端 设置 ， 包 括 允 许 在 某 一 时 刻 从 终端 输入 中 读 取 一 个 字符 〔 不 是 一 
行 ) 的 设置 。《〈 第 62 章 将 会 介绍 各 种 终端 设置 。) 


屏幕 处 理 程 序 需要 处 理 终端 停止 信号 CSIGTSTP) 。 信 号 处 理 器 应 
该 将 终端 重 置 为 规范 (每 次 一 行 ) 输入 模式 并 将 光标 放 在 终端 的 左下 
角 。 当 进程 恢复 之 后 ， 程 序 会 将 终端 设置 回 所 需 的 模式 ， 检 查 终端 窗口 
大 小 (窗口 大 小 同时 可 能 会 被 用 户 改 掉 〉 以 及 使 用 所 需 的 内 容重 新 绘制 


= 


屏幕 。 














当 挂 起 或 退出 诸如 vi、xterm 或 其 他 终端 处 理 程序 时 通 
常会 看 到 程序 使 用 启动 之 前 的 可 见 文本 来 绘制 终端 。 这 些 
终端 处 理 程序 是 通过 捕获 两 个 字符 序列 来 取得 这 种 效果 
的 ， 所 有 使 用 terminfo 或 termcap 包 的 程序 在 取得 和 释放 终端 
布局 的 控制 时 都 需要 输出 这 两 个 字符 序列 。 第 一 个 字符 序 
列 称 为 smcup 〈 通 常 是 Escape 后 面 跟着 [?1049h) ， 它 会 导 
致 终 端 处 理 程序 切换 至 其 “预备 ”屏幕 。 第 二 个 序列 称 为 
rmcup (通常 是 Escape 后 面 跟着 [?10491) ， 它 会 导致 终端 处 
理 程序 恢复 到 默认 屏幕 ， 从 而 导致 在 显示 器 上 重 现 屏 幕 处 
理 程序 在 获取 终端 的 控制 权 之 前 的 初始 文本 。 














在 处 理 SIGTSTP 信 号 时 需要 清楚 一 些 细节 问题 。 第 一 个 问题 是 在 
34.7.2 节 中 提 及 过 的 : 如 果 SIGTSTP 信 号 被 捕获 了 ， 那 么 就 不 会 执行 默 
认 的 停止 进程 的 动作 。 在 程序 清单 34-5 中 是 通过 让 SIGTSTP 信 和 号 的 处 理 
器 生成 一 个 SIGSTOP 信 号 来 解决 这 个 问题 的 。 由 于 SIGSTOP 信 号 是 无 法 
被 捕获 、 阻 塞 和 忽略 的 ， 因 此 能 确保 立即 停止 进程 ， 但 这 种 方式 不 是 非 
和 准确 。 在 26.1.3 节 中 曾经 介绍 过 父 进程 可 以 使 用 wait0 或 waitpid0 返 回 
的 等 待 状态 值 来 确定 哪个 信号 导致 了 其 子 进程 的 停止 。 如 果 在 SIGTSTP 
言 号 处 理 器 中 生成 了 SIGSTOP 信 号 ， 那 么 对 于 父 进程 来 讲 ， 其 子 进程 是 
被 SIGSTOP 信 号 停止 的 ， 这 就 会 产生 误导 。 


在 这 种 情况 下 ， 人 恰当 的 处 理 方 式 是 让 SIGTSTP 信 号 处 理 器 再 生成 一 
个 SIGTSTP 信 号 来 停止 进程 ， 如 下 所 示 。 

1. 处 理 器 将 SIGTSTP 信 和 号 的 处 理 重 置 为 默认 值 (SIG_DFL) 。 

2. 处 理 器 生成 SIGTSTP 信 号 。 


3. 由 于 SIGTSTP 信 号 会 被 阻塞 进入 处 理 器 (除非 指定 了 
SA_NODEFER 标 记 ) ， 因 此 处 理 器 会 接触 该 信号 的 阻塞 。 这 时 ， 在 上 
E E A 进程 会 立即 被 

t, 











4. 在 后 面 的 某 个 时 刻 ， 当 进程 接收 到 SIGCONT 信 号 时 会 恢复 。 这 
时 ， 处 理 器 的 执行 就 会 继续 。 


5. 在 返回 之 前 ， 处 理 器 会 重新 阻塞 SIGTSTP 信 号 并 重新 注册 本 身 
来 处 理 下 一 个 SIGTSTP 信 号。 


执行 重新 阻塞 SIGTSTP 信 和 号 这 一 步 是 因为 防止 在 处 理 吉 重新 注册 本 
身 之 后 和 返回 之 前 接收 到 另 一 个 SIGTSTP 信 和 号 而 导致 处 理 器 被 递归 调用 
的 情况 。 在 22.7 节 中 曾经 提 及 过 在 快速 发 送信 号 时 递归 调用 一 个 信号 处 
理 器 会 导致 栈 溢出 。 阻 塞 信号 还 避免 了 信和 号 处 理 器 在 重新 注册 本 身 和 返 
回 之 前 需要 执行 其 他 动作 (如 保存 和 还 原 全 局 变量 ) 时 存在 的 问题 。 


示例 程序 


程序 清单 34-6 中 的 处 理 器 实现 了 上 面 描述 的 步 台 ， 从 而 能 够 正确 地 
处 理 SIGTSTP。 《在 程序 清单 62-4 中 给 出 了 另 一 个 处 理 SIGTSTP 信 和 号 的 
例子 ) 。 在 注册 了 SIGTSTP 信 号 处 理 器 之 后 ， 这 个 程序 的 main() 函 数 开 
始 循环 等 待 信号。 下 面 是 运行 这 个 程序 之 后 的 输出 。 
$ ./handling_SIGTSTP 
Type Control-Z, sending SIGTSTP 




















Caught SIGTSTP This message is printed by SIGTSTP handler 

[1]+ Stopped ./handling SIGTSTP 

$f Sends SIGCONT 

./handling SIOTSTP 

Exiting SIGTSTP handler Execution of handler continues; handler returns 
Main pause() call in main() was interrupted by handler 


Type Control-C to terminate the program 


FEA Miz RY BF ae hE eA, Be rig #34-6 H WSA Sb ae 
的 printfO 调 用 将 会 被 前 面 概 括 过 的 能 修改 终端 模式 并 重新 绘制 终端 显示 
的 程序 所 取代 。 (由 于 需要 避免 调用 非 同 步 信 号 安全 函数 ， 参 见 21.1.2 
节 ， 处 理 器 应 该 通过 设置 一 个 标记 通知 主 程序 重新 绘制 屏幕 。) 


注意 SIGTSTP 处 理 堪 可 能 会 中 断 特定 的 阻塞 式 系统 调用 〈 如 21.5 节 
中 摘 述 的 那样 ) 。 从 上 面 执行 程序 的 输出 中 也 可 以 看 出 这 一 点 ， 在 
pauseO 调 用 被 中 断 之 后 ， 主 程序 打印 出 了 消息 Main。 


程序 清单 34-6: 处 理 SIGTSTP 


























pgsjc/handling SIGTSTP.c 


#include <signal.h> 
#include "tlpi_hdr.h" 


static void /* Handler for SIGTSTP */ 
tstpHandler(int sig) 
{ 

sigset_t tstpMask, prevMask; 

int savedErrno; 

struct sigaction sa; 


savedErrno = errno; /* In case we change ‘errno’ here */ 
printf("Caught SIGTSTP\n"); /* UNSAFE (see Section 21.1.2) */ 
if (signal(SIGTSTP, SIG DFL) == SIG ERR) 

errExit("signal"); /* Set handling to default */ 
raise(SIGTSTP); /* Generate a further SIGTSTP */ 


/* Unblock SIGTSTP; the pending SIGTSTP immediately suspends the program */ 


sigemptyset (&tstpMask) ; 

sigaddset (&tstpMask, SIGTSTP); 

if (sigprocmask{SIG_UNBLOCK, &tstpMask, &prevMask) == -1) 
errExit("sigprocmask"); 


/* Execution resumes here after SIGCONT */ 


if (sigprocmask({SIG SETMASK, &prevMask, NULL) == -1) 
errExit("sigprocmask") ; /* Reblock SIGTSTP */ 
sigemptyset (&sa.sa_mask) ; /* Reestablish handler */ 


sa.sa_flags = SA RESTART; 

sa.sa_handler = tstpHandler; 

if (sigaction(SIGTSTP, &sa, NULL) == -1) 
errExit("sigaction"); 


printf("Exiting SIGTSTP handler\n"); 
errno = savedErrno; 


} 


int 
main(int argc, char *argv[]) 


struct sigaction sa; 


/* Only establish handler for SIGTSTP if it is not being ignored */ 


if (sigaction(SIGTSTP, NULL, &sa) == -1) 
errExit("sigaction"); 


if (sa.sa_handler != SIG_IGN) { 
sigemptyset(&sa.sa_mask); 
sa.sa_flags = SA_RESTART; 
sa.sa handler = tstpHandler; 
if (sigaction(SIGTSTP, &sa, NULL) == -1) 
errExit("sigaction") ; 


} 

for Ge) { /* Wait for signals */ 
pause(); 
printf("Main\n"); 

} 


} 
pgsjc/handling SIGTSTP.c 
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程序 清单 34-6 中 给 出 的 程序 只 有 在 SIGTSTP 信 号 不 被 忽略 的 情况 下 
才 会 为 该 信号 建立 一 个 信和 号 处 理 器 。 这 里 其 实 是 遵循 了 一 个 常规 规则 ， 
即 应 用 程序 应 该 在 作业 控制 和 终端 生成 信号 不 被 忽略 的 时 候 才 处 理 这 些 
信和 号。 对 于 作业 控制 信号 (SIGTSTP、SIGTTIN 以 及 SIGTTOU) 来 讲 ， 
这 个 规则 防止 应 用 程序 试图 处 理 那 些 从 非 作 业 控 制 shell (如 传统 的 
Bourne shell) 发 出 的 信号 。 在 非 作 业 控 制 shell 中 ， 这 些 信 号 的 处 理 被 设 
置 成 了 SIG_IGN， 只 有 作业 控制 shell 将 这 些 信号 的 处 理 设 置 成 了 
SIG_DFL. 


一 个 类 似 的 规则 同样 适用 于 其 他 由 终端 生成 的 信号 : «= SIGINT. 
SIGQUIT 以 及 SIGHUP。 对 于 SIGINT 和 SIGQUIT 来 讲 ， 其 原因 是 当 一 个 
命令 在 非 作 业 控 制 shell 的 后 台 执 行 时 ， 结 果 进 程 不 会 被 放置 在 一 个 单独 
的 进程 组 中 ， 而 是 与 shell 位 于 同一 个 进程 组 中 ， 而 shell 会 在 执行 命令 之 
前 将 SIGINT 和 SIGQUIT 的 处 理 设置 为 忽略 。 这 样 就 能 确保 当 用 户 输入 
终端 中 断 或 退出 字符 (它们 应 该 只 会 影响 到 在 前 台 运 行 的 作业 〉 时 进程 
不 会 被 杀 死 。 如 果 进 程 在 后 面 取消 了 shell 对 这 些 信号 的 处 理 动作 ， 那 么 
会 更 容易 受到 这 些 信号 的 影响 。 


当 命令 通 过 nohup(1) 被 执行 时 会 忽略 SIGHUP 信 号 ， 这 样 束 防止 了 
当 终 并 被 挂 断 时 命令 个 杀 死 的 情况 的 发 生 ， 因 此 应 用 程序 不 应 该 在 该 信 
号 被 忽略 时 试图 改变 这 个 信号 的 处 理 动 作 。 














34.7.4 ”孤儿 进程 组 (SIGHUP 回 顾 ) 


在 26.2 节 中 曾经 讲 过 孤儿 进程 是 那些 在 父 进 程 终止 之 后 被 init 进 程 
《进程 ID 为 1) 收养 的 进程 。 在 程序 中 可 以 使 用 下 面 的 代码 创建 一 个 孤 
儿 进 程 。 
if (fork{) != 0) /* Exit if parent (or on error) */ 

exit(EXIT SUCCESS); 


假设 在 shell 中 执行 一 个 包含 上 面 这 段 代码 的 程序 ， 图 34-3 给 出 了 父 
进程 终止 前 后 该 进程 的 状态 。 
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tuner acre | I i | 
登录 shell | | 1 登录 shell | 
| ! mem 1 } TA | 
(会 话 首 i ri Aij wy 
进程 ) 进程 组 et 1 | 进程 ) i 
eee Ie E ere ore 
Na a ee | 
1 
1 
I 
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1! TE 
1! init 1 I 
1 | . 
nev AE 
bi ) 
1 | ! 
孤儿 进程 组 一 一 4! 子 进 程 ! 
li i 
用 | 
a) 创建 父 进 程 和 子 进程 b) 在 父 进程 存在 之 后 ， 山 init 收 养子 进程 





图 34-3 ”创建 孤儿 进程 组 的 步骤 


从 图 34-3 中 可 以 看 出 ， 在 父 进程 终止 之 后 ， 子 进程 不 仅 是 一 个 孤儿 
进程 ， 同 时 也 是 扳 儿 进程 组 的 一 个 成 员 。SUSv3 认 为 当 一 个 进程 组 满 
足 “ 每 个 成 员 的 父 进程 本 里 是 组 的 一 个 成 员 或 不 是 组 会 话 的 一 个 成 员 * 时 
就 变 成 了 一 个 孤儿 进程 组 。 换 句 话 说 ， 如 果 一 个 进程 组 中 至 少 有 一 个 成 
员 拥 有 一 个 位 于 同一 会 话 但 不 同 进程 组 中 的 父 进程 ， 就 不 是 孤儿 进程 








组 。 图 34-3 中 包含 子 进 程 的 进程 组 是 孤儿 进程 组 ， 因 为 进程 组 中 的 子 进 
程 是 唯一 进程 ， 其 父 进程 Gnit) 位 于 不 同 的 会 话 中 。 





根据 定义 ， 会 话 首 进 程 位 于 孤儿 进程 组 中 。 这 是 因为 
setsid() 在 新 会 话 中 创建 了 一 个 新 进程 组 ， 而 会 话 首 进程 的 
父 进程 则 位 于 不 同 的 会 话 中 。 





从 shell 作 业 控 制 的 角 撤 来 讲 ， 孤 儿 进 程 组 是 非常 重要 的 。 根 据 图 
34-3 考 虑 下 面 的 场景 。 


1. 在 父 进 程 退 出 之 前 ， 子 进程 被 停止 了 (可 能 是 由 于 父 进 程 向 子 
进程 发送 了 一 个 停止 信号 ) 。 


2. 当 父 进程 退出 时 shell 从 作业 列表 中 删除 了 父 进程 的 进程 组 。 子 
进程 由 init 收 养 并 变 成 了 终端 的 一 个 后 台 进 程 ， 包 含 该 子 进 程 的 进程 组 
变 成 了 孤儿 进程 组 。 


3. 这 时 没有 进程 会 通过 wait() 监 控 被 停止 的 子 进程 的 状态 。 


由 于 shell 并 没有 创建 子 进程 ， 因 此 它 不 清楚 子 进程 是 否 存 在 以 及 子 
进程 与 已 经 退出 的 父 进程 位 于 同一 个 进程 组 中 。 此 外 ，init 进 程 只 会 检 
查 被 终止 的 子 进程 并 清理 该 僵尸 进程 ， 从 而 导致 被 停止 的 子 进程 可 能 会 
永远 残留 在 系统 中 ， 因 为 没有 进程 知道 要 问 其 发 送 一 个 SIGCONT 信 号 
来 恢复 它 的 执行 。 


即使 孤儿 进程 组 中 一 个 被 停止 的 进程 拥有 一 个 仍然 存活 但 位 于 不 同 
会 话 中 的 父 进程 ， 也 无 法 保证 父 进 程 能 够 向 这 个 被 停止 的 子 进程 发 送 
SIGCONT 信 号 。 一 个 进程 可 以 同 同一 会 话 中 的 任意 其 他 进程 发 送 
SIGCONT 信 号 ， 但 如 果子 进程 位 于 不 同 的 会 话 中 ， 发 送信 号 的 标准 规 
则 就 开始 起 作用 了 “参见 20.5 节 ) ， 因 此 如 果子 进程 是 一 个 修改 了 自身 
的 验证 信息 的 特权 进程 ， 父 进程 可 能 就 无 法 向 子 进程 发 送信 号 。 


为 防止 上 面 所 描述 的 情况 的 发 生 ，SUSv3 规 定 ， 如 果 一 个 进程 组 变 

















成 了 孤儿 进程 组 并 且 拥 有 很 多 已 停止 执行 的 成 员 ， 那 么 系统 会 向 进程 组 
中 的 所 有 成 员 发 送 一 个 SIGHUP 信 号 通知 它们 已 经 与 会 话 断 开 连 接 了 ， 
之 后 再 发 送 一 个 SIGCONT 信 号 确保 它们 恢复 执行 。 如 果 抓 儿 进 程 组 不 
包含 被 停止 的 成 员 ， 那 么 就 不 会 发 送 任何 信和 号 。 


一 个 进程 组 变 成 孤儿 进程 组 的 原因 可 能 是 因为 最 后 一 个 位 于 不 同 进 
旦 组 但 属于 同一 会 话 的 父 进程 终止 了 ， 也 可 能 是 因为 父 进程 位 于 另 一 个 
进程 组 中 的 进程 组 中 最 后 一 个 进程 终止 了 。 (图 34-3 展 示 了 后 一 种 情 
况 。) 不 管 是 何 种 原因 引起 的 ， 对 包含 被 停止 的 子 进程 的 新 孤儿 进程 组 
的 处 理 是 一 样 的 。 

















同 包 含 被 停止 的 成 员 的 新 孤儿 进程 组 发 送 SIGHUP 和 
SIGCONT 信 号 是 为 了 消除 任务 控制 框架 中 的 特定 漏洞 ， 
为 没有 任何 措施 能 够 防止 一 个 进程 (拥有 合适 的 权限 〉 问 
孤儿 进程 组 中 的 成 员 发 送 停 止 信号 来 停止 它们 。 这 样 ， 进 
程 就 会 保持 在 停止 的 状态 ， 直 到 一 些 进 程 (同样 需要 拥有 
合适 的 权限 〉 同 它们 发 送 一 个 SIGCONT 信 和 号。 








孤儿 进程 组 中 的 成 员 在 调用 tcsetpgrp0O 函 数 〈 参 见 34.5 
节 ) 时 会 得 到 ENOTTY 的 错误 ， 在 调用 tcsetattr()、 
tcflush()、tcflow()、tcsendbreak() 和 tcdrain() 函 数 时 (参见 第 
62 章 ) 会 得 到 EIO 的 错误 。 


示例 程序 


程序 清单 34-7 演 示 了 前 面 描述 的 对 孤儿 进程 的 处 理 。 在 为 SIGHUP 
和 SIGCONT 信 号 建立 了 处 理 器 之 后 名， 程序 为 每 个 命令 行 参 数 创建 了 
一 个 子 进程 @)。 接 着 每 个 子 进程 停止 了 自己 (通过 发 出 SIGSTOP 信 和 号) 
由 或 等 待 信号 〈 使 用 pause0) @@。 至 于 子 进程 到 底 选 择 何 种 动作 则 取决 
于 相应 的 命令 行 参数 是 否 以 字母 s (表示 stop) HA. (这 里 使 用 了 以 字 








母 p 打 头 的 命令 行 参 数 来 表示 相反 的 动作 ， 即 调用 pause0， 尽 管 可 以 使 
用 除 字 母 s 之 外 的 任何 字母 。) 


在 创建 完 所 有 子 进程 之 后 ， 父 进程 会 睡眠 一 段 时 间 以 允许 设置 子 进 
程 时 间 人 的。《 在 24.2 节 中 曾经 提 及 过 以 这 种 方式 使 用 sleep0 不 是 一 个 完 
美的 方案 ， 但 有 时 候 确实 是 达成 这 一 目标 的 可 行 方法 。) 接着 父 进程 会 
退出 9， 这 时 包含 子 进程 的 进程 组 就 会 变 成 孤儿 进程 组 。 如 果 有 子 进 程 
因为 进程 组 变 成 孤儿 进程 组 而 收 到 信号 ， 怠 会 调用 信号 处 理 妖 ， 信 和 号 处 
理 费 会 显示 出 子 进程 的 进程 ID 和 信号 编号 (。 


程序 清单 34-7 SIGHUP 和 孤儿 进程 组 
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pgsjc/orphaned_pgrp_ 
#define _GNU_SOURCE /* Get declaration of strsignal() from <string.h> */ 
#include <string.h> 
#include <signal.h> 
#include "tlpi_hdr.h" 


static void /* Signal handler */ 
handler(int sig) 


printf("PID=%1d: caught signal %d (%s)\n", (long) getpid(), 
sig, strsignal(sig)); /* UNSAFE (see Section 21.1.2) */ 
} 


int 
main(int argc, char *argv[]) 
{ 

int j; 

struct sigaction sa; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s {s|p} ...\n", argv[0]); 


setbuf(stdout, NULL); /* Make stdout unbuffered */ 


sigemptyset(&sa.sa_mask) ; 

sa.sa_flags = 0; 

sa.sa_handler = handler; 

if (sigaction(SIGHUP, &sa, NULL) == -1) 
errExit("sigaction") ; 

if (sigaction(SIGCONT, &sa, NULL) == -1) 
errExit("sigaction"); 


printf("parent: PID=%ld, PPID=%ld, PGID=%ld, SID=%ld\n", 
(long) getpid(), (long) getppid(), 
(long) getpgrp(), (long) getsid(o)); 


/* Create one child for each command-line argument */ 


for (j = 1; j < argc; j++) { 
switch (fork()) { 
case -1: 
errExit ("fork"); 


case 0: /* Child */ 
printf("child: PID=%ld, PPID=%ld, PGID=%ld, SID=%ld\n", 
(long) getpid(), (long) getppid(), 
(long) getpgrp(), (long) getsid(0)); 


if (argv[j][o0] == 's') { /* Stop via signal */ 
printf("PID=%ld stopping\n", (long) getpid()); 


SIGHUP .c 


@ raise(SIGSTOP); 


} else { /* Wait for signal */ 
alarm(60); /* So we die if not SIGHUPed */ 
printf("PID=%ld pausing\n", (long) getpid()); 

© pause(); 
} 


_exit(EXIT SUCCESS); 


default: /* Parent carries on round loop */ 
break; 
} 
} 
/* Parent falls through to here after creating all children */ 
© sleep(3); /* Give children a chance to start */ 
printf("parent exiting\n"); 
D exit(EXIT SUCCESS); /* And orphan them and their group */ 
} 


pgsjc/orphaned_pgrp_SIGHUP.c 


下 面 的 shell 会 话 日 志 给 出 了 两 次 运行 程序 清音 34-7 中 的 程序 的 结 








果 。 


$ echo $$ Display PID of shell, which is also the session ID 
4785 

$ ./orphaned pgrp SIGHUP s p 

parent: PID=4827, PPID=4785, PGID=4827, SID=4785 
child: PID=4828, PPID=4827, PGID=4827, SID=4785 
PID=4828 stopping 

child: PID=4829, PPID=4827, PGID=4827, SID=4785 
PID=4829 pausing 

parent exiting 

$ PID=4828: caught signal 18 (Continued) 
PID=4828: caught signal 1 (Hangup) 

PID=4829: caught signal 18 (Continued) 

PID=4829: caught signal 1 (Hangup) 

Press Enter to get another shell prompt 

$ ./oxphaned_pgrp SIGHUP p p 

parent: PID=4830, PPID=4785, PGID=4830, SID=4785 
child: PID=4831, PPID=4830, PGID=4830, SID=4785 
PID=4831 pausing 

child: PID=4832, PPID=4830, PGID=4830, SID=4785 
PID=4832 pausing 

parent exiting 


第 一 次 运行 时 在 即将 变 为 孤儿 进程 组 的 进程 组 中 创建 了 两 个 子 进 
fe: 一 个 进程 停止 了 自己 ， 男 一 个 则 暂停 了 。【〔 在 这 次 运行 中 ，shell 提 


示 符 出 现在 子 进程 的 输出 的 中 间 ， 这 是 因为 shell 注 意 到 父 进程 已 经 退出 
了 。) 从 输出 中 可 以 看 出 ， 两 个 子 进程 在 父 进程 退出 之 后 都 收 到 了 
SIGCONT 和 SIGHUP 信 和 号。 在 第 二 次 运行 中 创建 了 两 个 子 进程 ， 但 它们 
都 没有 停止 自身 ， 因 此 当 父 进程 退出 之 后 不 会 发 送 任何 信号。 


孤儿 进程 组 和 SIGTSTP、SIGTTIN、 以 及 SIGTTOU 信 和 号 











孤儿 进程 组 还 对 SIGTSTP、SIGTTIN 以 及 SIGTTOU 信 和 号 的 传输 有 影 
响 。 





在 34.7.1 节 中 讲 过 ， 当 后 台 进 程 试图 从 控制 终端 中 调用 readO 时 将 会 
收 到 SIGTTIN 信 号 ， 当 后 台 进 程 试图 向 设置 了 TOSTOP 标 记 的 控制 终端 
调用 write0 时 会 收 到 SIGTTOU 信 号 。 但 向 一 个 孤儿 进程 组 发 送 这 些 信和 号 
毫 无 意义 ， 因 为 一 旦 被 停止 之 后 ， 它 将 再 也 无 法 恢复 了 。 基 于 此 ， 在 进 
行 read0 和 writeO 调 用 时 内 核 会 返回 EIO 的 错误 ， 而 不 是 发 送 SIGTTIN 或 
SIGTTOU 信 和 号 。 





基于 类 似 的 原因 ， 如 果 SIGTSTP、SIGTTIN 以 及 SIGTTOU 信 和 号 的 分 
送 会 导致 停止 孤儿 进程 组 中 的 成 员 ， 那 么 这 个 信号 会 被 坚 无 征兆 地 于 
Fo 如果 信号 正在 被 处 理 ， 那 么 信号 已 经 被 分 送 给 了 进程 。〉 这 种 行 
为 不 会 因为 信号 发 送 方 式 ( 如 信号 可 能 是 由 终端 驱动 器 产 生 的 或 由 显 式 
地 调用 kil0 而 发 送 〉 的 改变 而 改变 。 








34.8 mee 


会 话 和 进程 组 〈 也 称 为 作业 ) 形成 了 进程 的 双 层 结构 : 会 话 是 一 组 
进程 组 的 集合 ， 进 程 组 是 一 组 进程 的 集合 。 会 话 首 进程 是 使 用 setsid() 创 
建 会 话 的 进程 。 类 似 的 ， 进 程 组 首 进程 是 使 用 setpgid0) 创 建 进程 组 的 进 
程 。 进 程 组 中 的 所 有 成 员 共 享 同样 的 进程 组 ID (与 进程 组 首 进程 的 进程 
组 ID 一 样 ) ， 进 程 组 中 所 有 构成 一 个 会 话 的 进程 拥有 同样 的 会 话 ID (与 
会 话 首 进 程 的 ID 一 样 ) 。 每 个 会 话 可 以 拥有 一 个 控制 终端 〈/dewtty) ， 
这 个 关系 是 在 会 话 首 进程 打开 一 个 终端 设备 时 建立 的 。 打 开 控 制 终 端 还 
会 导致 会 话 首 进程 成 为 终端 的 控制 进程 。 


会 话 和 进程 组 是 用 来 支持 shell 作 业 控 制 的 《尽管 有 时 候 在 应 用 程序 
中 会 另 作 他 用 ) 。 在 作业 控制 中 ，shell 是 会 话 首 进程 和 运行 该 shell 的 终 
端的 控制 进程 。shell 会 为 执行 的 每 个 作业 《一 个 简单 的 命令 或 以 管道 连 
接 起 来 的 一 组 命令 ) 创建 一 个 独立 的 进程 组 ， 并 且 提 供 了 将 作业 在 3 个 
人 
Hw yL o 


NI CREME, mIKE SL a tll 2 m YH Se EEH 
《作业 ) 相关 信息 的 记录 。 当 输入 特定 的 字符 时 ， 终 站 驱动 器 会 问 前 合 
作业 及 送 作 业 控 制 信号 。 这 些 信号 会 终止 或 停止 前 人 台 作 业 。 


终端 的 前 全 作业 的 概念 还 用 于 仲裁 终端 VO 请 求 。 只 有 前 台 作 业 中 
的 进程 才能 从 控制 终端 中 读 取 数据 。 系 统 通过 SIGTTIN 信 号 的 分 送 来 防 
止 后 台 作 业 读 取 数 据 ， 这 个 信号 的 默认 动作 是 停止 作业 。 如 果 设 置 了 终 
端的 TOSTOP 标 记 ， 那 么 系统 会 通过 SIGTTOU 信 号 的 发 送 来 防止 后 台 任 
务 回 控制 终端 写 入 数据 ， 这 个 信号 的 默认 动作 是 停止 作业 。 


当 发 生 终端 断 开 时 ， 内 核 会 向 控 制 进程 发 送 一 个 SIGHUP 信 和 号 通知 
它 这 件 事 情 。 这 样 的 事件 可 能 会 导致 一 个 链 式 反应 ， 即 向 很 多 其 他 进程 
发 送 一 个 SIGHUP 信 和 号。 首先 ， 如 果 控 制 进程 是 一 个 shell (通常 是 这 种 
情况 ) ， 那 么 在 终止 之 前 ， 进 程 会 同 所 有 由 其 创建 的 进程 组 发 送 一 个 
SIGHUP 信 号 。 第 二 ， 如 果 SIGHUP 信 号 的 分 送 导 致 了 控制 进程 的 终 
止 ， 那 么 内 核 还 会 癌 该 控制 终端 的 前 台 进 程 组 中 的 所 有 成 员 发 送 一 个 
SIGHUP 信 号。 
































一 般 来 讲 ， 应 用 程序 无 需 弄 清楚 作业 控制 信号 ， 但 执行 屏幕 处 理 操 
作 的 程序 则 是 一 种 例外 。 这 种 程序 需要 正确 处 理 SIGTSTP 信 号 ， 在 进程 
被 挂 起 之 前 需要 将 终端 特性 重 置 为 正确 的 值 ， 而 当 应 用 程序 在 接收 到 
人 
寺 性 。 


当 一 个 进程 组 中 没有 一 个 成 员 进 程 拥 有 位 于 同一 会 话 但 不 同 进程 组 
中 的 父 进程 时 ， 就 成 了 孤儿 进程 组 。 孤 儿 进 程 组 是 非常 重要 的 ， 因 为 在 
这 个 组 外 没有 任何 进程 能 够 监控 组 中 所 有 被 停止 的 进程 的 状态 并 总 是 能 
够 向 这 些 被 停止 的 进程 发 送 SIGCONT 信 号 来 重启 它们 。 这 样 就 可 能 导 
致 这 种 被 停止 的 进程 永远 残留 在 系统 中 。 为 了 避免 这 种 情况 的 发 生 ， 当 
一 个 拥有 被 停止 的 成 员 进 程 的 进程 组 变 成 孤儿 进程 组 时 ， 进 程 组 中 的 所 
有 成 员 都 会 收 到 一 个 SIGHUP 信 和 号， 后 面 跟着 一 个 SIGCONT 信 和 号， 这样 
就 能 通知 它们 变 成 了 孤儿 进程 并 确保 重启 它们 。 
更 多 信息 

[Stevens & Rago，2005] 的 第 9 章 介 绍 了 与 本 章 类 似 的 内 容 ， 并 摘 述 
了 在 登录 期 间 与 登录 shell 建 立会 话 时 所 发 生 的 步骤 。glibc 手 册 对 于 作业 


控制 相关 的 函数 和 作业 控制 在 shell 中 的 实现 进行 了 详细 的 描述 。SUSv3 
对 会 话 、 进 程 组 和 作业 控制 进行 了 广泛 的 讨论 。 











34.9 ”习题 


34-1. 假设 一 个 父 进 程 执行 了 下 面 的 步骤 。 


/* Call fork() to create a number of child processes, each of which 
remains in same process group as the parent */ 





/* Sometime later... */ 
signal(SIGUSR1, SIG IGN); /* Parent makes itself immune to SIGUSR1 */ 


killpg(getpgrp(), SIGUSR1); /* Send signal to children created earlier */ 


这 个 应 用 程序 设计 可 能 会 碰 到 什么 问题 ? 《考虑 shell 管 道 。) 如 何 
避免 此 类 问题 的 发 生 ? 


34-2. 编写 一 个 程序 来 验证 父 进 程 能 够 在 子 进程 执行 execO 之 前 修 
改 子 进程 的 进程 组 DD， 但 无 法 在 执行 exec() 之 后 修改 子 进 程 的 进程 组 
ID. 


34-3. 编写 一 个 程序 来 验证 在 进程 组 首 进程 中 调用 setsid0 会 失败 。 


34-4. 修改 程序 清单 34-4 (disc_SIGHUP.c) 来 验证 当 控 制 进程 在 
收 到 SIGHUP 信 号 而 不 终止 时 ， 内 核 不 会 向 前 台 进 程 组 中 的 成 员 发 送 
SIGHUP 信 和 号。 


34-5. 假设 将 程序 清单 34-6 中 的 信号 处 理 器 中 解除 阻 团 SIGTSTP 信 
号 的 代码 移动 到 处 理 器 的 开头 部 分 。 这 样 做 会 导致 何 种 竞争 条 件 ? 


34-6. 编写 一 个 程序 来 验证 当 位 于 孤儿 进程 组 中 的 一 个 进程 试图 从 
控制 终端 调用 read0 时 会 得 到 EIO 的 错误 。 


34-7. 编写 一 个 程序 来 验证 当 SIGTTIN、SIGTTOU 或 SIGTSTP 三 个 
言 号 中 的 一 个 信和 号 被 发 送 给 孤儿 进程 组 中 的 一 个 成 员 时 ， 如 果 这 个 信和 号 
会 停止 该 进程 〈 即 处 理 方 式 为 SIG_DFL) ， 那 么 这 个 信号 就 会 被 丢弃 
《 即 不 产生 任何 效果 ) ， 但 如 果 该 信号 存在 处 理 器 ， 就 会 发 送 该 信和 号。 











第 35 章 ”进程 优先 级 和 调度 


本 章 介绍 确定 何 时 以 及 哪个 进程 能 够 取得 CPU 的 使 用 权 的 各 种 系 
统 调 用 和 进程 特性 。 首 先 会 介绍 表示 进程 特点 的 nice 值 ， 这 个 值 会 影响 
内 核 调 度 器 分 配给 进程 的 CPU 时 间 。 接 着 会 介绍 POSIX 实 时 调度 APL， 
这 个 API 人 允许 定义 调度 进程 的 策略 和 优先 级 ， 从 而 更 好 地 控制 如 何 给 
CPU 分 配 进 程 。 最 后 会 讨论 用 于 设置 进程 的 CPU 亲 和 力 掩 码 的 系统 调 
用 ，CPU 杀 和 力 掩 码 能 够 确定 一 个 运行 在 多 处 理 器 系统 上 的 进程 在 哪 组 
CPU 上 运行 。 





35.1 ”进程 优先 级 (nice 值 ) 


Linux 与 大 多 数 其 他 UNIX 实 现 一 样 ， 调 度 进 程 使 用 CPU 的 默认 模型 
是 循环 时 间 共 享 。 在 这 种 模型 中 ， 每 个 进程 轮流 使 用 CPU 一 段 时 间 ， 这 
段 时 间 被 称 为 时 间 片 或 量子 。 循 环 时 间 共 享 满足 了 交互 式 多 任务 系统 的 
两 个 重要 需求 。 


。 公平 性 : 每 个 进程 都 有 机 会 用 到 CPU。 
。 响应 度 : 一 个 进程 在 使 用 CPU 之 前 无 需 等 待 太 长 的 时 间 。 


在 循环 时 间 共 享 算法 中 ， 进 程 无 法 直接 控制 何 时 使 用 CPU 以 及 使 用 
CPU 的 时 间 。 在 默认 情况 下 ， 每 个 进程 轮流 使 用 CPU 直至 时 间 片 被 用 光 
或 自己 自动 放弃 CPU 〈 如 进行 睡眠 或 执行 一 个 磁盘 读 取 操作 ) 。 如 果 所 
有 进程 都 试图 尽 可 能 多 地 使 用 CPU 〈 即 没有 进程 会 睡眠 或 被 TO 操作 阻 
SE) ， 那 么 它们 使 用 CPU 的 时 间 差 不 多 是 相等 的 。 


进程 特性 nice 值 允许 进程 间接 地 影响 内 核 的 调度 算法 。 每 个 进程 都 
拥有 一 个 nice 值 ， 其 取 值 范围 为 -20 (高 优先 级 ) 一 19〈 低 优先 级 ) ， 
默认 值 为 0( 参 见 图 35-1) 。 在 传统 的 UNIX 实 现 中 ， 只 有 特权 进程 才能 
够 赋 给 自己 (或 其 他 进程 ) 一 个 负 ( 高 ) 优先 级 。 在 35.3.2 节 中 将 会 
解释 一 些 Linux 上 的 差别 。) 非特 权 进 程 只 能 降低 自己 的 优先 级 ， 即 赋 
一 个 大 于 默认 值 0 的 nice 值 。 这 样 做 之 后 它们 就 对 其 他 进程 “友好 
(nice) ”了 ， 这 个 特性 的 名 称 也 由 此 而 来 。 

ffi 
( 高 优先 级 ) -20 


























(传统 上 ) 只 用 于 特权 进程 


CRAE) 0 


( 低 优先 级 ) +19 
图 35-1 进程 nice 值 的 范围 和 解释 
使 用 forkO 创 建 子 进程 时 会 继承 nice 值 并 且 该 值 会 在 execO 调 用 中 得 














到 保持 。 


getpriority() 系 统 调用 服务 例 程 不 会 返回 实际 的 nice 值 ， 
相反 ， 它 会 返回 一 个 范围 在 1〈 低 优先 级 ) 一 40〈 高 优先 
级 ) 之 间 的 数字 ， 这 个 数字 是 通过 公式 unice=20-knice 计 算 
得 来 的 。 这 样 做 是 为 了 避免 让 系统 调用 服务 例 程 返回 一 个 
负 值 ， 因 为 负 值 一 般 都 表示 错误 。 (参见 3.1 节 中 系统 调用 
服务 例 程 的 描述 。) 应 用 程序 是 不 清楚 系统 调用 服务 例 程 
对 返回 值 所 做 的 处 理 的 ， 因 为 C 库 函数 getpriority0 做 了 相反 
的 计算 操作 ， 它 将 20-unice 值 返回 给 了 调用 程序 。 





nice 值 的 影响 


进程 的 调度 不 是 严格 按照 hice 值 的 层次 进行 的 ， 相 反 ，nice 值 是 一 
个 权重 因素 ， 它 导致 内 核 调 度 器 倾 癌 于 调度 拥有 高 优先 级 的 进程 。 给 一 
个 进程 距 一 个 低 优 先 级 〈 即 高 nice 值 ) 并 不 会 导致 它 完全 无 法 用 到 
CPU， 但 会 导致 它 使 用 CPU 的 时 间 变 少 。nice 值 对 进程 调度 的 影响 程度 
z aaa 同 而 不 同 ， 同 时 在 不 同 UNIX 系 统 之 间 也 是 不 











从 版 本 号 为 2.6.23 的 内 核 开 始 ，nice 值 之 间 的 差别 对 新 
内 核 调度 算法 的 影响 比 对 之 前 的 内 核 中 的 调度 算法 的 影响 
要 强 。 因 此 ， 低 nice 值 的 进程 使 用 CPU 的 时 间 将 比 以 前 少 ， 
高 nice 值 的 进程 占用 CPU 的 时 间 将 大 大 提高 。 





获取 和 修改 优先 级 


getpriority() 和 setpriority() 系 统 调用 允许 一 个 进程 获取 和 修改 自 喘 或 
其 他 进程 的 nice 值 。 





#include «sys/resource.h> 


int getpriority(int which, id_t who); 
Returns (possibly negative) nice value of specified process on success, 
or -l on crror 


int setpriority(int which, id t who, int prio); 








Returns 0 on success, or -1 on error 








两 个 系统 调用 都 接收 参数 which 和 who， 这 两 个 参数 用 于 标识 需 读 取 
或 修改 优先 级 的 进程 。which 参 数 确定 who 参 数 如 何 被 解释 。 这 个 参数 的 
取 值 为 下 面 这 些 值 中 的 一 个 。 


PRIO_PROCESS 
操作 进程 ID 为 who 的 进程 。 如 果 who 为 0， 那 么 使 用 调用 者 的 进程 
ID. 


PRIO_PGRP 


操作 进程 组 ID 为 who 的 进程 组 中 的 所 有 成 员 。 如 果 who 为 0， 那 么 使 
用 调用 者 的 进程 组 。 


PRIO_USER 


操作 所 有 真实 用 户 ID 为 who 的 进程 。 如 果 who 为 0， 那 么 使 用 调用 者 
的 真实 用 户 ID。 


who 参 数 的 类 型 id_t 是 一 个 大 小 能 容纳 进程 ID 或 用 户 ID 的 整 型 。 


getpriority() 系 统 调 用 返回 由 which 和 who 指 定 的 进程 的 nice 值 。 如 果 
有 多 个 进程 符合 指定 的 标准 〈 当 which 为 PRIO_PGRP 或 PRIO_USER 时 会 
出 现 这 种 情况 ) ， 那 么 将 会 返回 优先 级 最 高 的 进程 的 nice 值 〈 即 最 小 的 
数值 ) 。 由 于 getpriorityO 可 能 会 在 成 功 时 返回 -1， 因 此 在 调用 这 个 函数 
之 前 必须 要 将 errno 设 置 为 0， 接 着 在 调用 之 后 检查 返回 值 为 -1 以 及 errno 


不 为 0 才能 确认 调用 成 功 。 


setpriority() 系 统 调 用 会 将 由 which 和 和 who 指定 的 进程 的 nice 值 设置 为 
prio。 试 图 将 nice 值 设置 为 一 个 超出 允许 范围 的 值 〈-20 一 +19) 时 会 直接 
将 nice 值 设置 为 边界 值 。 


以 前 nice 值 是 通过 调用 nice(incn) 来 完成 的 ， 这 个 函数 会 
将 调用 进程 的 nice 值 加 上 incr。 现 在 这 个 函数 仍然 是 可 用 
的 ， 但 已 经 被 更 通用 的 setpriority0) 系 统 调用 所 取代 了 。 





在 命令 行 中 与 setpriority() 系 统 调用 实现 类 似 功能 的 命 
令 是 nice(1)， 非 特权 用 户 可 以 使 用 这 个 命令 来 运行 一 个 优 
先 级 更 低 的 命令 ， 特 权 用 户 则 可 以 运行 一 个 优先 级 更 高 的 
命令 ， 超 级 用 户 则 可 以 使 用 renice(8) 来 修改 既 有 进程 的 nice 
{Elo 


特权 进程 CCAP_SYS_NICE) 能 够 修改 任意 进程 的 优先 级 。 非 特权 
进程 可 以 修改 自己 的 优先 级 (将 which 设 为 PRIO_PROCESS，who 设 为 
0) 和 其 他 目标， 进程 的 优先 级 ， 前 提 是 自己 的 有 效用 户 ID 与 目标 进 
程 的 真实 或 有 效用 户 ID 匹配 。Linux 中 setpriorityO 的 权限 规则 与 SUSv3 中 
的 规则 不 同 ， 它 规定 当 非 特权 进程 的 真实 或 有 效用 户 ID 与 目标 进程 的 有 
效用 户 ID 匹配 时 ， 该 进程 就 能 修改 目标 进程 的 优先 级 。UNIX 实 现在 这 
一 所 上 与 Linux 有 些 不 同 。 一 些 实现 遵 循 的 SUSv3 的 规则 ， 而 另 一 些 
一 一 特别 是 BSD 系 列 与 Linux 的 行为 方式 一 样 。 











版 本 号 小 于 2.6.12 的 Linux 内 核 与 之 后 的 内 核对 非特 权 
进程 调用 setpriorityO 时 使 用 的 权限 规则 不 同 〈 也 与 SUSv3 不 
ED 。 当 非特 权 进 程 的 真实 或 有 效用 户 ID 与 目标 进程 的 真 








实用 户 ID 匹配 时 ， 该 进程 就 能 修改 目标 进程 的 优先 级 。 从 
Linux 2.6.12 开 始 ， 权 限 检 查 变 得 与 Linux 中 类 似 的 API 一 致 
了 ， 如 sched_setscheduler() 和 sched_setaffinity()。 





在 版 本 号 小 于 2.6.12 的 Linux 内 核 中 ， 非 特权 进程 只 能 使 用 
setpriority() 来 降低 (不 可 逆 的 ) 目 己 或 其 他 进程 的 nice 值 。 特 权 进 程 
(CAP_SYS_NICE) 可 以 使 用 setpriority0) 来 提高 nice 值 。 


从 版 本 号 为 2.6.12 的 内 核 开始 ，Linux 提 供 了 RLIMIT_NICE 资 源 限 
制 ， 即 允许 非特 权 进程 提升 nice 值 。 非 特权 进程 能 够 将 自己 的 nice 值 最 
高 提高 到 公式 20-rlim_cur 指 定 的 值 ， 其 中 Him_cur 是 当前 的 
RLIMIT_NICE 软 资源 限制 。 如 假设 一 个 进程 的 RLIMIT_NICE 软 限制 是 
25， 那 么 其 nice 值 可 以 被 提高 到 -5。 根 据 这 个 公式 以 及 nice 值 的 取 值 范 
围 为 +19( 低 ) ~-20 Cia) 的 事实 可 以 得 出 RLIMIT_NICE 的 有 效 范 围 
Al AE) ~40 Ga) 的 结论 。 (CRLIMIT_NICE 没 有 使 用 范围 为 +19 一 
-20 之 间 的 值 ， 因 为 一 些 负 的 资源 限制 值 具有 特殊 含义 一 一 如 
RLIM_INFINITY 可 以 为 -1。) 





非特 权 进 程 能 够 通过 setpriorityO 调 用 来 修改 其 他 〈 目 标 ) 进程 的 
nice 值 ， 前 提 是 调用 setpriority() 的 进程 的 有 效用 户 ID 与 目标 进程 的 真实 
a 效用 户 ID 匹配 并 且 对 nice 值 的 修改 符合 目标 进程 的 RLIMIT_NIC 限 
制 |。 


程序 清单 35-1 中 的 程序 使 用 setpriority0) 来 修改 通过 命令 行 参 数 〈 对 
应 于 setpriority() 函 数 的 参数 ) 指定 的 进程 的 nice 值 ， 接 着 调用 
getpriority() 来 验证 变更 是 否 生 效 。 
































程序 清单 35-1: 修改 和 获取 进程 的 nice 值 














procpri/t_setpriority.c 
#include <sys/time.h> 


#include <sys/resource.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[])} 
{ 
int which, prio; 
id t who; 
if (argc != 4 || strchr("pgu", argv[1][0]) == NULL) 
usageErr("%s {p|g|u} who priority\n" 
3 set priority of: p=process; g=process group; " 
"u=processes for user\n", argv[0]); 


/* Set nice value according to command-line arguments */ 
which = (argv[1][0] == 'p') ? PRIO PROCESS : 

(argv[1][0] == 'g') ? PRIO_PGRP : PRIO USER; 
who = getLong(argv[2], 0, "who"); 
prio = getInt(argv[3], 0, "prio"); 


if (setpriority(which, who, prio) == -1) 
errExit("getpriority"); 


/* Retrieve nice value to check the change */ 


errno = 0; /* Because successful call may return -1 */ 
prio = getpriority(which, who); 
if (prio == -1 && errno != 0) 


errExit("getpriority") ; 
printf("Nice value = %d\n", prio); 


exit(EXIT SUCCESS); 


procpri/t_setpriority.c 


35.2 ”实时 进程 调度 概述 


竺 一 个 系统 上 一 般 会 同时 运行 交互 式 进程 和 后 台 进程 ， 标 准 的 内 核 
调度 算法 一 般 能 够 为 这 些 进程 提供 足够 的 性 能 和 啊 应 度 。 但 实时 应 用 对 
调度 器 有 更 加 严格 的 要 求 ， 如 下 所 示 。 


。 实时 应 用 必须 要 为 外 部 输入 提供 担保 最 大 响应 时 间 。 在 很 多 情况 
下 ， 这 些 担保 最 大 响应 时 间 必 须 非常 短 〈 如 低 于 秒 级 ) 。 如 交通 导 
航 系统 的 慢 速 响应 可 能 会 使 一 个 灾难 。 为 了 满足 这 种 要 求 ， 内 核 必 
须要 提供 工具 让 高 优先 级 进程 能 快速 地 取得 CPU 的 控制 权 ， 抢 占 当 
前 运行 的 所 有 进程 。 














一 些 时 间 关 键 的 应 用 程序 可 能 需要 采取 其 他 措施 来 避 
免 不 可 接受 的 延迟 。 如 为 了 避免 由 于 页 面 错误 而 引起 的 延 
迟 ， 应 用 程序 可 能 会 使 用 mlock0 或 mlockallO0 (50.2 节 中 将 
予以 介绍 ) 将 其 所 有 虚拟 内 存 锁 在 RAM 中 。 








高 优先 级 进程 应 该 能 够 保持 互 斥 地 访问 CPU 直至 它 完 成 或 自动 释放 
CPU 。 
实时 应 用 应 该 能 够 精确 地 控制 其 组 件 进程 的 调度 顺序 。 


SUSv3 规 定 的 实时 进程 调度 API (原先 在 POSIX.1b 中 定义 〉 部 分 满 
足 了 这 些 要 求 。 这 个 API 提 供 了 两 个 实时 调度 策略 : SCHED_RR 和 
SCHED_FIFO。 使 用 这 两 种 策略 中 任意 一 种 策略 进行 调度 的 进程 的 优先 
级 要 高 于 使 用 35.1 中 介绍 的 标准 循环 时 间 分 享 策略 来 调度 的 进程 ， 实 
时 调度 API 使 用 常量 SCHED_OTHER 来 标识 这 种 循环 时 间 分 享 策略 。 


每 个 实时 策略 允许 一 个 优先 级 范围 。SUSv3 要 求实 现 至 少 要 为 实时 
打上 略 提 供 32 个 离散 的 优先 级 。 在 每 个 调 肛 琐 上 略 中 ， 拥 有 蜗 优 先 级 的 可 运 
行进 程 在 尝试 访问 CPU 时 总 是 优先 于 优先 级 较 低 的 进程 。 














对 于 多 处 理 器 Linux 系 统 《〈 包 括 超 线程 系统 ) 来 讲 ， 高 
优先 级 的 可 运行 进程 总 是 优先 于 优先 级 较 低 的 进程 的 规则 
并 不 适用 。 在 多 处 理 器 系统 中 ， 各 个 CPU 拥有 独立 的 运行 
队列 《这 种 方式 比 使 用 一 个 系统 层面 的 运行 队列 的 性 能 要 
好 ) ， 并 且 每 个 CPU 的 运行 队列 中 的 进程 的 优先 级 都 局 限 
于 该 队列 。 如 假设 一 个 双 处 理 器 系统 中 运行 着 三 个 进程 ， 
进程 A 的 实时 优先 级 为 20， 并 且 它 位 于 CPU 0 的 等 待 队列 
中 ， 而 该 CPU 当前 正在 运行 优先 级 为 30 的 进程 B， 即 使 CPU 
1 正在 运行 优先 级 为 10 的 进程 C， 进 程 A 还 是 需要 等 待 CPU 
0。 





包含 多 个 进程 的 实时 应 用 可 以 使 用 35.4 市 中 描述 的 CPU 
亲和力 API 来 避免 这 种 调度 行为 可 能 引起 的 问题 。 如 在 一 个 
四 处 理 器 系统 中 ， 所 有 非 关 键 的 进程 可 以 被 分 配 到 一 个 
CPU 中 ， 让 其 他 三 个 CPU 处 理 实时 应 用 。 





Linux 提 供 了 99 个 实时 优先 级 ， 其 数值 从 1《〈 最 低 ) 一 99《〈 最 高 ) ， 
并 且 这 个 取 值 范围 同时 适用 于 两 个 实时 调度 策略 。 每 个 策略 中 的 优先 级 
是 等 价 的 。 这 意味 着 如 果 两 个 进程 拥有 同样 的 优先 级 ， 一 个 进程 采用 了 
SCHED_RR 的 调度 策略 ， 另 一 个 进程 采用 了 SCHED_FIFO 的 调度 策略 ， 
那么 两 个 都 符合 运行 的 条 件 ， 至 于 到 底 运 行 哪个 则 取决 于 它们 被 调度 的 
顺序 了 。 实 际 上 ， 每 个 优先 级 级 别 都 维护 着 一 个 可 运行 的 进程 队列 ， 下 
一 个 运行 的 进程 是 从 优先 级 最 高 的 非 空 队列 的 队 头 选取 出 来 的 。 


POSIX 实 时 与 硬 实时 对 比 
满足 本 节 开 头 处 列 出 的 所 有 要 求 的 应 用 程序 有 时 候 被 称 为 硬 实 时 应 


用 程序 。 但 POSIX 实 时 进程 调度 API 无 法 满足 这 些 要 求 。 特 别 是 它 没有 
为 应 用 程序 提供 一 种 机 制 来 确保 处 理 输入 的 啊 应 时 间 ， 而 这 种 机 制 需要 

















操作 系统 的 提供 相应 的 特性 ， 但 Linux 内 核 并 没有 提供 这 种 特性 〈 大 多 
数 其 他 标准 的 操作 系统 也 没有 提供 这 种 特性 ) 。POSIX API 仅 仅 提 供 了 
所 谓 的 软 实 时 ， 人 允许 控制 调度 哪个 进程 使 用 CPU。 


在 不 给 系统 增加 额外 开销 的 情况 下 增加 对 硬 实 时 应 用 程序 的 文 持 是 
非常 困难 的 ， 这 种 新 增 的 开销 通常 与 时 间 分 享 应 用 程序 的 性 能 要 求 是 存 
在 冲突 的 ， 而 典型 的 加 面 和 服务 占 系 统 上 运行 的 应 用 程 厅 大 部 分 部 是 时 

间 分 至 应 用 程序 。 这 就 是 大 | pi 
并 没有 为 实时 应 用 程序 提供 原生 文 持 的 原因 。 但 从 版 本 2.6.18 开 
始 ， 各 种 特性 都 被 添加 到 了 Linux 内 核 中 ， 从 而 允许 Linux 为 硬 实 时 应 用 
和 同时 不 会 给 时 间 分 享 应 用 程序 增加 前 面 提 
及 到 的 开销 。 














35.2.1 SCHED_RR 策 略 


在 SCHED_RR (循环 ) 策略 中 ， a a 
的 方式 执行 。 进 程 每 次 使 用 CPU 的 时 间 为 一 个 固定 长 度 的 时 间 片 。 
被 调度 执行 之 后 ， 使 用 SCHED RR 策 RH HERE SS Eee Ue R 
下 列 条 件 中 的 一 个 得 到 满足 : 


达到 时 间 所 的 终点 了 ; 
自愿 放弃 CPU， 这 可 能 是 由 于 执行 了 一 个 阻塞 式 系统 调用 或 调用 了 
a (35.3.3 节 将 予以 介绍 ) ; 


A ARRIE NIDIE NT. 

对 于 上 面 列 出 的 前 两 个 事件 ， 当 运行 在 SCHED_RR 策 略 下 的 进程 丢 
控 CPU 之 后 将 会 锐 放 置 在 与 其 优先 级 级 别 对 应 的 队列 的 队 尾 。 eee 
种 情况 中 ， 当 优先 级 更 高 的 进程 执行 结束 之 后 ， 被 抢占 的 进程 会 继续 执 
行 直到 其 时 间 拨 的 剩余 部 分 REIN POSE COU MEAG SOMBRE ARIE JER 
先 级 级 别 对 应 的 队列 的 队 头 ) 。 


在 SCHED_RR 和 SCHED_FIFO 两 种 策略 中 ， 当 前 运行 的 进程 可 能 
因为 下 面 某 个 原因 而 被 抢占 : 


° E 《如 它 所 等 待 的 VO 操作 完 
F) 
© 男 一 个 进程 的 优先 级 被 提 到 了 一 个 级 别 高 于 当前 运行 的 进程 的 优先 





级 的 优先 级 ; 
。 当前 运行 的 进程 的 优先 级 被 降低 到 低 于 其 他 可 运行 的 进程 的 优先 级 
Le 


SCHED_RR 策 略 与 标准 的 循环 时 间 分 享 调度 算法 
(SCHED OTHER) 类似， 即 它 也 允许 优先 级 相同 的 一 组 进程 分 享 CPU 
时 间 。 它 们 之 间 最 重要 的 差别 在 于 SCHED_RR 策 略 存在 严格 的 优先 级 级 
别 ， 高 优先 级 的 进程 总 是 优先 于 优先 级 较 低 的 进程 。 而 在 
SCHED_OTHER 策 略 中 ， 低 nice 值 〈 即 高 优先 级 ) 的 进程 不 会 独占 
CPU， 它 仅仅 在 调度 决策 时 为 进程 提供 了 一 个 较 大 的 权重 。 前 面 35.1 节 
中 曾经 讲 过 ， 一 个 优先 级 较 低 的 进程 〈 即 高 nice 值 ) 总 是 至 少 会 用 到 一 
些 CPU 时 间 的 。 它 们 之 间 另 一 个 重要 的 差别 是 SCHED_RR 策 略 允 许 精 确 
控制 进程 被 调用 的 顺序 。 


35.2.2 SCHED FIFO 


SCHED FIFO (ÆA 2H, first-in, first-out) 策略 与 SCHED _RR 策 
略 类 似 ， 它 们 之 间 最 主要 的 差别 在 于 在 SCHED_FIFO 策 略 中 不 存在 时 间 
片 。 一 旦 一 个 SCHED_FIFO 进 程 获得 了 CPU 的 控制 权 之 后 ， 它 就 会 一 直 
执行 直到 下 面 某 个 条 件 被 满足 : 


BY die 《采用 的 方式 与 前 面 描述 的 SCHED_FIFO 策 略 中 的 方 
一 样 ) : 

. RIET; 

被 一 个 优先 级 更 高 的 进程 抢占 了 (场景 与 前 面 描述 的 SCHED_FIFO 
打上 略 中 场景 一 样 )。 


在 第 一 种 情况 中 ， 进 程 会 被 放置 在 与 其 优先 级 级 别 对 应 的 队列 的 队 
尾 。 在 最 后 一 种 情况 中 ， 当 高 优先 级 进程 执行 结束 之 后 《被 阻 豆 或 终止 
T) ， 被 抢占 的 进程 会 继续 执行 〈 即 被 抢占 的 进程 位 于 与 其 优先 级 级 别 
对 应 的 队列 的 队 头 ) 。 








35.2.3 SCHED BATCH 和 SCHED IDLE 策 略 


Linux 2.6 系 列 的 内 核 添加 了 两 个 非 标 准 调 度 策略 : SCHED_BATCH 
和 SCHED_IDLE。 尽 党 这 些 策略 是 通过 POSIX 实 时 调度 API 来 设置 的 ， 
但 实际 上 它们 并 不 是 实时 策略 。 





SCHED_BATCH 策 略 是 在 版 本 为 2.6.16 的 内 核 中 加 入 的 ， 它 与 默认 
的 SCHED_OTHER 策 略 类 似 ， 两 个 之 间 的 差别 在 于 SCHED_BATCH 策 
的 任务 被 调度 的 次 数 较 少 。 这 种 策略 用 于 进程 的 批 
量 式 执行 。 


SCHED _IDLE 策 略 是 在 版 本 为 2.6.23 的 内 核 中 加 入 的 ， 它 也 与 
SCHED_OTHER 类 似 ， 但 提供 的 功能 等 价 于 一 个 非常 低 的 nice 值 〈 即 低 
于 +19) 。 在 这 个 策略 中 ， 进 程 的 nice 值 毫 无 意义 。 它 用 于 运行 低 优先 
这 些 任务 在 系统 中 没有 其 他 任务 需要 使 用 CPU 时 才 会 大 量 使 

CPU。 





35.3 ”实时 进程 调用 API 


下 面 开 始 介绍 构成 实时 进程 调度 API 的 各 个 系统 调用 。 这 些 系统 调 
用 允许 控制 进程 调度 集 略 和 优先 级 。 





虽然 从 2.0 内 核 开始 实时 调度 已 经 是 Linux 的 一 部 分 了 ， 
但 在 实现 中 几 个 问题 存在 了 很 长 时 间 。 在 2.2 内 核 的 实现 中 
一 些 特性 仍然 无 法 工作 ， 甚 至 在 2.4 内 核 的 早期 版 本 中 也 是 
同样 的 情况 。 其 中 大 多 数 问题 直到 2.4.20 内 核 才 得 以 修正 。 





35.3.1 ”实时 优先 级 范围 


sched_get_priority_min() 和 sched_get_priority_max() 系 统 调 用 返回 一 
个 调度 策略 的 优先 级 取 值 范 围 。 





#include <sched.h> 


int sched_get_priority_min(int policy); 
int sched_get_priority_max(int policy); 


Both return nonnegative integer priority on success, or -] on error 











在 两 个 系统 调用 中 ，policy 指 定 了 需 获 取 哪 种 调度 策略 的 信息 。 这 
个 参数 的 取 值 一 般 是 SCHED_RR 或 SCHED _FIFO。 
sched_get_priority_min() 系 统 调用 返回 指定 策略 的 最 小 优先 级 ， 
sched_get_priority_max() 返 回 最 大 优先 级 。 在 Linux 上， 这 些 系 统 调用 为 
SCHED_RR 和 SCHED_FIFO 策 略 分 别 返回 范围 为 1 到 99 的 数字 。 换 句 话 
说 ， 两 个 实时 策略 的 优先 级 取 值 范围 是 完全 一 样 的 ， 并 且 优 先 级 相同 的 
SCHED_RR 和 SCHED_FIFO 进 程 都 具备 被 调度 的 资格 。 《至 于 哪个 进程 
先 被 调度 则 取决 于 它们 在 优先 级 级 别 队 列 中 的 顺序 。) 


不 同 UNIX 实 现 中 的 实时 策略 的 取 值 范围 是 不 同 的 。 因 此 不 能 在 应 








用 程序 中 硬 编码 优先 级 值 ， 相 反 ， 需 要 根据 两 个 函数 的 返回 值 来 指定 优 
先 级 。 因 此 ，SCHED_RR 策 略 中 最 低 的 优先 级 应 该 是 
sched_get_priority_min(SCHED_FIFO)， 比 它 高 一 级 的 优先 级 是 
sched_get_priority_min (SCHED_FIFO) +1， 依 此 类 推 。 


SUSv3 并 不 要 求 SCHED_RR 和 SCHED _FIFO 策 略 使 用 
同样 的 优先 级 范围 ， 但 在 大 多 数 UNIX 实 现 中 都 是 这 样 做 
的 。 如 在 Solaris 8 中 两 种 策略 的 优先 级 范围 是 0 一 59， 而 在 
FreeBSD 6.1 中 的 优先 级 范围 是 0 一 31。 





35.3.2 ”修改 和 获取 策略 和 优先 级 
本 节 将 介绍 修改 和 获取 调度 策略 和 优先 级 的 系统 调用 。 
修改 调度 策略 和 优先 级 


sched_setschedulerO 系 统 调用 修改 进程 ID 为 pid 的 进程 的 调度 策略 和 
优先 级 。 如 果 pid 为 0， 那 么 将 会 修改 调用 进程 的 特性 。 





#include «sched.h> 


int sched_setscheduler(pid_t pid, int policy, const struct sched_param *param); 








Returns 0 on Success, OT -1 on error 





param 人 参数 是 一 个 指 网 下面 这 种 结构 的 指针 。 


struct sched param { 
int sched_priority; /* Scheduling priority */ 


B 

”_SUSv3 将 param 参 数 定义 成 一 个 结构 以 允许 实现 包含 额外 的 特定 于 
实现 的 字段 ， 当 实现 提供 了 额外 的 调度 策略 时 这 些 字 段 可 能 会 变 得 有 

用 。 但 与 大 多 数 UNIX 实 现 一 样 ，Linux 提 供 了 sched_priority 字 段 ， 该 字 





段 指 定 了 调度 策略 。 对 于 SCHED_RR 和 SCHED_FIFO 来 讲 ， 这 个 字段 
的 取 值 必须 位 于 sched_get_priority_min() 和 sched_get_priority_max() 规 定 
的 范围 内 ;对 于 其 他 策略 来 讲 ， 优 先 级 必须 是 0。 


policy 参 数 确 定 了 进程 的 调度 策略 ， 它 的 取 值 为 表 35-1 中 的 一 个 。 


表 35-1 Linux 实 时 和 非 实 时 调度 策略 


SCHED_FIFO | 和 时 先入 先 出 实时 循环 





标准 的 循环 时 间 分 享 
SCHED_OTHER | 与 SCHED_OTHER 类 似 ， 但 用 于 批量 执行 〈 自 Linux 2.6.16 
SCHED_BATCH | 起 ) 
SCHED IDLE “| 与 SCHED_OTHER 类 似 ， 但 优先 级 比 最 大 的 nice 值 
(+19) WEIR (A Linux 2.6.23 起 ) 


























成 功 调用 sched_setscheduler() 会 将 pid 指 定 的 进程 移 到 与 其 优先 级 级 
别 对 应 的 队列 的 队 尾 。 


SUSv3 规 定 成 功 调用 sched_setschedulerO 时 其 返回 值 应 该 是 上 一 种 
调度 策略 。 但 Linux 并 没有 遵循 这 个 规则 ， 在 成 功 调用 时 该 函数 会 返回 
0。 一 个 可 移植 的 应 用 程序 应 该 通过 检 碍 返回 值 是 否 不 为 -1 来 判断 调用 
是 否 成 功 。 


通过 forkO 创 建 的 子 进 程 会 继承 父 进程 的 调度 策略 和 优先 级 ， 并 且 
在 exec() 调 用 中 会 保持 这 些 信息 。 


sched_setparam( 〇 系统 调用 提供 了 sched_setscheduler(0) 函 数 的 一 个 功 
能 子 集 。 它 修改 一 个 进程 的 调度 策略 ， 但 不 会 修改 其 优先 级 。 











ftinclude <sched.h> 


int sched_setparam(pid_t pid, const struct sched_param *param); 


Returns 0 on success, or -1 on error 











pid 和 param 参 数 与 sched_setscheduler() 中 相应 的 参数 是 一 样 的 。 


成 功 调用 sched_setparam( 〇 会 将 pid 指 定 的 进程 移 到 与 其 优先 级 级 别 
对 应 的 队列 的 队 尾 。 


程序 清单 35-2 使 用 sched_setscheduler0) 来 设置 由 命令 行 参 数 指 定 的 
进程 的 策略 和 优先 级 。 第 一 个 参数 是 一 个 指定 调度 策略 的 字母 ， 第 二 个 
参数 是 一 个 整数 优先 级 ， 剩 下 的 参数 是 需 修 改 调 度 特性 的 进程 的 进程 
ID。 

















程序 清单 35-2 ”修改 进程 的 调度 策略 和 优先 级 











-上 procpri/sched set.c 
#include <sched.h> 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int j, pol; 
struct sched param sp; 


if (argc < 3 || strchr("rfo", argv[1][0]) == NULL) 
usageErr("%s policy priority [pid...]\n" 
policy is 'r' (RR), 'f' (FIFO), " 


#ifdef SCHED BATCH /* Linux-specific */ 
"'b' (BATCH), " 

#endif 

#ifdef SCHED_IDLE /* Linux-specific */ 
"'i' (IDLE), " 

#endif 


"or 'o' (OTHER)\n", 
argv[0]); 


pol = (argv[1][0] == 
(argv[1][0 

#ifdef SCHED BATCH 
(argv[1][0] == 'b') ? SCHED_BATCH : 


'y') ? SCHED_RR : 
] == 'f') ? SCHED_FIFO : 


#endif 
#ifdef SCHED IDLE 
(argv[1][0] == 'i') ? SCHED IDLE : 
#endif 
SCHED OTHER; 
sp.sched priority = getInt(argv[2], 0, "priority"); 
for (j = 3; j < argc; j++) 
if (sched_setscheduler(getLong(argv[j], 0, "pid"), pol, &sp) == -1) 
errExit("sched setscheduler"); 


exit(EXIT SUCCESS); 
} 


一 procpri/sched set.c 


权限 和 资源 限制 会 影响 对 调度 参数 的 变更 


在 2.6.12 之 前 的 内 核 中 ， 进 程 必须 要 先 变 成 特权 进程 
(CAP_SYS_NICE) 才能 够 修改 调度 策略 和 优先 级 。 这 个 规则 的 一 个 例 
外 情况 是 非特 权 进 程 在 调用 者 的 有 效用 户 ID 与 目标 进程 的 真实 或 有 效用 
户 ID [匹配 时 束 能 将 该 进程 的 调度 策略 修改 为 SCHED_OTHER。 


从 2.6.12 的 内 核 开始 ， 设 置 实时 调度 策略 和 优先 级 的 规则 发 生 了 变 








动 ， 


即 引 入 了 一 个 全 新 的 非 标准 的 资源 限制 RLIMIT_RTPRIO。 在 老式 


内 核 中 ， 特 权 CCAP_SYS_NICE) 进程 能 够 随意 修改 任意 进程 的 调度 策 
ae 同时 ， 非 特权 进程 也 能 够 根据 下 列 规则 修改 调度 策略 和 优 
级 。 





如 果 进 程 拥 有 非 零 的 RLIMIT_RTPRIO 软 限制 ， 那 么 它 就 能 随意 修 
改 自己 的 调度 策略 和 优先 级 ， 只 要 符合 实时 优先 级 的 上 限 为 其 当前 
实时 优先 级 〈 如 果 该 进程 当前 运行 于 一 个 实时 策略 下 ) 的 最 大 值 及 
其 RLIMIT_RTPRIO 软 限制 值 的 约束 即 可 。 

如 果 进 程 的 RLIMIT_RTPRIO 软 限制 值 为 0， 那 么 进程 只 能 降低 自己 
的 实时 调度 优先 级 或 从 实时 策略 切换 非 实 时 策略 。 
SCHED_IDLE 策 略 是 一 种 特殊 的 策略 。 运 行 在 这 个 策略 下 的 进程 无 
法 修改 自己 的 策略 ， 不 管 RLIMIT_RTPRIO 资 源 限 制 的 值 是 什么 。 
在 其 他 非特 权 进 程 中 也 能 执行 策略 和 优先 级 的 修改 工作 ， 只 要 该 进 
程 的 有 效用 户 ID 与 目标 进程 的 真实 或 有 效用 户 ID 匹配 即 可 。 

进程 的 软 RLIMIT_RTPRIO 限 制 值 只 能 确定 可 以 对 自己 的 调度 策略 
和 优先 级 做 出 哪些 变更 ， 这 些 变 更 可 以 由 进程 自己 发 起 ， 也 可 以 由 
其 他 非特 权 进 程 发 起 。 拥 有 非 零 限制 值 的 非特 权 进 程 无 法 修改 其 他 
进程 的 调度 策略 和 优先 级 。 








从 2.6.25 的 内 核 开 始 ，Linux 增 加 了 实时 调度 组 的 概 
念 。 它 通过 CONFIG_RT_GROUP_SCHED 内 核 参数 进行 配 
置 ， 会 影响 到 在 设置 实时 调度 策略 时 能 够 做 出 哪些 变更 ， 
具体 可 参见 内 核 源 文件 Documentation/scheduler/sched-rt- 
group.txt。 


获取 调度 集 略 和 优先 级 


sched_getscheduler() 和 sched_getparam() 系 统 调用 获取 进程 的 调度 筑 


HEA LIER 





#include <sched.h> 


int sched_getscheduler(pid_t pid); 
Returns scheduling policy, or -1 on error 
int sched_getparam(pid_t pid, struct sched_param *param); 


Returns 0 on success, or -1 on error 











在 这 两 个 系统 调用 中 ，pid 指 定 了 需 查 询 信 息 的 进程 ID。 如 打 pid 为 
0， 那 么 就 会 查询 调用 进程 的 信息 。 两 个 系统 调用 都 可 被 非特 权 进 程 用 
来 获取 任意 进程 的 信息 ， 而 不 管 进程 的 验证 信息 是 什么 。 


sched_getparam() 系 统 调用 返回 由 param 指 癌 的 sched_param 结 构 中 
sched_priority 字 段 指定 的 进程 的 实时 优先 级 。 


执行 成 功 ，sched_getscheduler() 将 会 返回 前 面 表 35-1 中 列 出 的 
一 个 策略 。 


程序 清单 35-3 使 用 了 sched_ getscheduler() 和 sched_getparam() 来 获取 
进程 ID 为 命令 行 参数 指定 的 数值 的 进程 的 策略 和 优先 级 。 下 面 的 shell 会 
话 演示 了 这 个 程序 的 使 用 以 及 程序 清单 35-2 的 使 用 。 





$ su Assume privilege so we can set realtime policies 
Password: 

# sleep 100 & Create a process 

[1] 2006 

# ./sched_view 2006 View initial policy and priority of sleep process 
2006: OTHER 0 

# ./sched_set f 25 2006 Switch process to SCHED_FIFO policy, priority 25 
# ./sched_view 2006 Verify change 


2006: FIFO 25 











程序 清单 35-3 ”获取 进程 的 调度 策略 和 优先 级 














procpri/sched_view.c 


#include <sched.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[ ]) 


int j, pol; 
struct sched param sp; 


for (j = 1; j < argc; j++) { 
pol = sched getscheduler(getLong(argv[j], 0, “pid")); 
if (pol == -1) 
errExit("sched_getscheduler"); 


if (sched_getparam(getLong(argv[j], 0, "pid"), &sp) == -1) 
errExit("sched getparam"); 


printf("%s: %-5s %2d\n", argv[j], 
(pol == SCHED OTHER) ? "OTHER" : 
(pol == SCHED RR) ? "RR" : 
(pol == SCHED FIFO) ? "FIFO" : 
#ifdef SCHED_BATCH /* Linux-specific */ 
(pol == SCHED BATCH) ? "BATCH" : 


#endif 
#ifdef SCHED IDLE /* Linux-specific */ 
(pol == SCHED IDLE) ? "IDLE" : 
#endif 
"???", sp.sched priority); 
} 


exit(EXIT_SUCCESS); 


procpri/sched_view.c 
防止 实时 进程 锁 住 系统 


由 于 SCHED_RR 和 SCHED_FIFO 进 程 会 抢占 所 有 低 优 先 级 的 进程 
(如 运行 这 个 程序 的 shell〉， 因 此 在 开发 使 用 这 些 策略 的 应 用 程序 时 需 
要 小 心 可 能 会 发 生 失 控 的 实时 进程 因 一 直 占 住 CPU 而 导致 锁 住 系统 的 情 
况 。 在 程序 中 可 以 通过 一 些 方法 来 避免 这 种 情况 的 发 生 。 


。 使 用 setrlimitO 设 置 一 个 合理 的 低 软 CPU 时 间 组 员 限 制 〈 在 36.3 节 中 
摘 述 了 RLIMIT_CPU) 。 如 果 进 程 消耗 了 太 多 的 CPU 时 间 ， 那 么 
它 将 会 收 到 一 个 SIGXCPU 信 号 ， 该 信号 在 默认 情况 下 会 杀 死 该 进 
程 。 


。 使 用 alarm0 设 置 一 个 警报 定时 器 。 如 果 进 程 的 运行 时 间 超 出 了 由 





alarm() 调 用 指定 的 秒 数 ， 那 么 该 进程 会 被 SIGALRM 信 号 杀 死 。 
创建 一 个 拥有 高 实时 优先 级 的 看 门 狗 进 程 。 这 个 进程 可 以 进行 无 限 
循环 ， 每 次 循环 都 睡眠 指定 的 时 间 间 隔 ， 然 后 醒 来 并 监控 其 他 进程 
的 状态 。 这 种 监控 可 以 包含 对 每 个 进程 消耗 的 CPU 时 间 的 度量 〈 参 
见 23.5.3 节 中 对 clock_getcpuclockid0 函 数 的 讨论 ) 并 使 用 
sched_getscheduler() 和 sched_getparam() 来 检查 进程 的 调度 策略 和 优 
先 级 。 如 果 一 个 进程 看 起 来 行为 异常 ， 那 么 看 门 狗 线 线程 可 以 降低 
该 进程 的 优先 级 或 向 其 发 送 合适 的 信号 来 停止 或 终止 该 进程 。 

从 2.6.25 的 内 核 开 始 ，Linux 提 供 了 一 个 非 标准 的 资源 限制 
RLIMIT_RTTIME 用 于 控制 一 个 运行 在 实时 调度 策略 下 的 进程 在 单 
次 运行 中 能 够 消耗 的 CPU 时 间 。RLIMIT_RTTIME 的 单位 是 毫秒 ， 
它 限 制 了 一 个 进程 在 不 执行 阻塞 式 系统 调用 时 能 够 消耗 的 CPU 时 
间 。 当 进程 执行 了 这 样 的 系统 调用 时 ， 累 积 消 耗 的 CPU 时 间 将 会 被 
重 置 为 0。 当 这 个 进程 被 一 个 优先 级 更 高 的 进程 抢占 时 ， 累 积 消耗 
的 CPU 时 间 不 会 被 重 置 。 当 进程 的 时 间 片 被 耗 完 或 调用 
sched_yield()( 参 见 35.3.3 节 ) 时 进程 会 放弃 CPU。 当 进程 达到 了 
CPU 时 间 限 制 RLIMIT_CPU 之 后 ， 系 统 会 癌 其 发 送 一 个 SIGXCPU 信 
号 ， 该 信和 号 在 默认 情况 下 会 杀 死 这 个 进程 。 











版 本 号 为 2.6.25 的 内 核 中 做 出 的 这 个 变更 还 有 助 于 避免 
失控 的 实时 进程 锁 住 系统 ， 详 细 信 息 可 参考 内 核 源 文件 


Documentation/scheduler/sched-rt-group.txt 


避免 子 进程 进程 特权 调度 策略 


Linux 2.6.32 增 加 了 一 个 SCHED RESET ON FORK， 在 调用 


sched_setscheduler() 时 可 以 将 policy 参 数 的 值 设 置 为 该 常量 。 系 统 会 将 这 


个 标记 值 与 表 35-1 中 列 出 的 其 中 一 个 策略 取 OR。 如 果 设 置 了 这 个 标 
W 
和 优先 级 了 。 其 规则 如 下 。 


那么 由 这 个 进程 使 用 forkO 创 建 的 子 进 程 束 不 会 继承 特权 调度 胰 略 


如 果 调 用 进程 拥有 一 个 实时 调度 策略 (SCHED_RR 或 


SCHED_FIFO) ， 那 么 子 进 程 的 策略 会 被 重 置 为 标准 的 循环 时 间 分 
享 策略 SCHED_OTHER。 

如 果 进 程 的 nice 值 为 负 值 〈 即 高 优先 级 ) ， 那 么 子 进程 的 nice 值 会 
被 重 置 为 0。 


SCHED_RESET_ON_FORK 标 记 用 于 媒体 回放 应 用 程序 ， 它 允许 创 
建 单个 拥有 实时 调度 策略 但 不 会 将 该 策略 传递 给 子 进程 的 进程 。 使 用 
SCHED_RESET_ON_FORK 标 记 能 够 通过 创建 多 个 运行 于 实时 调度 策略 
下 的 子 进程 来 防止 创建 试图 超出 RLIMIT_RTTIME 资 源 限制 的 子 进程 。 


一 旦 进程 启用 了 SCHED RESET ON FORK 标 记 ， 那 么 只 有 特权 进 
f= (CAP_SYS NICE) 才能 够 禁用 该 标记 。 当 子 进程 被 创建 出 来 之 后 ， 
它 的 reset-on-fork 标 记 会 被 禁用 。 


35.3.3 ”释放 CPU 


实时 进程 可 以 通过 两 种 方式 自愿 释放 CPU: 通过 调用 一 个 阻塞 进程 
的 系统 调用 〈 如 从 终端 中 read0) 或 调用 sched_yield0)。 





ftinclude <sched.h> 


int sched_yield({void) ; 








Returns 0 on success, or -1 on error 





sched_yield0 的 操作 是 比较 简单 的 。 如 果 存 在 与 调用 进程 的 优先 级 
相同 的 其 他 排队 的 可 运行 进程 ， 那 么 调用 进程 会 被 放 在 队列 的 队 尾 ， 队 
列 中 队 头 的 进程 将 会 被 调度 使 用 CPU。 如 果 在 该 优先 级 队列 中 不 存在 可 
运行 的 进程 ， 那 么 sched_yield0 不 会 做 任何 事情 ， 调 用 进程 会 继续 使 用 
CPU 。 


虽然 SUSv3 人 允许 sched_yield0 返 回 一 个 错误 ， 但 在 Linux 或 很 多 其 他 
UNIX 实 现 上 这 个 系统 调用 总 会 成 功 。 可 移植 的 应 用 程序 应 该 总 是 检查 
这 个 系统 调用 是 否 返 回 错误 。 


非 实时 进程 使 用 sched_yield0 的 结果 是 未 定义 的 。 











35.3.4 SCHED_RR 时 间 片 


通过 sched_rr_get_interval() 系 统 调 用 能 够 找 出 SCHED_RR 进 程 在 每 
次 被 授权 使 用 CPU 时 分 配 到 的 时 间 片 的 长 度 。 





ftinclude <sched.h> 


int sched_rr_get_interval(pid_t pid, struct timespec *tp); 








Returns 0 on success, or -1 on error 





与 其 他 进程 调度 系统 调用 一 样 ，pid 标 识 出 了 需 查 询 信息 的 进程 ， 
当 pid 为 0 时 表示 调用 进程 。 返 回 的 时 间 片 是 由 tp 指向 的 timespec 结 构 。 
struct timespec { 
time t tv_sec; /* Seconds */ 
long tv nsec; /* Nanoseconds */ 


i 


在 最 新 的 2.6 内 核 中 ， 实 时 循环 时 间 厂 是 0.1 秒 。 


35.4 CPU 亲和力 


当 一 个 进程 在 一 个 多 处 理 器 系统 上 被 重新 调度 时 无 需 在 上 一 次 执行 
的 CPU 上 运行 。 之 所 以 会 在 另 一 个 CPU 上 运行 的 原因 是 原来 的 CPU 处 
于 忙碌 状态 。 


进程 切换 CPU 时 对 性 能 会 有 一 定 的 影响 : 如 果 在 原来 的 CPU 的 高 速 
绥 冲 器 中 存在 进程 的 数据 ， 那 么 为 了 将 进程 的 一 行 数据 加 载 进 新 CPU 
的 高 速 缓冲 器 中 ， 首 先 必 须 使 这 行 数据 失效 〈 即 在 没 被 修改 的 情况 下 丢 
弃 数 据 ， 在 被 修改 的 情况 下 将 数据 写 入 内 存 ) 。 “为 防止 高 速 缓冲 器 不 
一 致 ， 多 处 理 器 架构 在 某 个 时 刻 只 允许 数据 被 存放 在 一 个 CPU 的 高 速 组 
冲 器 中 。) 这 个 使 数据 失效 的 过 程 会 消耗 时 间 。 由 于 存在 这 个 性 能 影 
Mi], Linux (2.6) 内 核 演 试 了 给 进程 保证 软 CPU 亲和力 一 一 在 条 件 允 许 
的 情况 下 进程 重新 被 调度 到 原来 的 CPU 上 运行 。 








高 速 缓冲 器 中 的 一 行 与 虚拟 内 存 管理 系统 中 的 一 页 是 
类 似 的 。 它 是 CPU 高 速 绥 冲 器 和 内 存 之 间 传 输 数 据 的 单 
位 。 通 常 行 大 小 的 范围 为 32 一 128 字 节 ， 更 多 信息 请 参考 
[Schimmel, 1994] 和 [Drepper, 2007]。 


Linux 特 有 的 /proc/PID/stat 文 件 中 的 一 个 字段 显示 了 进 
程 当前 执行 或 上 一 次 执行 时 所 在 的 CPU 编 号 。 具 体 请 参见 
proc(5) 手 册 。 








有 时 候 需 要 为 进程 设置 硬 CPU 亲 和 力 ， 这 样 就 能 显 式 地 将 其 限制 在 
可 用 CPU 中 的 一 个 或 一 组 CPU 上 运行 。 之 所 以 需要 这 样 做 ， 原因 如 下 。 


。 可 以 避免 由 使 高 速 缓冲 器 中 的 数据 失效 所 带 来 的 性 能 影 啊 。 
。 如 果 多 个 线程 (或 进程 ) 访问 同样 的 数据 ， 那 么 当 将 它们 限制 在 同 
样 的 CPU 上 的 话 可 能 会 带 来 性 能 提升 ， 因 为 它们 无 需 苋 争 数据 并 且 


也 不 存在 由 此 而 产生 的 高 速 缓冲 堪 未 命中 。 
。 对 于 时 间 关 键 的 应 用 程序 来 讲 ， 可 能 需要 为 此 应 用 程序 预 留 一 个 或 
更 多 CPU， 而 将 系统 中 大 多 数 进程 限制 在 其 他 CPU 上 。 


使 用 isolcpus 内 核 启 动 参数 能 够 将 一 个 或 更 多 CPU 分 离 
出 常规 的 内 核 调度 算法 。 将 一 个 进程 移 到 或 移出 被 分 离 出 
来 的 CPU 的 唯一 方式 是 使 用 本 节 介 绍 的 CPU 杀 和 力 系 统 调 
用 。isolcpus 局 动 参数 是 实现 上 面 列 出 的 最 后 一 种 场景 的 首 
选 方式 ， 有 具体 可 参考 内 核 源 文 件 Documentation/ kernel- 


parameters.txt。 
Linux 还 提供 了 一 个 cpuset 内 核 参 数 ， 该 参数 可 用 于 包 


含 大 量 CPU 的 系统 以 实现 如 何 给 进程 分 配 CPU 和 内 存 的 复 
杂 控 制 ， 具 体 可 参考 内 核 源 文件 Documentation/cpusets.txt。 


Linux 2.6 提 供 了 一 对 非 标 准 的 系统 调用 来 修改 和 获取 进程 的 硬 CPU 
亲和力 : sched_ setaffinity() 和 sched_getaffinity()。 


很 多 其 他 UNIX 实 现 提供 了 控制 CPU 亲 和 力 的 接口 ， 如 
HP-UX 和 Solaris 提 供 了 pset_bindO 系 统 调 用 。 


sched_setaffinityO 系 统 调 用 设置 了 pid 指 定 的 进程 的 CPU 亲和力。 如 
果 pid 为 0， 那 么 调用 进程 的 CPU 亲 和 力 束 会 被 改变 。 








#define GNU SOURCE 
ftinclude <sched.h> 


int sched_setaffinity(pid_t ped, size_t len, cpu_set_t *set); 





Returns 0 on success, or -1 on error 





赋 给 进程 的 CPU 亲 和 力 由 set 指 疝 的 cpu_set_t 结 构 来 指定 。 


实际 上 CPU 亲 和 力 是 一 个 线程 级 特性 ， 可 以 调整 线程 
组 中 各 个 进程 的 CPU 亲 和 力 。 如 果 需 要 修改 一 个 多 线程 进 
程 中 某 个 特定 线程 的 CPU 亲 和 力 的 话 ， 可 以 将 pid 设 定 为 线 
程 中 gettid() 调 用 返回 的 值 。 将 pid 设 为 0 表示 调用 线程 。 


虽然 cpu_set_t 数 据 类 型 实现 为 一 个 位 掩 码 ， 但 应 该 将 其 看 成 是 一 个 
不 透明 的 结构 。 所 有 对 这 个 结构 的 操作 都 应 该 使 用 宏 CPU_ZEROO、 
CPU_SETO、CPU_CLRO 和 CPU_ISSETO 来 完成 。 





#define GNU SOURCE 
#include <sched.h> 


void CPU_ZERO(cpu_set_t *sef); 
void CPU_SET(int cpu, cpu_set_t *set); 
void CPU CLR(int cpu, cpu_set_t *set); 


int CPU_ISSET(int cpu, cpu_set_t *set); 








Returns true (1) if cfu is in set, or false (0) otherwise 





下 面 这 些 宏 操作 set 指 向 的 CPU 集合 : 


CPU_ZEROO 将 set 初 始 化 为 空 。 

CPU_SETO 将 CPU cpu 添 加 到 set 中 。 
CPU_CLRO 从 set 中 删除 CPU cpu. 

CPU _ISSETO 在 CPU cpu 是 set 的 一 个 成 员 时 返回 true。 


GNU C 库 还 提供 了 其 他 一 些 宏 来 操作 CPU 集合 ， 具 体 
可 参见 CPU_SET(3) 手 册 。 


CPU 集合 中 的 CPU 从 0 开始 编号 。<sched.h> 头 文件 定义 了 常量 
CPU_SETSIZE， 它 是 比 cpu_set_t 变 量 能 够 表示 的 最 大 CPU 编 号 还 要 大 的 
一 个 数字 。CPU_SETSIZE 的 值 为 1024。 


传递 给 sched_setaffinity() 的 len 参 数 应 该 指定 set 参 数 中 字 节 数 〈 即 
sizeof(cpu_set_t)) 。 


下 面 的 代码 将 pid 标 识 出 的 进程 限制 在 四 处 理 器 系统 上 除 第 一 个 
CPU 之 外 的 任意 CPU 上 运行 。 


cpu_set_t set; 


CPU_ZERO(&set); 

CPU_SET(1, &set); 
CPU_SET(2, &set); 
CPU SET(3, &set); 


sched setaffinity(pid, CPU SETSIZE, &set); 


如 末 set 中 指定 的 CPU 与 系统 中 的 所 有 CPU 都 不 匹配 ， 那 么 
sched_setaffinityO 调 用 惑 会 返回 EINVAL 错 误 。 


如 果 运 行 调 用 进程 的 CPU 不 包含 在 set 中 ， 那 么 进程 会 被 迁移 到 set 中 
的 一 个 CPU 上 。 


非特 权 进 程 只 有 在 其 有 效用 户 ID 与 目标 进程 的 真实 或 有 效用 户 了 DD 匹 
配 时 才能 够 设置 目标 进程 的 CPU 亲和力 。 特 权 (CAP_SYS_NICE) 进程 
可 以 设置 任意 进程 的 CPU 亲 和 力 。 


sched_getaffinity() 系 统 调用 获取 pid 指 定 的 进程 的 CPU 杀 和 力 掩 人 码 。 
如 果 pid 为 0， 那 么 束 返 回调 用 进程 的 CPU 亲和力 撼 但 。 








#define GNU SOURCE 
#include “sched.h> 


int sched_getaffinity(pid_t pid, size_t len, cpu_set_t *set); 








Returns 0 on success, or -1 on error 





返回 的 CPU 亲和力 掩 码 位 于 set 指 同 的 cpu_set_t 结构 中 ， 同 时 应 该 
将 len 参 数 设 置 为 结构 中 包含 的 字 市 数 ， 即 sizeof(cpu_set_t)。 使 用 
CPU_ISSET() 宏 能 够 确定 哪些 CPU 位 于 set 中 。 


如 果 目 标 进程 的 CPU 亲和力 撼 码 并 没有 被 修改 过 ， 那 么 
sched_getaffinity() 返 回 包含 系统 中 所 有 CPU 的 集合 。 


sched_getaffinity() 执 行 时 不 会 进行 权限 检查 ， 非 特权 进程 能 够 获取 
系统 上 所 有 进程 的 CPU 杀 和 力 掩 码 。 


通过 fork0 创 建 的 子 进程 会 继承 其 父 进程 的 CPU 杀 和 力 掩 码 并 且 在 
exec() 调 用 之 间 掩 人 码 会 得 以 保留 。 


sched_setaffinity() 和 sched_getaffinity() 系 统 调用 是 Linux 特 有 的 。 





本 书 源 代码 中 procpri 子 目录 下 t_sched_setaffinity.c 和 
t_sched_getaffinity.c 程 序 展示 了 sched_setaffinity() 和 
sched_getaffinity() 的 使 用 。 


35.5 ”总结 


默认 的 内 核 调 度 算 法 采用 的 是 循环 时 间 分 享 策略 。 默 认 情 况 下 ， 在 
这 一 策略 下 的 所 有 进程 都 能 平等 地 使 用 CPU， 但 可 以 将 进程 的 nice 值 设 
置 为 一 个 范围 从 -20《〈《 高 优先 级 ) 一 +19《〈 低 优先 级 ) 的 数字 来 影响 调度 
髓 对 进程 的 调度 。 但 即使 给 一 个 进程 设置 了 一 个 最 低 的 优先 级 ， 它 仍然 
有 机 会 用 到 CPU。 


Linux 还 实现 了 POSIX 实 时 调度 扩展 。 这 些 扩展 允许 应 用 程序 精确 

地 控制 如 何 分 配 CPU 给 进程 。 运 作 在 两 个 实时 调度 策略 SCHED_RR“〈 循 
环 ) 和 SCHED_FIFO (AH) 下 的 进程 的 优先 级 总 是 高 于 运作 在 非 
实时 策略 下 的 进程 。 实 时 进程 优先 级 的 取 值 范围 为 1〈 低 ) 一 

99 (高 ) 。 只 有 进程 处 于 可 运行 状态 ， 那 么 优先 级 更 高 的 进程 就 会 完全 
将 优先 级 低 的 进程 排除 在 CPU 之 外 。 运 作 在 SCHED _FIFO 策 略 下 的 进程 
会 互 斥 地 访问 CPU 直到 它 执行 终止 或 自动 释放 CPU 或 被 进入 可 运行 状态 
的 优先 级 更 高 的 进程 抢占 。 类 似 的 规则 同样 适用 于 SCHED_RR 策 略 ， 但 
在 该 策略 下 ， 如 果 存 在 多 个 进程 运行 于 同样 的 优先 级 下 ， 那 么 CPU 就 会 
以 循环 的 方式 被 这 些 进 程 共享 。 


进程 的 CPU 亲 和 力 掩 码 可 以 用 来 将 进程 限制 在 多 处 理 嚣 系统 上 可 用 
CPU 的 子 集中 运行 。 这 样 就 可 以 提高 特定 类 型 的 应 用 程序 的 性 能 。 


更 多 信息 


[Love，2010] 提 供 了 Linux 上 进程 优先 级 和 调度 的 背景 资料 。 
[Gallmeister, 1995] 提 供 了 POSIX 实 时 调度 API 的 更 多 信息 。 哩 然 
[Butenhof, 1996] 中 很 多 有 关 实 时 调度 API 的 讨论 都 是 针对 POSIX 线 程 
的 ， 但 它 也 为 本 章 中 有 关 实 时 调度 的 讨论 提供 了 有 用 的 背景 资料 。 


更 多 有 关 CPU 亲 和 力 以 及 控制 多 处 理 嚣 系统 上 给 线程 分 配 CPU 和 内 
存 节 点 的 信息 可 以 参见 内 核 源 文件 Documentation/cpusets.txt、 
mbind(2)、set_mempolicy(2) 以 及 cpuset(7) 手 册 。 





























35.6 ”习题 
35-1. 实现 nice(1) 命 令 。 


35-2. 编写 一 个 与 nice(1) 命 令 类 似 的 实时 调度 程序 set-user-ID-root 
程序 。 这 个 程序 的 命令 行 界面 如 下 所 示 : 


# ./rtsched policy priority command arg... 


在 上 面 的 命令 中 ，policy 中 r 表 示 SCHED_RR，f 表 示 
SCHED_FIFO。 基 于 在 9.7.1 节 和 38.3 节 中 描述 的 原因 ， 这 个 程序 在 执行 
命令 前 应 该 丢弃 自己 的 特权 ID。 


35-3. 编写 一 个 运行 于 SCHED_FIFO 调 度 策略 下 的 程序 ， 然 后 创建 
一 个 子 进 程 。 在 两 个 进程 中 都 执行 一 个 能 导致 进程 最 多 消耗 3 秒 CPU 时 
间 的 函数 。《〈 这 可 以 通过 使 用 一 个 循环 并 在 循环 中 不 断 使 用 timesO 系 统 
调用 来 确定 累积 消耗 的 CPU 时 间 来 完成 。) 每 当 消 耗 了 1/4 秒 的 CPU 时 间 
之 后 ， 函 数 应 该 打印 出 一 条 显示 进程 DD 和 运 今 消 耗 的 CPU 时 间 的 消息 。 
每 当 消耗 了 1 秒 的 CPU 时 间 之 后 ， 函 数 应 该 调用 sched_yield0 来 将 CPU 
释放 给 其 他 进程 。( 男 一 种 方法 是 进程 使 用 sched_setparam() 提 逢 对方 的 
调度 策略 。) 从 程序 的 输出 中 应 该 能 够 看 出 两 个 进程 交 蔡 消耗 了 1 秒 的 
A 间 。〔 注 意 在 35.3.2 节 中 给 出 的 有 关 防 止 失 控 实 时 进程 占 住 CPU 
建议 。) 


35-4. 如 果 两 个 进程 在 一 个 多 人 处理 器 系统 上 使 用 管道 来 交换 大 量 数 
据 ， 那 么 两 个 进程 运行 在 同一 个 CPU 上 的 通信 速度 应 该 要 快 于 两 个 进程 
运行 在 不 同 的 CPU 上 ， 其 原因 是 当 两 个 进程 运行 在 同一 个 CPU 上 时 能 
够 快速 地 访问 管道 数据 ， 因 为 管道 数据 可 以 保留 在 CPU 的 高 速 缓冲 器 
中 。 相 反 ， 当 两 个 进程 运行 在 不 同 的 CPU 上 时 将 无 法 享受 CPU ARR 
冲 器 带 来 的 优势 。 读 者 如 果 拥 有 多 处 理 嚣 系统， 可 以 编写 一 个 使 用 
sched_setaffinity() 强 制 将 两 个 进程 运行 在 同一 个 CPU 上 或 运行 在 两 个 不 
同 的 CPU 上 的 程序 来 演示 这 种 效果 。 【第 44 章 描述 了 管道 的 使 用 。) 
































第 36 章 ”进程 资源 


每 个 进程 都 会 消耗 诸如 内 存 和 CPU 时 间 之 类 的 系统 资源 。 本 章 将 介 
绍 与 资源 相关 的 系统 调用 ， 首 先 会 介绍 getrusage0 系 统 调用 ， 该 函数 人 允 
许 一 个 进程 监控 自己 及 其 子 进程 已 经 用 挥 的 资源 。 接 着 会 介绍 setrlimit() 
和 getrlimit() 系 统 调用 ， 它 们 可 以 用 来 修改 和 获取 调用 进程 对 各 类 资源 的 
消耗 限 值 。 





36.1 进程 资源 使 用 


getrusage() 系 统 调用 返回 调用 进程 或 其 子 进程 用 掉 的 各 类 系统 资源 
的 统计 信息 。 





#include <sys/resource.h> 


int getrusage(int who, struct rusage *res_usage); 








Returns 0 on success, or -1 on error 





Bie ete cere ete eee ey 
可 一 | 


RUSAGE_SELF 
返回 调用 进程 相关 的 信息 。 
RUSAGE_CHILDREN 
返回 调用 进程 的 所 有 被 终止 和 处 于 等 竺 状态 的 子 进程 相关 的 信息 。 
RUSAGE_THREAD ( 自 Linux 2.6.26 起 ) 
返回 调用 线程 相关 的 信息 。 这 个 值 是 Linux 特 有 的 。 


res_usage 参 数 是 一 个 指向 rusage 结 构 的 指针 ， 其 定义 如 程序 清单 36- 
1 所 示 。 





程序 清单 36-1: rusage 结 构 的 定义 








struct rusage { 


struct timeval ru_utime; /* User CPU time used */ 

struct timeval ru_stime; /* System CPU time used */ 

long ry maxrss; /* Maximum size of resident set (kilobytes) 
[used since Linux 2.6.32] */ 

long ru_ixrss; /* Integral (shared) text memory size 
(kilobyte-seconds) [unused] */ 

long ru_idrss; /* Integral (unshared) data memory used 
(kilobyte-seconds) [unused] */ 

long ru_isrss; /* Integral (unshared) stack memory used 
(kilobyte-seconds) [unused] */ 

long ru minflt; /* Soft page faults (I/0 not required) */ 

long ru majflt; /* Hard page faults (I/0 required) */ 

long ru_nswap; /* Swaps out of physical memory [unused] */ 

long ru_inblock; /* Block input operations via file 
system [used since Linux 2.6,22] */ 

long ru_oublock; /* Block output operations via file 
system [used since Linux 2.6.22] */ 

long ru_msgsnd; /* IPC messages sent [unused] */ 

long ru_msgrcv; /* IPC messages received [unused] */ 

long ru_nsignals; /* Signals received [unused] */ 

long ru_nvcsw; /* Voluntary context switches (process 


relinquished CPU before its time slice 
expired) [used since Linux 2.6] */ 

long ru_nivcsw; /* Involuntary context switches (higher 
priority process became runnable or time 
slice ran out) [used since Linux 2.6] */ 


i 





从 程序 清单 36-1 中 的 注释 中 可 以 看 出 ， 在 Linux 上 ， 在 调用 
getrusage() 〈 或 wait30 以 及 wait40) 时 ，rusage 结 构 中 的 很 多 字段 都 不 会 
被 填充 ， 只 有 最 新 的 内 核 才 会 填充 这 些 字 段 。 其 中 一 些 字 段 在 Linux 中 
并 没有 用 到 ， 只 有 UNIX 实 现 用 到 了 这 些 字 段 。 而 Linux 系 统 之 所 以 也 提 
供 了 这 些 字 段 是 为 了 防止 以 后 扩展 时 需要 修改 rusage 结 构 而 破坏 既 有 的 
应 用 程序 库 。 





虽然 大 多 数 UNIX 实 现 都 提供 了 getrusage0， 但 SUSv3 
并 没有 全 面 规范 这 个 系统 调用 〔〈 仅 规定 了 ru_utime 和 
ru_stime 字 段 ) ， 这 样 做 的 部 分 原因 是 因为 rusage 结 构 中 的 
很 多 字段 的 含义 是 依赖 于 实现 的 。 





ru_utime 和 ru_stime 字 上 段 的 类 型 是 timeval 结 构 (参见 10.1 闻 )〉 ， 它 分 
别 表示 一 个 进程 在 用 户 模 式 和 内 核 模式 下 消耗 的 CPU 的 秒 数 和 点 秒 数 。 
410.7 节 中 介绍 的 timesO 系 统 调用 也 会 返回 类 似 的 信息 。) 


Linux 特 有 的 /procPID/stat 文 件 提供 了 系统 中 所 有 进程 
的 某 些 资源 使 用 信息 《CPU 时 间 和 页 面 错误 ) ， 更 多 信息 
可 参考 proc(5) 手 册 。 





getrusage() RUSAGE_CHILDREN 操 作 返 回 的 rusage 结 构 中 包含 了 调 
用 进程 的 所 有 子孙 进程 的 资源 使 用 统计 信息 。 如 假设 三 个 进程 之 间 的 关 
系 为 父 进 程 、 子 进程 和 孙子 进程 ， 那 么 当 子 进程 在 wait() 孙 子 进程 时 ， 
孙子 进程 的 资源 使 用 值 就 会 被 加 到 子 进 程 的 RUSAGE_CHILDREN 值 
上 ， 当 父 进 程 执行 了 一 个 wait0 子 进程 的 操作 时 ， 子 进程 和 孙子 进程 的 
资源 使 用 信息 就 会 被 加 到 父 进 程 的 RUSAGE_CHILDREN 值 上 。 而 如 果 
子 进程 没有 waitO 孙 子 进程 的 话 ， 和 孙子 进程 的 资源 使 用 就 不 会 被 记录 到 
父 进程 的 RUSAGE_CHILDREN 值 中 。 














在 RUSAGE_CHILDREN 操 作 中 ，ru_maxrss 字 段 返回 调用 进程 的 所 
有 子孙 进程 中 最 大 驻 留 集 大 小 (不 是 所 有 子孙 进程 之 和 ) 。 





SUSvV3 规 定 当 SIGCHLD 被 忽略 时 (这 样子 进程 就 不 会 
变 成 可 等 待 的 僵 死 进程 了 ) ， 子 进程 的 统计 信息 不 应 该 被 
加 到 RUSAGE_CHILDREN 的 返回 值 中 。 但 在 26.3.3 节 中 
经 指出 过 在 版 本 号 早 于 2.6.9 的 内 核 中 ，Linux 的 行为 与 这 个 
规则 不 同一 一 当 SIGCHLD 被 忽略 时 ， 己 经 死去 的 子 进程 的 
资源 使 用 值 会 被 加 到 RUSAGE_CHILDREN 的 返回 值 中 。 





36.2 ”进程 资源 限制 


每 个 进程 都 用 一 组 资源 限 值 ， 它 们 可 以 用 来 限制 进程 能 够 消耗 的 各 
种 系统 资源 。 如 在 执行 任意 一 个 程序 之 前 如 果 不 想 让 它 消 耗 太 多 资源 ， 
则 可 以 设置 该 进程 的 资源 限制 。 使 用 shell 的 内 置 命令 ulimit 可 以 设置 shell 
的 资源 限制 (在 C shell 中 是 limit) 。shell 创 建 用 来 执行 用 户 命令 的 进程 
会 继承 这 些 限 制 。 


从 2.6.24 的 内 核 开 始 ，Linux 特 有 的 /procwPIDVimits 文 件 
可 以 用 来 得 看 任意 进程 的 所 有 资源 限制 。 这 个 文件 由 相应 
进程 的 真实 用 户 ID 所 拥有 ， 并 且 只 有 进程 ID 为 用 户 ID 的 进 
程 (或 特权 进程 ) 才 能够 读 取 这 个 文件 。 





getrlimit() 和 和 setrlimit() 系 统 调用 允许 一 个 进程 读 取 和 修改 自己 的 资源 
民 制 | 。 





#include <sys/resource. h> 


int getrlimit(int resource, struct rlimit *rlzm); 
int setrlimit(int resource, const struct rlimit *rlim); 


Both return 0 on success, or -1 on error 














resource 参 数 标 识 出 了 需 读 取 或 修改 的 资源 限制 。rlim 人 参数 用 来 返回 
限制 值 “getrlimitO) 或 指定 新 的 资源 限制 值 “Cetlimit0)， 它 征 一 个 指 
回 包含 两 个 字段 的 结构 的 指针 。 
struct rlimit { 

rlim t rlim cur; /* Soft limit (actual process limit) */ 


rlim t rlim max; /* Hard limit (ceiling for rlim cur) */ 


}; 
这 两 个 字段 对 应 于 一 种 资源 的 两 个 关联 限制 : 软 限制 Crlim_cur) 


和 硬 限 制 Crlim_max) 。 (rlim t 数 据 类 型 是 一 个 整数 类 型 。) 软 限 制 
规定 了 进程 能 够 消耗 的 资源 数量 。 一 个 进程 可 以 将 软 限制 调整 为 从 0 到 
硬 限制 之 间 的 值 。 对 于 大 多 数 资 源 来 讲 ， 硬 限制 的 唯一 作用 是 为 软 限制 
设 定 了 上 限 。 特 权 CCAP_SYS RESOURCE) 进程 能 够 增 大 和 缩小 硬 限 
制 ( 只 要 其 值 仍 然 大 于 软 限 制 ) ， 但 非特 权 进 程 则 只 能 缩小 硬 限 制 ( 这 
个 行为 是 不 可 逆 的 ) 。 在 getrlimit() 和 setrlimit() 调 用 中 ，rlim_cur 和 
rim_max 取 值 为 RLIM_INFINITY 表 示 没 有 限制 (不 限制 资源 的 使 
FAD . 


在 大 多 数 情 况 下 ， 特 权 进 程 和 非特 权 进 程 在 使 用 资源 时 都 会 受到 限 
的 
到 你 持 。 


表 36-1 列 出 了 getrlimit() 和 setrlimit() 两 个 函数 中 resource 参 数 的 可 取 
值 ， 详 细 信息 可 参见 36.3 节 。 


虽然 资源 限制 是 一 个 进程 级 别 的 特性 ， 但 在 某 些 情况 下 ， 不 仅 需要 
度量 一 个 进程 对 相关 资源 的 消耗 情况 ， 还 需要 度量 同一 个 真实 用 户 ID 下 
所 有 进程 对 资源 的 消耗 总 和 情况 。 限 制 能 创建 的 进程 数目 的 
RLIMIT_NPROC 束 较 好 地 遵循 了 这 个 规则 。 仅 仅 将 这 个 限制 施加 于 进 
程 本 身 所 创建 的 子 进程 的 数量 的 做 法 不 是 非常 有 效 ， 因 为 由 该 进程 创建 
的 每 个 子 进 程 都 可 以 创建 自己 的 子 进 程 ， 而 这 些 子 进程 还 能 够 创建 更 多 
的 子 进 程 ， 以 此 类 推 。 因 此 ， 这 个 限制 是 根据 同一 真实 用 户 ID 下 所 有 的 
进程 数 来 度量 的 。 注 意 只 有 在 设置 了 资源 限制 的 进程 中 《〈 即 进程 本 身 及 
继承 了 限制 值 的 子孙 进程 ) 才 会 对 资源 使 用 情况 进行 检查 。 如 果 同 一 真 
实用 户 ID 下 存在 一 个 没有 设置 限制 〈 即 限制 值 为 无 限 ) 或 设置 了 一 个 不 
T AT E 
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下 面 在 介绍 每 类 资源 的 限制 值 时 都 会 指出 此 类 资源 限制 值 是 指 同 一 
真实 用 户 ID 下 所 有 进程 累积 能 够 消耗 的 资源 限制 值 。 如 果 没 有 特别 指 
出 ， 那 么 一 个 资源 限制 值 束 是 指 进程 本 身 能 够 消耗 的 资源 限制 值 。 












































记 住 ， 在 很 多 情况 下 ， 获 取 和 设置 资源 限制 的 shell 命 
A> (bash 和 Korn shell 中 是 ulimit，C shell 中 是 limit) 使 用 的 


单位 与 getrlimit() 和 setrlimit() 使 用 的 单位 不 同 。 如 shell 命 令 
在 限制 各 种 内 存 段 的 大 小 时 通常 以 千 字 节 为 单位 。 








表 36-1: getrlimit() 和 setrlimit() 中 的 资源 值 


RLIMIT_AS 进程 虚拟 内 存 限制 大 小 《〈 字 节 数 ) 
核心 文件 大 小 《 字 节 数 ) 
CPUMY la] ZO 

RLIMIT_DATA 进程 数据 段 〈 字 节 数 ) 

RLIMIT_FSIZE 文件 大 小 〈 字 节 数 ) 

ERAT CETRO 


户 ID 分 配 的 POSIX 消 息 队 列 的 字 节 数 〈 上 自 
Linux 2.6.8 起 ) 


























最 大 的 文件 描述 符 数 量 




















RLIMIT_NPROC 实用 户 ID 下 的 进程 数量 
RLIMIT_RSS 驻 留 集 大 小 〈( 字 节 数 ， 没 有 实现 ) 
实时 CPU 时 间 〔〈 微 秒 ， 自 Linux 2.6.25 起 ) 


RLIMIT_SIGPENDING HPDE SBP ea 2 CA Linux 2.6.8 


ponce Rene 
示例 程序 
在 开始 介绍 各 种 资源 限制 的 具体 内 容 之 前 ， 首 先 来 看 一 个 使 用 了 次 


源 限制 的 简单 示例 。 程 序 清 单 36-2 定义 了 函数 printRlimit()， 该 函数 会 
显示 一 条 消息 以 及 指定 资源 的 软 限 制 和 硬 限 制 。 





























rlim_t 数 据 类 型 与 off_t 通 常 是 一 样 的 ， 用 来 处 理 文件 大 


小 资源 限制 RLIMIT_FSIZE 的 表示 。 基 于 这 个 原因 ， 在 打印 
rlim_t 值 时 (如 在 程序 清单 36-2 中 ) ， 需 要 像 5.10 节 所 说 的 
那样 将 它们 转换 成 long long 并 使 用 %lld printfO 修 饰 符 。 


程序 清单 36-3 调用 了 setrlimit0 来 设置 一 个 用 户 能 够 创建 的 进程 数 
量 的 软 限制 和 硬 限 制 CRLIMIT_NPROC) ， 同 时 使 用 了 程序 清单 36-2 
中 的 函数 printRlimit0 来 输出 变更 之 前 和 之 后 的 资源 限制 ， 最 后 根据 资 
源 限 制 创 建 了 尽 可 能 多 的 进程 。 在 运行 这 个 程序 时 ， 如 果 将 软 限制 设置 
为 30， 硬 限制 设置 为 100， 那 么 就 能 看 到 下 面 的 输出 。 


$ ./rlimit_nproc 30 100 

Initial maximum process limits: soft=1024; hard=1024 
New maximum process limits: soft=30; hard=100 
Child 1 (PID=15674) started 

Child 2 (PID=15675) started 

Child 3 (PID=15676) started 

Child 4 (PID=15677) started 

ERROR [EAGAIN Resource temporarily unavailable] fork 


在 这 个 例子 中 ， 程 序 只 创建 了 4 个 新 进程 ， 因 为 在 该 用 户 下 已 经 运 
行 着 26 个 进程 了 。 

















程序 清单 36-2: 显示 进程 资源 限 种 
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procres/print_rlimit.c 
#include <sys/resource.h> 
#include “print_rlimit.h" /* Declares function defined here */ 
#include "tlpi_hdr.h" 


int /* Print 'msg' followed by limits for ‘resource’ */ 
printRlimit(const char *msg, int resource) 


{ 


struct rlimit rlim; 


if (getrlimit(resource, &rlim) == -1) 
return -1; 


printf("%s soft=", msg); 
if (rlim,rlim cur == RLIM INFINITY) 
printf("infinite"); 
#ifdef RLIM SAVED CUR /* Not defined on some implementations */ 
else if (rlim.rlim cur == RLIM SAVED CUR) 
printf("unrepresentable"); 
#endif 
else 
printf("%lld", (long long) rlim.rlim_cur); 


printf("; hard="); 
if (rlim.rlim max == RLIM INFINITY) 
printf("infinite\n"); 
#ifdef RLIM SAVED MAX /* Not defined on some implementations */ 
else if (rlim.rlim_max == RLIM SAVED MAX) 
printf("“unrepresentable"); 
#endif 
else 
printf("%lld\n", (long long) rlim.rlim_max); 


return 0; 


procres/print_rlimit.c 











procres/rlimit_nproc.c 
#include <sys/resource.h> 
#include “print_rlimit.h" /* Declaration of printRlimit() */ 
#include "tlpi hdr.h" 


int 

main(int argc, char *argv[]) 
struct rlimit rl; 
int j; 
pid t childPid; 


程序 清单 36-3: 设置 RLIMIT_NPROC 资 源 限 第 
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if (argc < 2 || argc > 3 || stremp(argv[1], "--help") == 0) 
usageErr("%s soft-limit [hard-limit]\n", argv[0]); 


printRlimit("Initial maximum process limits: ", RLIMIT NPROC); 
/* Set new process limits (hard == soft if not specified) */ 


rl.rlim cur = (argv[1][0] == ‘i') ? RLIM INFINITY : 
getInt(argv[1], 0, “soft-limit"); 
rl.rlim max = (argc == 2) ? rl.rlim cur : 
(argv[2][0] == 'i') ? RLIM INFINITY : 
getInt(argv[2], 0, “hard-limit"); 
if (setrlimit(RLIMIT NPROC, &rl) == -1) 
errExit("setrlimit"); 


printRlimit("New maximum process limits: ", RLIMIT NPROC); 
/* Create as many children as possible */ 
for (j = 1; ; j++) { 
switch (childPid = fork()) { 
case -1: errExit("fork"); 
case 0: exit(EXIT SUCCESS); /* Child */ 
default: /* Parent: display message about each new child 


and let the resulting zombies accumulate */ 
printf("Child %d (PID=%1d) started\n", j, (long) childPid); 


break; 
} 
} 
} 
procres/rlimit nproc.c 
无 法 表示 的 限制 值 


在 某 些 程序 设计 环境 中 ，rlim_t 数 据 类 型 可 能 无 法 表示 某 个 特定 资 
源 限 制 的 所 有 可 取 值 ， 这 是 因为 一 个 系统 可 能 提供 了 多 个 程序 设计 环 
境 ， 而 在 这 些 程序 设计 环境 中 rlim_t 数 据 类 型 的 大 小 是 不 同 的 。 如 当 一 
个 off t 为 64 位 的 大 型 文件 编译 环境 被 添加 到 off _t 为 32 位 的 系统 中 时 束 会 
出 现 这 种 情况 。 在 每 种 环境 中 ，rlim_ t 和 off t 的 大 小 是 一 样 的 。) 这 
就 会 导致 出 现 这 样 一 种 情况 ， 即 一 个 off_t 为 64 位 的 程序 能 够 创建 一 个 子 
进程 来 执行 一 个 rlim_t 值 较 小 的 程序 ， 这 样子 进程 就 会 继承 父 进 程 的 资 
源 限制 (如 文件 大 小 限制 ) ， 但 该 资源 限制 超过 了 最 大 的 Him_t 值 。 


为 了 帮助 可 移植 应 用 程序 处 理 可 能 出 现 的 无 法 标识 资源 限制 的 情 
况 ，SUSv3 规 定 了 两 个 常量 来 标记 无 法 表示 的 限制 值 : 














RLIM_SAVED_CUR#IRLIM SAVED MAX。 如 果 一 个 软 资源 限制 无 法 
用 rlim_t 表 示 ， 那 么 getrlimitO 将 会 在 rlim_cur 字 段 返 回 

RLIM_ SAVED_CUR。 而 RLIM_SAVED_MAX 的 功能 类 似 ， 即 当 碰 到 无 
法 表示 的 硬 限 制 时 在 rlim_max 字 段 返回 该 值 。 


SUSv3 人 允许 实现 在 rlim_t 能 够 表示 资源 限制 的 所 有 可 取 值 时 将 
RLIM_SAVED_CUR 和 RLIM_SAVED_MAX 定 义 成 与 RLIM _INFINITY 
一 样 的 值 。 在 Linux 上 ， 这 两 个 常量 值 就 是 这 样 定义 的 ， 这 样 Him_t 能 够 
表示 资源 限制 的 所 有 可 取 值 ， 但 在 像 x86-32 这 样 的 32 位 架构 上 这 种 做 法 
是 不 对 的 。 在 那些 架构 上 ， 在 一 个 大 文件 编译 环境 中 ，glibc 将 rlim_t 冠 
义 为 64 位 ， 但 内 核 中 表示 资源 限制 的 数据 类 型 是 unsigned long， 它 只 有 
32 位 。 当 前 版 本 的 glibc 是 这 样 处 理 这 种 情况 的 : 如 果 一 个 设置 了 
_FILE_OFFSET_BITS=64 编 译 选项 的 程序 试图 将 一 个 资源 限制 值 设 置 为 
一 个 超出 32 位 unsigned long 表 示范 围 的 值 ， 那 么 glibc 中 setrlimitO 的 包装 
函数 会 毫 无 征兆 地 将 这 个 值 转换 成 RLIM_INEFINITY。 换 句 话 说， 要 求 
完成 的 资源 限制 值 的 设置 并 没有 如 实地 被 完成 。 











由 于 在 很 多 x86-32 发 行 版 中 ， 处 理 文件 的 实用 程序 在 
编译 时 通常 都 设置 了 _FILE_OFFSET_BITS=64 参 数 ， 因 此 
当 资 源 限制 值 超出 32 位 的 表示 范围 时 系统 不 如 实地 设置 资 
源 限 制 值 的 做 法 不 仅仅 会 影响 到 应 用 程序 开发 人 员 ， 还 会 
影响 到 最 终 的 用 户 。 





有 些 人 可 能 会 认为 glibc setrlimit() 包 装 函数 的 做 法 要 比 
在 请 求 的 资源 限制 超出 32 位 unsigned long 表 示范 围 时 返回 一 
个 错误 要 好 ， 而 这 个 问题 的 本 质 是 内 核 的 限制 ，glibc 的 开 
发 人 员 在 处 理 这 个 问题 时 则 采用 了 前 面 正文 中 介绍 的 方 
e 





36.3 ”特定 资源 限制 细节 


本 节 将 详细 介绍 Linux 上 可 用 的 各 个 资源 限制 ， 特 别 需 要 注意 那些 
Linux 特 有 的 资源 限制 。 


RLIMIT_AS 


RLIMIT_AS 限 制 规定 了 进程 的 虚拟 内 存 〈 地 址 空间 ) 的 最 大 字 节 
数 ， 试 图 (brkO0、sbrk0、mmap0、mremapO 以 及 shmatO) 超出 这 个 限 
制 会 得 到 ENOMEM 错 误 。 在 实践 中 ， 程 序 中 会 超出 这 个 限制 的 最 常见 
的 地 方 是 在 调用 malloc 包 中 的 函数 时 ， 因 为 它们 会 使 用 sbrkO0 和 
mmap0。 当 碰 到 这 个 限制 时 ， 栈 增长 操作 也 会 失败 ， 进 而 会 出 现下 面 
RLIMIT_STACK 限 制 中 列 出 的 情况 。 


RLIMIT_CORE 








RLIMIT_CORE 限 制 规定 了 当 进 程 被 特定 信号 〈 参 见 22.1 节 ) 终止 
时 产生 的 核心 dump 文 件 的 最 大 字 节 数 。 当 达到 这 个 限制 时 ， 核 心 dump 
文件 束 不 会 再 产生 了 。 将 这 个 限制 指定 为 0 会 阻止 核心 dump 文 件 的 创 
建 ， 这 种 做 法 有 时 候 是 比较 有 用 的 ， 因 为 核心 dump 文件 可 能 会 变 得 非 
常 大 ， 而 最 终 用 户 通 常 又 不 知道 如 何 处 理 这 些 文件 。 另 一 个 禁用 核心 
dump 文 件 的 原因 是 安全 性 一 一 防止 程序 占用 的 内 存 中 的 内 容 输 出 到 磁 
盘 上 。 如 果 RLIMIT_FSIZE 限 制 值 低 于 这 个 限制 值 ， 那 么 核心 dump 文 件 
的 最 大 大 小 会 被 限制 为 RLIMIT_FSIZE 字 节 。 








RLIMIT_CPU 


RLIMIT_CPU 限 制 规 定 了 进程 最 多 使 用 的 CPU 时 间 (包括 系统 模式 
和 用 户 模式 ) 。SUSv3 要 求 当 达到 软 限制 值 时 需要 向 进程 发 送 一 个 
SIGXCPU 信 号 ， 但 并 没有 规定 其 他 的 细节 。 〈SIGXCPU 信 号 的 默认 动 
作 是 终止 一 个 进程 并 输出 一 个 核心 dump。) 此 外 ， 也 可 以 为 SIGXCPU 
信号 建立 一 个 处 理 器 来 完成 期 望 的 处 理工 作 ， 然 后 将 控制 返回 给 主 程 
序 。 在 达到 软 限 制 值 之 后 ， 内 核 〈 在 Linux 上 ) 会 在 进程 每 消耗 一 秒 钟 
的 CPU 时 间 后 向 其 发 送 一 个 SIGXCPU 信 号 。 当 进程 持续 执行 直至 达到 
硬 CPU 限 制 时 ， 内 核 会 向 其 发 送 一 个 SIGKILL 信 号 ， 该 信号 总 是 会 终止 
进程 。 


不 同 的 UNIX 实 现 对 进程 处 理 完 SIGXCPU 信 号 之 后 继续 消耗 CPU 时 
间 这 种 情况 的 处 理 方式 不 同 。 大 多 数 会 每 隔 固定 时 间 间 隔 癌 进程 发 送 一 
个 SIGXCPU 信 和 号。 读者 如 果 想 要 编写 使 用 这 个 信号 的 可 移植 应 用 程 
序 ， 那 么 应 该 在 首次 收 到 这 个 信号 之 后 就 完成 必要 的 清理 工作 ， 然 后 终 
止 执行 。 (或 者 ， 程 序 也 可 以 在 收 到 这 个 信号 之 后 修改 资源 限制 。) 


RLIMIT_DATA 


RLIMIT_DATA 限 制 规定 了 进程 的 数据 段 的 最 大 字 节 数 〈 在 6.3 节 中 
介绍 的 初始 化 数据 、 非 初始 化 数据 、 堆 段 的 总 和 ) 。 试 图 (sbrkO 和 
brkQ)) 访问 这 个 限制 之 外 的 数据 段 会 得 到 ENOMEM 的 错误 。 与 
RLIMIT_AS 一 样 ， 程 序 中 会 超出 这 个 限制 的 最 常见 的 地 方 是 在 调用 
malloc 包 中 的 函数 时 。 


RLIMIT_FSIZE 


RLIMIT_FSIZE 限 制 规 定 了 进程 能 够 创建 的 文件 的 最 大 字 节 数 。 如 
果 进 程 试图 扩充 一 个 文件 使 之 超出 软 限制 值 ， 那 么 内 核 就 会 向 其 发 送 一 
个 SIGXFSZ 信 与， 并 且 系 统 调用 (如 write() 或 truncate()) 会 返回 EFBIG 
错误 。SIGXFSZ 信 号 的 默认 动作 是 终止 进程 并 产生 一 个 核心 dump。 此 
外 ， 也 可 以 捕获 这 个 信号 并 将 控制 返回 给 主 程序 。 不 管 怎 样 ， 后 续 视 图 
扩充 该 文件 的 操作 都 会 得 到 同样 的 信号 和 错误 。 


RLIMIT_MEMLOCK 














RLIMIT_MEMLOCK 限 制 〈 源 自 BSD， 在 SUSv3 中 并 没有 此 限制 ， 
只 有 Linux 和 BSD 系 统 提 供 了 这 个 限制 ) 规定 了 一 个 进程 最 多 能 够 将 多 
少 字 节 的 虚拟 内 存 锁 进 物理 内 存 以 防止 内 存 被 交换 出 去 。 这 个 限制 会 影 
响 mlockO0 和 mlockall0 系 统 调 用 以 及 mmap0O 和 shmctl0 系 统 调 用 的 加 锁 参 
数 ， 后 面 50.2 节 中 将 会 介绍 其 中 的 细节 信息 。 


如 果 在 调用 mlockall0 时 指定 了 MCL_FUTURE 标 记 ， 那 么 
RLIMIT_MEMLOCK 限 制 也 会 导致 后 续 的 brk()、sbrk()、mmap() 和 
mremap() 调 用 失败 。 


RLIMIT_MSGQUEUE 





RLIMIT MSGQUEUE 限 制 (Linux 特 有 的 ， 自 Linux 2.6.88) 规定 
了 能 够 为 调用 进程 的 真实 用 户 ID 的 POSIX 消 息 队 列 分 配 的 最 大 字 节 数 。 


当 使 用 mdq_open0 创 建 了 一 个 POSIX 消 息 队 列 后 会 根据 下 面 的 公式 将 字 
节 数 与 这 个 限制 值 进行 比较 。 


bytes = attr.mq maxmsg * sizeof(struct msg msg *) + 
attr.mq maxmsg * attr.mg_msgsize; 


在 这 个 公式 中 ，attr 是 传 给 mq_open0 的 第 四 个 参数 mq_attr 结 构 。 加 
数 中 包含 Ree msg_msg *) 确 保 了 用 户 无 法 在 队列 中 无 止境 地 加 入 
KENZIE. (msg_msg 结 构 是 内 核 内 部 使 用 的 一 个 数据 类 型 。) 
这 样 做 是 有 必要 的 ， 因 为 虽然 长 度 为 零 的 消息 不 包含 数据 ， 但 它们 需要 
消耗 一 些 系统 内 存 以 供 短 记 。 


RLIMIT_ MSGQUEUE 限 制 只 Nz 会 影响 调用 进程 。 这 个 用 户 下 的 其 他 
进程 不 会 受到 影响 ， 因 为 它们 也 会 设置 这 个 限制 或 继承 这 个 限制 。 


RLIMIT_NICE 





RLIMIT_NICE 限 制 (Linux 特 有 的 ， 自 Linux 2.6.12 起 ) 规定 了 使 用 
sched_setscheduler() 和 nice() 能 够 为 进程 设置 的 最 大 nice 值 。 这 个 最 大 值 
是 通过 公式 20 -rlim_cur 计 算得 来 的 ， 其 其 中 tlim_ cur 是 当前 的 
RLIMIT_NICE 软 资源 限制 ， 更 多 细节 信息 可 参见 35.1 节 。 








RLIMIT_NOFILE 


RLIMIT_NOFILE 限 制 规定 了 一 个 数值 ， 该 数值 等 于 一 个 进程 能 够 
分 配 的 最 大 文件 描述 符 数量 加 1。 试 图 (如 open()、pipe()、socket()、 
accept()、shm_open()、dup()、dup2()、fcntl(F_DUPFD) 和 和 
epoll_create()) 分 配 的 文件 描述 符 数量 超出 这 个 限制 时 会 失败 。 在 大 多 
数 情况 ， 失 败 的 错误 是 EMFILE， 但 在 dup2(fd, newfd) 调 用 中 ， 失 败 的 错 
误 是 EBADF， 在 fentl(fd, F_DUPFD, newfd) 调 用 中 当 newfd 大 于 或 等 于 这 
个 限制 时 ， 失 败 的 错误 是 EINVAL。 


对 RLIMIT_NOFILE 限 制 的 变更 会 通过 sysconf(_SC_OPEN_MAX) 的 
返回 值 反应 出 来 。SUSvV3 人 允许 但 不 ae NOFILE 限 
制 前 后 调用 sysconf(_SC_OPEN_MAX) 返 回 不 同 的 值 ， 在 这 一 点 上 其 他 
实现 的 行为 与 Linux 可 能 并 不 相同 。 





SUSv3 声 称 如 果 一 个 应 用 程序 将 进程 的 软 或 便 
RLIMIT NOFILE 限 制 设置 为 一 个 小 于 或 等 于 进程 当前 打开 
的 最 大 文件 描述 符 数 量 的 值 时 会 出 现 预期 之 外 的 行为 。 


在 Linux 上 可 以 通过 使 用 readdir() 扫 描 /proc/PID/fd 目 录 
下 的 内 容 来 检查 一 个 进程 当前 打开 的 文件 描述 符 ， 这 个 目 
录 包 含 了 进程 当前 打开 的 每 个 文件 描述 符 的 符号 链接 。 





内 核 为 RLIMIT_NOFILE 限 制 规定 了 一 个 最 大 值 。 在 2.6.25 之 前 的 内 
核 中 ， 这 个 最 大 值 是 一 个 由 内 核 常 量 NR_OPEN 定 义 的 硬 编码 值 ， 其 值 
为 1048576。 〈 提 高 这 个 最 大 值 需要 重建 内 核 。) 从 2.6.25 的 版 本 开始 ， 
这 个 限制 由 Linux 特 有 的 /proc/sys/fsmnr_open 文 件 定义 。 这 个 文件 中 的 默 
认 值 是 1048576， 超 级 用 户 可 以 修改 这 个 值 。 试 图 将 软 或 硬 
RLIMIT_NOFILE 限 制 设置 为 一 个 大 于 最 大 值 的 值 会 产生 EPERM 错 误 。 


还 存在 一 个 系统 级 别 的 限制 ， 它 规定 了 系统 中 所 有 进程 能 够 打开 的 
文件 数量 ， 通 过 Linux 特 有 的 /proc/sys/fs/file-max 文 件 能 够 获取 和 修改 这 
个 限制 。《〈 可 以 将 file-max 更 加 精确 地 定义 为 系统 中 所 能 打开 的 文件 描 
述 符 数量 限制 ， 具 体 可 参考 5.4 节 。) 只 有 特权 (CAP_SYS_ADMIN) 
进程 才能 够 超出 fle-max 的 限制 。 在 非特 权 进 程 中 ， 当 系统 调用 倍 到 file- 
max 限 制 时 会 返回 ENFILE 错 误 。 











RLIMII_NPROC 


RLIMIT_NPROC 限 制 ( 源 自 BSD， 在 SUSv3 中 并 没有 此 限制 ， 只 有 
Linux 和 BSD 系 统 提 供 了 这 个 限制 ) 规定 了 调用 进程 的 真实 用 户 ID 下 最 
多 能 够 创建 的 进程 数量 。 试 图 (fork0、vfork0 和 clone0) 超出 这 个 限制 
会 得 到 EAGAIN 错 误 。 


RLIMIT_NPROC 限 制 只 影响 调用 进程 。 这 个 用 户 下 的 其 他 进程 不 
会 受到 影响 ， 除 非 它 们 也 设置 或 继承 了 这 个 限制 。 这 个 限制 不 适用 于 特 
权 (CAP SYS_ADMIN 和 CAP SYS RESOURCE) ) 进程 。 








Linux 还 提供 了 系统 层面 的 限制 来 规定 所 有 用 户 能 够 创 
建 的 进程 数量 。 在 Linux 2.4 以 及 之 后 的 版 本 中 ， 可 以 使 用 
Linux 特 有 的 /proc/sys/kernel/threads-max 文 件 来 获取 和 修改 
这 个 限制 。 





准确 地 说 ，RLIMIT_NPROC 资 源 限制 和 threads-max 文 
件 实际 上 限制 的 是 所 能 创建 的 线程 数量 ， 而 不 是 进程 的 数 


i=! 


Æo 








不 同 版 本 的 内 核 为 RLIMIT_NPROC 资 源 限制 设置 的 默认 值 不 同 。 
在 Linux 2.2 中 ， 该 值 是 根据 一 个 固定 的 公式 计算 得 来 的 。 在 Linux 2.4 和 
的 版 本 中 ， 该 值 是 使 用 一 条 公式 根据 可 用 的 物理 内 存 数量 计算 得 来 





SUSv3 没 有 规定 RLIMIT_NPROC 资 源 限 制 ， 但 它 规定 
了 通过 sysconf(_ SC_CHILD _MAX) 调 用 来 获取 (不 是 修 
改 ) 一 个 用 户 ID 最 多 能 够 创建 的 进程 数量 。Linux 也 文 持 这 
个 sysconfO 调 用 ， 但 只 有 2.6.23 前 的 内 核 才 支持 这 个 调用 。 
这 个 调用 不 会 返回 精确 的 信息 一 一 它 总 是 返回 值 999。 自 
Linux 2.6.23 起 (以 及 glibc 2.4 和 之 后 的 版 本 ) ， 这 个 调用 会 
正确 地 返回 限制 (通过 检查 RLIMIT_NPROC 资 源 限制 
Els 





不 存在 一 种 统一 的 方法 能 够 在 不 同系 统 中 找 出 某 个 特 
定 用 户 ID 已 经 创建 的 进程 数 。 在 Linux 中 可 以 通过 扫描 系统 
中 的 所 有 /proc/PID/status 文 件 并 检查 Uid 条 目 〈 它 会 按 顺 序 


列 出 四 个 进程 用 户 ID: 真实 、 有 效 、 保 留 集 和 文件 系统 ) 
下 的 信息 来 估算 一 个 用 户 当 前 拥有 的 进程 ， 但 有 一 点 需要 
记 住 ， 即 当 完 成 扫 摘 之 后 信息 可 能 已 经 发 生 了 改变 。 








RLIMIT_RSS 


RLIMIT_RSS 限 制 ( 源 自 BSD， 在 SUSv3 并 没有 此 限制 ， 但 该 限制 
是 被 广泛 使 用 的 ) 规定 了 进程 驻 留 集中 的 最 大 页 面 数 ， 即 当前 位 于 物理 
a Linux 也 提供 了 这 个 限制 ， 但 当前 并 没有 
引 任何 作用 。 


在 Linux 2.4 之 前 的 内 核 中 《 早 于 以 及 包括 2.4.29) ， 
RLIMIT_RSS 会 影响 到 madvise() MADV_WILLNEED 操 作 的 
行为 《参见 50.4 节 ) 。 如 果 这 个 操作 因 达 到 RLIMIT_RSS 限 
制 而 无 法 执行 ， 那 么 errno 中 会 存储 EIO 错 误 。 


RLIMIT_RTPRIO 


RLIMIT_RTPRIO 限 制 〈Linux 特 有 的 ， 目 Linux 2.6.12) 规定 了 使 
用 sched_setscheduler() 和 sched_setparam() 能 够 为 进程 设置 的 最 高 实时 优 
先 级 ， 具 体 细节 请 参考 35.3.2 节 。 


RLIMIT_RTTIME 





RLIMIT_RTTIME 限 制 (Linux 特 有 的 ， 自 Linux 2.6.25 起 ) 规定 了 一 
个 进程 在 实时 调度 策略 中 不 睡眠 〈 即 执行 一 个 阻塞 系统 调用 ) 的 情况 下 
最 大 能 消耗 的 CPU 秒 数 。 当 达到 这 个 限制 时 系统 的 行为 与 达到 
RLIMIT_CPU 限 制 时 的 行为 是 一 样 的 ， 如 果 进 程 达 到 了 软 限制 ， 那 么 内 
核 会 回 进 程 发 送 一 个 SIGXCPU 信 号 ， 之 后 进程 每 消耗 一 秒 的 CPU 时 间 
都 会 收 到 一 个 SIGXCPU 信 号 。 在 达到 硬 限 制 时 ， 内 核 会 向 进程 发 送 一 


个 SIGKIILEL 信 号。 更 多 细节 请 参考 35.3.2 节 。 
RLIMIT_SIGPENDING 


RLIMIT_SIGPENDING 限 制 〈Linux 特 有 的 ， 自 Linux 2.6.8) 规定 
了 调用 进程 的 真实 用 户 ID 下 信和 号 队列 中 最 多 能 容纳 的 信号 数量 。 试 图 
(sigqueue()) 超出 这 个 限制 会 得 到 EAGAIN 错 误 。 


RLIMIT_SIGPENDING 只 影响 调用 进程 。 这 个 用 户 下 的 其 他 进程 不 
会 受到 影响 ， 除 非 它们 也 设置 或 继承 了 这 个 限制 。 


在 最 初 的 实现 中 ，RLIMIT_SIGPENDING 限 制 的 默认 值 为 1024。 自 
ee 这 个 限制 的 默认 值 被 改 成 了 与 RLIMIT_NPROC 的 默认 值 
— FFE 


在 检查 RLIMIT_SIGPENDING 限 制 时 统计 的 队列 中 的 信号 包括 实时 
信号 和 标准 信号 。 一 个 进程 的 标准 信号 只 能 进入 队列 一 次 。) 但 这 个 
限制 只 适用 于 sigqueue()。 即 使 这 个 实时 用 户 ID 下 的 进程 的 信号 队列 中 
包含 的 信号 数量 已 经 达到 了 这 个 限制 ， 仍 然 可 以 使 用 kill0 来 将 不 在 进程 
的 信号 队列 中 的 各 个 信号 (包括 实时 信号 ) 的 一 个 实例 添加 到 队列 中 。 


在 2.6.12 之 前 的 内 核 中 ，Linux 特 有 的 /proc/PID/status 文 件 中 的 SigQ 
字段 显示 了 进程 的 真实 用 户 ID 的 信号 队列 中 当前 存储 的 信号 数量 以 及 最 
多 存储 的 信号 数量 。 


RLIMIT_STACK 


RLIMIT_STACK 限 制 规定 了 进程 栈 的 最 大 字 节 数 。 试 图 扩展 栈 大 
小 以 至 于 超出 这 个 限制 会 导致 内 核 问 该 进程 发 送 一 个 SIGSEGV 信 和 号。 
由 于 栈 空间 已 经 被 用 光 了 ， 因 此 捕获 这 个 信号 的 唯一 方式 是 建立 另外 一 
个 备用 的 信号 栈 ， 具 体 可 参考 21.3 节 。 


























A Linux 2.6.23 起 ，RLIMIT_STACK 限 制 还 确定 了 存储 
进程 的 命令 行 参数 和 环境 变量 的 最 大 空间 ， 具 体 可 参考 
execve(2) 手 册 。 





36.4 Me 


进程 会 消耗 各 种 系统 资源 。getrusage() 系 统 调 用 允许 一 个 进程 监控 
自己 及 其 子 进程 所 消耗 的 各 种 资源 。 


setrlimit() 和 getrlimit() 系 统 调用 允许 一 个 进程 设置 和 获取 自己 在 各 种 
资源 上 的 消耗 限制 。 每 个 资源 限制 有 两 个 组 成 部 分 : 一 个 是 软 限制 ， 内 
核 在 检查 进程 的 资源 消耗 时 会 应 用 这 个 限制 ， 另 外 一 个 是 硬 限 制 ， 它 是 
软 限制 可 取 的 最 大 值 。 非 特权 进程 能 够 将 一 个 资源 的 软 限制 设置 为 0 到 
硬 限 制 之 间 的 任意 一 个 值 ， 但 只 能 降低 硬 限 制 值 。 特 权 进 程 能 够 随意 修 
改 这 两 个 限制 值 ， 只 要 软 限 制 值 小 于 或 等 于 硬 限 制 值 即 可 。 当 一 个 进程 
达到 软 限制 时 通常 会 通过 接收 一 个 信号 或 在 调用 试图 超出 这 个 限制 的 系 
统 调用 时 得 到 一 个 错误 来 得 知 这 个 事实 。 








36.5 “习题 


36-1. 编写 一 个 程序 使 用 getrusage() RUSAGE_CHILDREN 标 记 获 
取 wait(0) 调 用 所 等 待 的 子 进程 相关 的 信息 。〔 让 程序 创建 一 个 子 进程 并 
使 子 进程 消耗 一 些 CPU 时 间 ， 接 着 让 父 进程 在 调用 wait0) 前 后 都 调用 
getrusage()。) 


36-2. 编写 一 个 程序 来 执行 一 个 命令 ， 接 着 显示 其 当前 的 资源 使 
eens an 因此 可 以 像 下 面 这 样 使 用 这 个 
程序 : 


$ ./rusage command arg... 


36-3， 编写 一 个 程序 来 确定 当 进 程 所 消耗 的 各 种 资源 超出 通过 
setrlimitO 调 用 设置 的 软 限制 时 会 发 生 什么 事情 。 


第 37 章 DAEMON 


本 章 介 绍 daemon 进 程 的 特征 和 将 一 个 进程 变 成 一 个 daemon 所 需 完 
成 的 步骤 。 此 外 ， 还 会 介绍 如 何在 daemon 中 使 用 syslog 工 具 记 录 消 息 。 





37.1 概述 


daemon 是 一 种 具备 下 列 特征 的 进程 。 


它 的 生命 周期 很 长 。 通 常 ， 一 个 daemon 会 在 系统 启动 的 时 候 被 创建 

并 一 直 运 行 直至 系统 被 关闭 。 

它 在 后 台 运 行 并 且 不 拥有 控制 终端 。 控 制 终 端的 缺失 确保 了 内 核 永 

远 不 会 为 daemon 自 动 生 成 任何 任务 控制 信号 以 及 终端 相关 的 信号 
(如 SIGINT、SIGTSTP 和 SIGHUP) . 


daemon 是 用 来 执行 特殊 任务 的 ， 如 下 面 的 示例 所 示 。 


cron: 一 个 在 规定 时 间 执 行 命令 的 daemon。 

sshd: 安全 shell daemon， 人 允许 在 远程 主机 上 使 用 一 个 安全 的 通信 协 
议 登 录 系 统 。 

httpd: HTTP 服 务 器 daemon (Apache) ， 它 用 于 服务 Web 页 面 。 
inetd: Internet 超 级 服务 器 daemon (参见 60.5 节 ) ， 它 监听 从 指定 的 
R 0 ys rl eee re 
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很 多 标准 的 daemon 会 作为 特权 进程 运行 〈 即 有 效用 户 ID 为 0) ， 








此 在 编写 daemon 程 序 时 应 该 遵循 第 38 章 中 给 出 的 指南 。 


通常 会 将 daemon 程 序 的 名 称 以 字母 结尾 《但 并 不 是 所 有 人 都 遵 循 


这 个 惯例 ) 。 


在 Linux 上 ， 特 定 的 daemon 会 作为 内 核 线程 运行 。 实 现 
此 类 daemon 的 代码 是 内 核 的 一 部 分 ， 它 们 通常 在 系统 启动 
的 时 候 被 创建 。 当 使 用 ps(1) 列 出 线程 时 ， 这 些 daemon 的 名 
称 会 用 方 括号 〈[U) 括 起 来 。 其 中 一 个 内 核 线程 是 pdflush， 
它 会 定期 将 脏 页 面 〈 即 高 速 缓冲 区 中 的 页 面 ) 写 入 磁盘 。 


37.2 ”创建 一 个 daemon 
要 变 成 daemon， 一 个 程序 需要 完成 下 面 的 步骤 。 


1. 执行 一 个 fork()， 之 后 父 进程 退出 ， 子 进程 继续 执行 。 结 果 是 
daemon 成 为 了 init 进 程 的 子 进程 。) 之 所 以 要 做 这 一 步 是 因为 下 面 两 个 


e 假设 daemon 是 从 命令 行 局 动 的 ， 父 进程 的 终止 会 被 shell 发 现 ，shell 
在 发 现 之 后 会 显示 出 另 一 个 shell 提 示 符 并 让 子 进程 继续 在 后 台 运 


子 进程 被 确保 不 会 成 为 一 个 进程 组 首 进 程 ， 因 为 它 从 其 父 进程 那里 
继承 了 进程 组 ID 并 且 拥有 了 自己 的 唯一 的 进程 ID， 而 这 个 进程 ID 与 
继承 而 来 的 进程 组 ID 是 不 同 的 ， 这 样 才能 够 成 功 地 执行 下 面 一 个 步 


TR 











2， 子 进程 调用 setsid0 〈 参 见 34.3 节 ) 开局 一 个 新 会 话 并 释放 它 与 
控制 终端 之 间 的 所 有 关联 关系 。 


3. 如 果 daemon 从 来 没有 打开 过 终端 设备 ， 那 么 就 无 需 担 心 daemon 
会 重新 请 求 一 个 控制 终端 了 。 如 果 daemon 后 面 可 能 会 打开 一 个 终端 设 
备 ， 那 么 必须 要 采取 措施 来 确保 这 个 设备 不 会 成 为 控制 终端 。 这 可 以 通 
过 下 面 两 种 方式 实现 。 


。 在 所 有 可 能 应 用 到 一 个 终端 设备 上 的 open() 调 用 中 指定 O_NOCTTY 
标记 。 

。 或 者 更 简单 地 说 ， 在 setsid0 调 用 之 后 执行 第 二 个 fork0， 然 后 再 次 
让 父 进 程 退 出 并 让 孙子 进程 继续 执行 。 这 样 就 确保 了 子 进程 不 会 成 
为 会 话 组 长 ， 因 此 根据 System V 中 获取 终端 的 规则 〈Linux 也 遵循 
了 这 个 规则 ) ， 进 程 永远 不 会 重新 请 求 一 个 控制 终端 〈 参 见 34.4 
Hs 








在 遵循 BSD 规 则 的 实现 中 ， 一 个 进程 只 能 通过 一 个 显 
式 的 ioctlO TIOCSCTTY 操 作 来 获取 一 个 控制 终端 ， 因 此 第 


二 个 forkO 调 用 对 控制 终 站 的 获取 并 没有 任何 影响 ， 但 多 一 
个 forkO 调 用 不 会 带 来 任何 坏处 。 


4. 清除 进程 的 umask〈 人 参见 15.4.6 节 ) 以 确保 当 daemon 创 建文 件 和 
目录 时 拥有 所 需 的 权限 。 


5. 修改 进程 的 当前 工作 目录 ， 通 常会 改 为 根 目录 A 。 这 样 做 是 
有 必要 的 ， 因 为 daemon 通 常会 一 直 运 行 直 至 系统 关闭 为 止 。 如 果 
daemon 的 当前 工作 目录 为 不 包含 /的 文件 系统 ， 那 么 就 无 法 由 载 该 文件 
系统 (参见 14.8.2 节 ) 。 或 者 daemon 可 以 将 工作 目录 改 为 完成 任务 时 所 
在 的 目录 或 在 配置 文件 中 定义 的 一 个 目录 ， 只 要 包含 这 个 目录 的 文件 系 
统 永远 不 会 被 番 载 即 可 。 如 cron 会 将 自身 放 在 /varspoolMcron 目 录 下 。 


6. 关闭 daemon 从 其 父 进程 继承 而 来 的 所 有 打开 着 的 文件 描述 符 。 
(daemon 可 能 需要 保持 继承 而 来 的 文件 描述 的 打开 状态 ， 因 此 这 一 步 是 
可 选 的 或 者 是 可 变更 的 。) 之 所 以 需要 这 样 做 的 原因 有 很 多 。 由 于 
daemon 失 去 了 控制 终端 并 且 是 在 后 台 运 行 的 ， 因 此 让 daemon 保 持 文 件 
接 述 符 0、1 和 2 的 打开 状态 蝇 无 意义 ， 因 为 它们 指 癌 的 就 是 控制 终端 。 
此 外 ， 无 法 卸载 长 时 间 运 行 的 daemon 打 开 的 文件 所 在 的 文件 系统 。 
此 ， 通 常 的 做 法 是 关闭 所 有 无 用 的 打开 着 的 文件 搬 述 符 ， 因 为 文件 描述 
符 是 一 种 有 限 的 资源 。 




















一 些 UNIX 实 现 ( 如 Solaris 9 和 一 些 最 新 的 BSD 发 行 
版 ) 提供 了 一 个 名 为 closefrom(n) (或 类 似 的 名 称 〉 的 函 
数 ， 它 关闭 所 有 大 于 或 等 于 n 的 文件 描述 符 。Linux 上 并 不 
存在 这 个 函数 。 





7. 在 关闭 了 文件 描述 符 0、1 和 2 之 后 ，daemon 通 常会 打开 /devnull 
并 使 用 dup20 《或 类 似 的 函数 ) 使 所 有 这 些 描述 符 指 同 这 个 设备 。 之 所 





以 要 这 样 做 是 因为 下 面 两 个 原因 。 

它 确 保卫 当 daemon 调用 了 在 这 些 描述 符 上 执行 IO 的 库 函 数 时 不 
会 出 乎 意料 地 失败 。 

它 防止 了 daemon 后 面 使 用 描述 符 1 或 2 打开 一 个 文件 的 情况 ， 因 为 库 
函数 会 将 这 些 描述 符 当 做 标准 输出 和 标准 错误 来 号 入 数据 《进而 破 
坏 了 原 有 的 数据 ) 。 


/dev/null 是 一 个 虚拟 设备 ， 它 忌 会 将 写 入 的 数据 丢弃 。 
当 需 要 删除 一 个 shell 命 令 的 标准 输出 和 错误 时 可 以 将 它们 
重 定 癌 到 这 个 文件 。 从 这 个 设备 中 读 取 数据 总 是 会 返回 文 


件 结束 的 错误 。 





下 面 是 becomeDaemon0 函 数 的 实现 ， 它 完成 了 上 面 摘 述 的 步骤 以 将 


调用 者 变 成 一 个 daemon。 





#include <syslog.h> 


int becomeDaemon(int flags); 





Returns 0 on success, or -1 on error 








becomeDaeomon() 函 数 接收 一 个 位 掩 码 参数 flags， 它 允许 调用 者 有 
选择 地 执行 其 中 的 步骤 ， 有 具体 可 参考 程序 清单 37-1 中 列 出 的 头 文 件 中 的 


注释 。 





程序 清单 37-1: become_daemon.c 的 头 文件 





#ifndef 
#define 


daemons/become_daemon.h 


BECOME DAEMON H /* Prevent double inclusion */ 
BECOME _DAEMON_H 


/* Bit-mask values for ‘flags’ argument of becomeDaemon() */ 


Htdefine 
#define 
#define 
#define 


#define 


BD_NO CHDIR 01 /* Don't chdir("/") */ 

BD_NO_CLOSE_FILES 02 /* Don't close all open files */ 

BD_NO_REOPEN STD FDS 04 /* Don't reopen stdin, stdout, and 
stderr to /dev/null */ 

BD_ NO UMASKO 010 /* Don't do a umask(0) */ 


BD MAX CLOSE 8192 /* Maximum file descriptors to close if 
sysconf( SC OPEN MAX) is indeterminate */ 


int becomeDaemon(int flags); 


#endif 


daemons/become_daemon.h 


REPS 37-225 H T becomeDaemon() K BL AY SKEN. 


GNU C 库 提供 了 一 个 非 标准 的 daemon() 函 数 ， 它 将 调 
用 者 变 成 一 个 daemon。glibc daemon0 函 数 与 这 里 的 
becomeDaemon0) 函 数 不 同 ， 它 并 没有 定义 一 个 与 flags 参 数 
等 价 的 参数 。 




















程序 清单 37-2: 创建 一 个 daemon 进 





程 


#include <sys/stat.h> 
#include <fcntl.h> 
#include "become daemon. h” 
#include "tlpi_hdr.h" 


daemons/become_daemon. c 


int /* Returns O on success, -1 on error */ 


becomeDaemon{int flags) 
int maxfd, fd; 


switch (fork()) { 

case -1: return -1; 

case 0: break; 

default: _exit(EXIT_SUCCESS); 
} 


if (setsid() == -1) 
return -1; 


switch (fork{)) { 

case -1: return -1; 

case 0: break; 

default: _exit(EXIT_SUCCESS); 


} 


/* 
YE 


Become background process */ 
Child falls through... */ 
while parent terminates */ 


Become leader of new session */ 


Ensure we are not session leader */ 


if (!(flags & BD NO_UMASKO)) 


umask(0); /* Clear file mode creation mask */ 
if (!(flags & BD NO CHDIR)) 
chdir("/"); /* Change to root directory */ 


if (!(flags & BD NO CLOSE FILES)) { /* Close all open files */ 
maxfd = sysconf{_SC_OPEN_ MAX); 
if (maxfd == -1) /* Limit is indeterminate... */ 
maxfd = BD_MAX_ CLOSE; /* so take a guess */ 


for (fd = 0; fd < maxfd; fd++) 
close(fd); 


if (!(flags & BD NO REOPEN STD FDS)) { 
close(STDIN FILENO); /* Reopen standard fd's to /dev/null */ 





fd = open("/dev/null", O RDWR); 


if (fd != STDIN FILENO) /* ‘fd' should be 0 */ 
return -1; 

if (dup2(STDIN FILENO, STDOUT FILENO) != STDOUT FILENO) 
return -1; 

if (dup2(STDIN_FILENO, STDERR FILENO) != STDERR_FILENO) 
return -1; 


} 


return 0; 


daenons/become_daemon.c 


假设 编写 一 个 程序 调用 becomeDaemon(0)， 之 后 睡眠 一 段 时 间 ， 那 
么 可 以 使 用 ps(1) 来 查看 结果 进程 的 一 些 特性 。 


$ ./test_become_daemon 

$ ps -C test_become_daemon -o "pid ppid pgid sid tty command" 
PID PPID PGID SID TT COMMAND 

24731 1 24730 24730 ? ./test_become_daemon 


由 于 代码 比较 简单 ， 因 此 这 里 并 没有 给 出 
daemons/test_become_daemon.c 的 源 代 码 ， 本 书 的 源 代 码 包 
中 提供 了 这 个 程序 的 代码 。 


在 ps 的 输出 中 ，TT 标 题 下 的 ? 表示 进程 没有 控制 终端 。 从 进程 ID 与 
会 话 ID (SID) 不 同 的 事实 也 可 以 看 出 进程 不 是 会 话 首 进 程 ， 因 此 在 打 
开 终 端 设备 时 不 会 重新 获得 控制 终端 ， 这 就 是 daemon 应 该 具备 的 特性 。 





37.3 ”编写 daemon 指 南 


前 面 兽 经 提 及 过 ， 一 个 daemon 通 第 只 有 在 系统 关闭 的 时 候 才 会 终 
止 。 很 多 标准 的 daemon 是 通过 在 系统 关闭 时 执行 特定 于 应 用 程序 的 脚本 
来 停止 的 。 而 那些 不 以 这 种 方式 终止 的 daemon 会 收 到 一 个 SIGTERM 信 
号 ， 因 为 在 系统 关闭 的 时 候 init 进 程 会 回 所 有 其 子 进程 发 送 这 个 信号。 
在 默认 情况 下 ，SIGTERM 信 号 会 终止 一 个 进程 。 如 果 daemon 在 终止 之 
前 需要 做 些 清 理工 作 ， 那 么 就 需要 为 这 个 信号 建立 一 个 处 理 器 。 这 个 处 
理 器 必须 能 快速 地 完成 清理 工作 ， 因 为 init 在 发 完 SIGTERM 信 号 的 5 秒 
之 后 会 发 送 一 个 SIGKILL 信 与 。 (这 并 不 意味 着 这 个 daemon 能 够 执行 5 
秒 的 CPU 时 间 ， 因 为 init 会 同时 间 系 统 中 的 所 有 进程 发 送信 号 ， 而 它们 
可 能 都 试图 在 5 秒 内 完成 清理 工作 。) 


由 于 daemon 是 长 时 间 运 行 的 ， 因 此 要 特别 小 心 潜在 的 内 存 泄露 问题 
(参见 7.1.3 节 ) 和 文件 描述 符 泄 露 〈 即 应 用 程序 没有 关闭 所 有 打开 着 的 
文件 描述 符 ) 。 如 果 此 类 bug 影 响 到 了 daemon 的 运行 ， 那 么 唯一 的 解雇 
方案 是 杀 死 它 ， 之 后 〈 修 复 了 bug) 再 重新 启动 它 。 


很 多 daemon 需 要 确保 同一 时 刻 只 有 一 个 实例 处 于 活跃 状态 。 如 让 两 
个 cron daemon 都 试图 实行 计划 任务 宇 无 意义 。 在 55.6 节 中 将 会 介绍 完成 
这 个 任务 的 技术 。 


37.4 使 用 SIGHUP 重 新 初始 化 一 个 daemon 


由 于 很 多 daemon 和 需要 持续 运行 ， 因 此 在 设计 daemon 程 序 时 需要 元 
服 一 些 障 碍 。 


通常 daemon 会 在 启动 时 从 相关 的 配置 文件 中 读 取 操作 参数 ， 但 有 些 
时 候 需 要 在 不 重启 daemon 的 情况 下 快速 修改 这 些 参 数 。 

一 些 daemon 会 产生 日 志文 件 。 如 果 daemon 永 远 不 关闭 日 志文 件 的 
话 ， 那 么 日 志文 件 就 会 无 限制 地 增长 ， 最 终 会 阻塞 文件 系统 。 在 
18.3 节 中 曾经 提 到 过 即使 删除 了 一 个 文件 的 文件 名 ， 只 要 有 进程 还 
打开 着 这 个 文件 ， 那 么 这 个 文件 就 会 一 直 存 在 下 去 。) 这 里 需要 有 
一 种 机 制 来 告诉 daemon 关 闭 其 日 志文 件 并 打开 一 个 新 文件 ， 这 样 就 
能 够 在 需要 的 时 候 旋转 日 志文 件 了 。 


解决 这 两 个 问题 的 方案 是 让 daemon 为 SIGHUP 建 立 一 个 处 理 器 ， 并 
在 收 到 这 个 信号 时 采取 所 需 的 措施 。 在 34.4 节 中 曾经 讲 到 ， 当 控制 进程 
与 控制 终端 断 开 连接 之 后 就 会 生成 SIGHUP 信 号 。 由 于 daemon 没 有 控制 
终端 ， 因 此 内 核 永 远 不 会 向 daemon 发 送 这 个 信号 。 这 样 daemon 就 可 以 
使 用 SIGHUP 信 号 来 达到 目的 。 








logrotate 程 序 可 以 用 来 自动 旋转 daemon 的 日 志文 件 ， 
具体 可 参考 logrotate(8) 手 册 。 


程序 清单 37-3 提 供 了 daemon 如 何 使 用 SIGHUP 的 一 个 示例 。 这 个 程 
序 为 SIGHUP 建 立 了 一 个 处 理 器 @， 然 后 变 成 daemon O, REIP HE 
文件 外， 最 后 读 取 其 配置 文件 @。SIGHUP 处 理 器 四 只 设置 了 一 个 全 局 
标记 变量 hupReceived， 主 程序 会 检查 这 个 变量 。 主 程序 位 于 一 个 循环 
中 ， 它 每 隔 15 秒 向 日 志文 件 输 出 一 条 消息 @@。 循 环 中 对 sleep() 的 调用 @ 
用 来 模拟 真实 应 用 程序 中 的 某 些 处 理工 作 。 在 循环 中 每 次 sleep0 返 回 之 
后 ， 程 序 会 检查 hupReceived 变 量 是 否 被 设置 @， 如 果 该 变量 被 设置 
了 ， 那 么 程序 就 会 重新 打开 日 志文 件 和 重新 读 取 配置 文件 以 及 清除 








hupReceived 标 记 。 


限于 篇 幅 ， 程 序 清单 37-3 中 并 没有 给 出 logOpen()、logClose()、 
logMessage(0 和 readConfigFileO 函 数 的 实现 ， 但 本 书 的 源 代 码 分 发 包 中 提 
供 了 这 些 函 数 的 源 代 码 。 其 中 前 面 三 个 函数 所 做 的 工作 从 其 名 称 中 就 能 
看 出 ，readConfigFileO 函 数 只 是 简单 地 从 配置 文件 中 读 取 一 行 数据 并 将 
这 行 数据 输出 到 日 志文 件 中 。 











一 些 daemon 在 收 到 SIGHUP 信 号 时 会 使 用 其 他 方法 来 
重新 初始 化 上 自身: 它们 会 关闭 所 有 文件 ， 然 后 使 用 exec0) 重 
新 启动 目 身 。 


下 面 是 运行 程序 清单 37-3 时 可 能 看 到 的 输出 ， 这 里 首先 创建 一 个 哑 
配置 文件 ， 然 后 启动 这 个 daemon。 


$ echo START > /tmp/ds.conf 

$ ./daemon_SIGHUP 

$ cat /tmp/ds.log View log file 
2011-01-17 11:18:34: Opened log file 

2011-01-17 11:18:34: Read config file: START 


现在 修改 这 个 配置 文件 并 在 向 daemon 发 送 SIGHUP 信 和 号 之 前 重 命 名 
日 志文 件 。 


$ echo CHANGED > /tmp/ds.conf 

$ date +'%F %X'; mv /tmp/ds.log /tmp/old_ds.log 
2011-01-17 11:19:03 AM 

$ date +'%F %X'; killall -HUP daemon_SIGHUP 
2011-01-17 11:19:23 AM 





$ Is /tmp/*ds.log Log file was reopened 
/tmp/ds.log /tmp/old ds.log 
$ cat /tmp/old_ds.log View old log file 


2011-01-17 11:18:34: Opened log file 
2011-01-17 11:18:34: Read config file: START 
2011-01-17 11:18:49: Main: 1 

2011-01-17 11:19:04: Main: 2 

2011-01-17 11:19:19: Main: 3 

2011-01-17 11:19:23: Closing log file 





ls 的 输出 表明 新 旧 日 志文 件 同时 存在 。 当 使 用 cat 查 看 旧 的 日 志文 件 
中 的 内 容 时 可 以 看 出 ， 即 使 使 用 了 mv 命令 来 重 命名 这 个 文件 ，daemon 
仍然 会 将 日 志 信 息 记 录 到 那个 文件 中 。 这 时 如 果 不 再 需要 这 个 旧 日 志文 
件 ， 就 可 以 删除 这 个 旧 日 志文 件 了 。 在 查看 新 日 志文 件 时 会 发 现 配 置 文 
件 被 重新 读 取 了 。 


$ cat /tmp/ds.log 

2011-01-17 11:19:23: Opened log file 

2011-01-17 11:19:23: Read config file: CHANGED 

2011-01-17 11:19:34: Main: 4 

$ killall daemon_SIGHUP Kill our daemon 


注意 daemon 的 日 志和 配置 文件 通常 会 像 程 序 清单 37-3 所 做 的 那样 被 
放置 在 标准 目录 中 ， 而 不 是 /tmp 目 录 中 。 按 照 惯例 ， 配 置 文件 会 被 放 
在 /etc 或 它 的 一 个 子 目 录 中 ， 日 志文 件 会 被 放 在 /var/log 中 。Daemon 程 序 
通 弟 会 提供 命令 行 参数 来 指定 其 他 存放 位 置 以 蔡 换 默认 的 存放 位 置 。 
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程序 清 





37-3: 使 用 SIGHUP 重 新 初始 化 一 个 daemon 

















四 外 


daemons/daemon_SIGHUP.c 
#include <sys/stat.h> 
#include <signal.h> 
#include "become_daemon.h" 
#include "“tlpi_hdr.h” 


static const char *LOG_FILE = "/tmp/ds.log"; 
static const char *CONFIG FILE = "/tmp/ds.conf"; 


/* Definitions of logMessage{), logOpen(), logClose(), and 
readConfigFile() are omitted from this listing */ 


static volatile sig atomic_t hupReceived = 0; 
/* Set nonzero on receipt of SIGHUP */ 
from 
static void 
SighupHandler(int sig) 


hupReceived = 1; 


int 
main(int argc, char *argv[]) 


const int SLEEP TIME = 15; /* Time to sleep between messages */ 
int count = 0; /* Number of completed SLEEP_TIME intervals */ 
int unslept; /* Time remaining in sleep interval */ 


struct sigaction sa; 


sigemptyset(&sa.sa_ mask); 

sa.sa flags = SA RESTART; 

sa.sa handler = sighupHandler; 

if (sigaction(SIGHUP, &sa, NULL) == -1) 
errExit("sigaction") ; 


if (becomeDaemon(0) == -1) 
errExit("becomeDaemon" ); 


logOpen(LOG_ FILE); 
readConfigFile(CONFIG FILE); 


unslept = SLEEP TIME; 


for (53) { 
unslept = sleep(unslept); /* Returns > 0 if interrupted */ 


if (hupReceived) { /* If we got SIGHUP... */ 
logClose(); 


logOpen(LOG_FILE); 
readConfigFile(CONFIG FILE); 


hupReceived = 0; /* 
} 
if (unslept == 0) { fe 
count++; 
logMessage("Main: %d", count); 
unslept = SLEEP_TIME; /® 
} 


Get ready for next SIGHUP */ 


On completed interval */ 


Reset interval */ 


daemons/daemon_SIGHUP.c 


37.5 ”使 用 syslog 记 录 消 息 和 错误 


在 编写 daemon 时 税 到 的 一 个 问题 是 如 何 显示 错误 消息 。 由 于 
daemon 是 在 后 台 运 行 的 ， 因 此 通常 无 法 像 其 他 程序 那样 将 消息 输出 到 关 
联 终端 上 。 这 个 问题 的 一 种 解决 方式 是 将 消息 写 入 到 一 个 特定 于 应 用 程 
序 的 日 志文 件 中 ， 就 像 程 序 清单 37-3 所 做 的 那样 。 这 种 方式 存在 的 一 个 
主要 问题 是 让 系统 管理 员 管 理 多 个 应 用 程序 日 志文 件 和 监控 其 中 是 否 存 
在 错误 消息 比较 困难 ，syslog 工 具 就 用 于 解决 这 个 问题 。 























37.5.1 概述 


syslog 工 具 提供 了 一 个 集中 式 日 志 工具 ， 系 统 中 的 所 有 应 用 程序 都 
可 以 使 用 这 个 工具 来 记录 日 志 消息 。 图 37-1 提 供 了 这 个 工具 的 一 个 概 
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图 37-1: 系统 日 志 概 览 





syslog 工 具有 两 个 主要 组 件 : syslogd daemon 和 syslog(3) 库 函数 。 


System Log daemon syslogd 从 两 个 不 同 的 源 接 收 日 志 消 息 : 一 个 是 
UNIX domain socket /devwlog， 它 保存 本 地 产生 的 消息 ， 另 一 个 是 Internet 
domain socket CUNP 端 口 514， 如 果 局 用 的 话 ) ， 它 保存 通过 TCP/IP 网 
络 发 送 的 消息 。《〈 在 其 他 一 些 UNIX 实 现 中 ，syslog socket 位 
于 /var/run/log。) 


每 条 由 syslogd 处 理 的 消息 都 具备 几 个 特性 ， 其 中 包括 一 个 facility， 
它 指定 了 产生 消息 的 程序 类 型 ， 还 有 一 个 是 level， 它 指定 了 消息 的 严重 
程度 〈 优 先 级 ) 。syslogd daemon 会 检查 每 条 消息 的 facility 和 level， 然 
后 根据 一 个 相关 配置 文件 /etc/syslog.conf 中 的 指令 将 消息 传递 到 几 个 可 
能 目的 地 中 的 一 个 。 可 能 的 目的 地 包括 终 剖 或 虚拟 控制 台 、 人 磁盘 文 件 、 
FIFO、 一 个 或 多 个 (或 所 有 ) 登录 过 的 用 户 以 及 位 于 另 一 个 系统 上 的 通 
过 TCP/IP 网 络 连 接 的 进程 (通常 是 男 一 个 syslogd daemon) 。 《将 消息 
发 送 到 男 一 个 系统 上 的 进程 有 助 于 通过 将 多 个 系统 中 的 日 志 信 息 集中 到 
一 个 位 置 以 降低 管理 负担 。) 一 条 消息 可 以 被 发 送 到 多 个 目的 地 (或 不 
发 送 到 任何 目的 地 ) ， 有 具备 不 同 的 facility 和 level 组 合 的 消息 可 以 被 发 送 
目的 地 或 不 同 的 目的 地 实例 《〈 即 不 同 的 控制 台 、 不 同 的 磁盘 文 

= 




















通过 TCP/IP 网 络 将 syslog 消 息 发 送 到 男 一 个 系统 还 有 助 
于 发 现 系统 非法 入 侵 。 非 法 入 侵 通 常会 在 系统 日 志 中 留 下 
踪迹 ， 但 攻击 者 通常 会 删除 日 志 记 录 以 掩盖 他 们 的 行为 。 
有 了 远程 日 志 记录 之 后 ， 攻 击 者 就 需要 侵入 另 一 个 系统 才 
能 删除 日 志 记 录 。 














通常 ， 任 意 进 程 都 可 以 使 用 syslog(3) 库 函数 来 记录 消 忠 。 这 个 函数 
会 使 用 传 入 的 参数 以 标准 的 格式 构建 一 条 消 轧 ， 然 后 将 这 条 消 晨 写 
入 /dev/log socket 以 供 syslogd 恋 取 ， 本 章 稍 后 就 会 介绍 这 个 函数 。 


/devwlog 中 的 消息 的 另 一 个 来 源 是 Kernel Log daemon klogd， 它 会 收 








集 内 核 日 志 消 忠 〈 内 核 使 用 printk0) 函 数 生 成 的 消 奶 ) 。 这 些 消息 的 收集 
可 以 通过 两 个 等 价 的 Linux 特 有 的 接口 中 的 一 个 来 完成 〈 即 /procv/kmsg 文 
件 和 syslog(2) 系 统 调 用 ) ， 然 后 使 用 syslog(3) 库 函数 将 它们 写 

入 /dewlog。 


尽管 syslog(2) 和 syslog(3) 的 名 称 相 同 ， 但 它们 执行 的 任 
务 是 不 同 的 。glibc 提 供 了 一 个 调用 syslog(2) 的 接口 ， 其 名 
称 为 klogct0。 除 非特 别 指出 ， 本 节 中 的 syslogO 指 的 是 
syslog(3). 


syslog 工 具 原 先 出 现在 4.2BSD 中 ， 但 现在 几乎 所 有 的 UNIX 实 现 都 
提供 了 这 个 工具 。SUSv3 对 syslog(3) 和 相关 函数 进行 了 标准 化 ， 但 并 没 
有 规定 syslogd 的 实现 和 操作 以 及 syslog.conf 文 件 的 格式 。Linux 中 syslogd 
的 实现 与 它 原 先 在 BSD 的 实现 的 不 同 之 处 在 于 Linux 允 许 对 在 syslog.conf 
中 指定 的 消息 处 理 规则 进行 一 些 扩展 。 





37.5.2 syslog API 
syslog API 由 以 下 三 个 主要 函数 构成 。 


e openlog0 函 数 为 后 续 的 的 syslog0 调 用 建立 了 默认 设置 。syslogO 的 
调用 是 可 选 的 ， 如 果 省 略 了 这 个 调用 ， 那 么 惑 会 使 用 首次 调用 
syslog0 时 采用 的 PRUE ARES E 日 志 记 录 工 具 的 连接 。 

e syslog0 函 数 记 录 一 条 日 志 消 息 。 

° T 日 志 记 录 消 息 之 后 需要 调用 aloselogO 函 数 拆除 与 日 志 之 间 的 
IETA o 


所 有 这 些 函 数 都 不 会 返回 一 个 状态 值 ， 这 是 因为 系统 日 志 服 务 应 该 

总 是 处 于 可 用 状态 《系统 管理 员 应 该 在 服务 不 可 用 时 立即 能 发 现 这 个 问 

题 ) 。 此 外， 如 泉 在 系统 记录 日 ae 应 用 程序 
通常 也 无 法 做 更 多 的 事情 来 报告 这 个 错误 ， 
































GNU C 库 还 提供 了 函数 void vsyslog(int priority, const 
char*format, va_list args)。 这 个 函数 所 做 的 工作 与 syslog0) 一 
样 ， 但 接收 之 前 由 stdarg(3) API 处 理 的 一 个 参数 列表 。 ( 
此 vsyslog0 之 于 syslog0 束 像 vprintfO 之 于 printfD。 ) SUSv3 
并 没有 规定 vsyslog0， 并 且 所 有 的 UNIX 实 现 都 没有 提供 这 
个 函数 。 


建立 一 个 到 系统 日 志 的 连接 


openlogO 函 数 的 调用 是 可 选 的 ， 它 建立 一 个 到 系统 日 志 工 具 的 连接 
并 为 后 续 的 syslog(0) 调 用 设置 默认 设置 。 





#include <syslog.h> 








void openlog(const char *zdent, int log options, int facility); 








ident Be — Ajr E, syslog() Sart AEA Sa 
含 这 个 字符 串 ， 这 个 参数 的 取 值 通 稼 是 程序 名 。 注 意 openlogO0 仅 仅 是 
复制 了 这 个 指针 的 值 。 只 要 应 用 程序 后 面 会 继续 调用 syslog()， 那 么 就 
应 该 确保 不 会 修改 所 引用 的 字符 串 。 





如 果 ident 的 值 为 NULL， 那 么 与 其 他 一 些 实现 一 样 ， 
glibc syslog 实 现 会 自动 将 程序 名 作为 ident 的 值 。 但 SUSv3 并 
没有 要 求实 现 这 个 功能 ， 一 些 实现 也 没有 提供 这 个 功能 。 
可 移植 的 应 用 程 不 应 该 依赖 于 这 个 功能 。 


传 入 openlog() 的 log_options 参 数 是 一 个 位 描 码 ， 它 是 下 面 几 个 常量 


之 间 的 OR 值 。 


LOG_CONS 


当 向 系统 日 志 发 送 消 息 发 生 错误 时 将 消息 写 入 到 系统 控制 台 


(/dev/console) 。 








LOG_NDELAY 


立即 打开 到 日 志 系 统 的 连接 〈 即 底层 的 UNIX domain socket, 
/devwlog) 。 在 默认 情况 下 CLOG_ODELAY) ， 只 有 在 首次 使 用 syslogO) 
记录 消息 的 时 候 才 会 打开 连接 。O_NDELAY 标 记 对 于 那些 需要 精确 控 
制 何 时 为 /dewlog 分 配 文件 摘 述 符 的 程序 来 讲 是 比较 有 用 的 ， 如 调用 
chrootO 的 程序 就 有 这 样 的 要 求 。 在 调用 chroot0 之 后 ，/dewlog 路 径 名 将 
不 再 可 见 ， 因 此 在 chrootO 之 前 需要 调用 一 个 指定 了 LOG_NDELAY 的 
openlog()。tftpd daemon (Trivial File Transfer) 就 因为 上 述 的 原因 而 使 
用 了 LOG_NDELAY。 














LOG_NOWAIT 


不 要 wait() 被 创建 来 记录 日 志 消 息 的 子 进 程 。 在 那些 创建 子 进程 来 
记录 日 志 消 息 的 实现 上 ， 当 调用 者 创建 并 等 待 子 进程 时 就 需要 使 用 
LOG_NOWAIT 了 ， 这 样 syslog0 就 不 会 试图 等 待 已 经 被 调用 者 销毁 的 子 
进程 。 在 Linux 上 ，LOG_NOWAIT 不 起 任何 作用 ， 因 为 在 记录 日 志 消 息 
时 不 会 创建 子 进程 。 


LOG_ODELAY 


这 个 标记 的 作用 与 LOG_NDELAY 相 反 一 一 连接 到 日 志 系 统 的 操作 
会 被 延迟 至 记录 第 一 条 消息 时 。 这 是 默认 行为 ， 因 此 无 需 指 定 这 个 标 
‘Tess 























LOG_PERROR 


将 消息 写 入 标准 错误 和 系统 日 志 。 通 常 ，daemon 进 程 会 关闭 标准 错 
误 或 将 其 重 定向 到 /devnull， 这 样 LOG_PERROR 就 没有 用 了 。 


LOG_PID 


在 每 条 消息 中 加 上 调用 者 的 进程 ID。 在 一 个 创建 多 个 子 进程 的 服务 





器 中 使 用 LOG_PID 有 助 于 区 分 哪个 进程 记录 了 某 条 特定 的 消 妃 。 


SUSv3 规 定 了 上 面 除 LOG_PERROR 之 前 的 所 有 常量 ， 但 很 多 其 他 
(不 是 全 部 ) UNIX 实 现 都 定义 了 LOG_PERROR 铺 量 。 











传 入 openlogO0 的 facility 参 数 指定 了 后 续 的 syslogO 调 用 中 使 用 的 默认 
的 facility 值 。 表 37-1 列 出 了 这 个 参数 的 可 取 值 。 


表 37-1: openlog() 的 facility 值 和 syslog() 的 priority 参 数 


eee aD 
LOG_AUTHPRIV | 私有 的 安全 正 消 
LOG_CRON 












































LOG_KERN 
























































LOG_LOCALO “| 保留 给 本 地 使 用 








LOG_LPR 来 自行 打印 机 系统 的 消息 (lpr、lpd、lpc) 
AE 


LOG_USER HAEE CRYE ) rea FA 
LOG_UUCP 来 自 UUCP 系 统 的 消息 


























表 37-1 中 列 出 的 facility 值 的 大 部 分 都 在 SUSv3 中 进行 了 定义 ， 如 表 
中 的 SUSv3 列 所 示 ， 但 LOG_AUTHPRIV 和 LOG_FTP 只 出 现在 了 一 些 
UNIX 实 现 中 ，LOG_SYSLOG 则 在 大 多 数 实 现 中 都 存在 。 当 需要 将 包含 
密码 或 其 他 敏感 信息 的 日 志 消 息 记 录 到 一 个 与 LOG_AUTH 指 定 的 位 置 
不 同 的 位 置 上 时 ，LOG _AUTHPRIV 值 是 比较 有 用 的 。 

















LOG_KERN facility 值 用 于 内 核 消息 。 用 户 空间 的 程序 是 无 法 用 这 
个 工具 记录 日 志 消 息 的 。LOG_KERN 常 量 的 值 为 0。 如 果 在 syslog() 调 用 
中 使 用 了 这 个 常量 ， 那 么 0 被 翻译 成 了 “使 用 默认 的 级 别 ”。 


记录 AN AY A 























要 写 入 一 条 日 志 消 息 可 以 调用 syslog0)。 





#include <syslog.h> 





void syslog(int priority, const char *format, ...); 











priority 参 数 是 facility 值 和 level 值 的 OR 值 。facility 表 示 记 录 日 志 消 息 
的 应 用 程序 的 类 别 ， 其 取 值 为 表 37-1 中 列 出 的 值 中 的 一 个 。 如 果 省 略 了 
这 个 参数 ， 那 么 facility 的 默认 值 为 前 面 一 个 openlogO 调 用 中 指定 的 
facility 值 ， 或 者 当 那 个 调用 中 也 省 略 了 facility 值 的 话 为 LOG_USER。 
level 表 示 消 息 的 严重 程度 ， 其 取 值 为 表 37-2 中 列 出 的 值 中 的 一 个 。 这 张 
表 中 列 出 的 所 有 值 都 在 SUSv3 进 行 了 定义 。 


表 37-2: syslog(0 中 priority 参 数 的 level 值 〈 严 重 性 从 最 高 到 最 低 ) 
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的 情况 〈 如 破坏 了 系统 数据 库 ) 



































另 一 个 传 入 syslog() 的 参数 是 一 个 格式 字符 哩 以 及 相应 的 参数 ， 它 
们 与 传 入 printf0 中 的 参数 是 一 样 的 ， 但 与 printf0 不 同 的 是 这 里 的 格式 字 
符 串 不 需要 包含 一 个 换行 字符 。 此 外 ， 格 式 字符 串 还 可 以 包含 双 字 符 序 


列 %m， 在 调用 的 时 候 这 个 序列 会 被 与 当前 的 errno 值 对 应 的 错误 字符 串 
( 即 等 价 于 strerror(errno)) 所 替换 。 
下 面 的 代码 演示 了 openlog() 和 syslog0 的 用 法 。 
openlog(argv[0], LOG PID | LOG CONS | LOG NOWAIT, LOG LOCALO); 
syslog(LOG ERROR, "Bad argument: %s", argv[1]}; 
syslog{LOG_USER | LOG_INFO, “Exiting"); 


由 于 在 第 一 个 syslogO 调 用 中 并 没有 指定 facility， 因 此 将 会 使 用 








openlogO 调 用 中 的 默认 值 (LOG_LOCAL0) 。 在 第 二 个 syslog0 调 用 中 
显 式 地 指定 了 LOG_USER 标 记 来 履 盖 openlog0 调 用 中 设置 的 默认 值 。 


在 shell 中 可 以 使 用 logger(1) 命 令 来 向 系统 日 志 中 添加 条 
目 。 这 个 命令 允许 指定 与 日 志 消 息 相 关 的 level (priority) 
和 ident (tag) ， 更 多 细节 可 参考 logger(1) 手 册 。SUSv3 规 
定 了 logger 命 令 〈 并 没有 进行 全 面 定 义 ) ， 大 多 数 UNIX 实 
现 都 实现 了 这 个 命令 。 











像 下 面 这 样 使 用 syslog0) 写 入 一 些 用 户 提 供 的 字符 串 是 错误 的 。 
syslog(priority, user_supplied_ string); 

上 面 这 段 代码 存在 的 问题 是 应 用 程序 会 面临 所 谓 的 格式 字符 串 攻 
击 。 如 采用 户 提 供 的 字符 溃 中 包 合 格式 指示 符 〈 如 %s) ， 那 么 结果 将 
是 不 可 预测 的 ， 从 安全 的 角度 来 讲 ， 这 种 结果 可 能 是 具有 破坏 性 的 。 
(这 个 结论 也 同样 适用 于 传统 的 printf() 函 数 。〉 因 此 需要 将 上 面 的 调用 
重 写 为 下 面 这 样 。 


syslog(priority, "4s", user_supplied_string); 
RAIA E 


当 完 成 日 志 记 录 之 后 可 以 调用 closelog(0) 来 释放 分 配给 /dewlog socket 
的 文件 描述 符 。 








#include <syslog.h> 








void closelog(void); 





由 于 daemon 通常 会 持续 保持 与 系统 日 志 之 间 的 连接 的 打开 状态 ， 
因此 通常 会 省 略 对 closelog() 的 调用 。 


Wye A E 
setlogmask0 函 数 设 置 了 一 个 能 过 滤 由 syslog0 写 入 的 消息 的 掩 码 。 





#include <syslog.h> 


int setlogmask(int mask_priorily) ; 


Returns previous log priority mask 














MA level ME = Hl TEAS E PIE EMRET. BRU TEASE 
允许 记录 所 有 的 严重 性 级 别 。 


宏 LOG_MASK() 在 <syslog.h> 中 定义 〉 会 将 表 37-2 中 的 level 值 转 


换 成 适合 传 入 setlogmask0 的 位 值 。 如 要 丢弃 除 优 先 级 为 LOG_ERR 以 及 
以 上 之 外 的 消息 时 可 以 使 用 下 面 的 调用 。 


setlogmask(LOG MASK(LOG EMERG) | LOG MASK(LOG ALERT) | 
LOG MASK(LOG CRIT) | LOG MASK(LOG ERR)); 


SUSv3 规 定 了 LOG_MASK0 宏 。 大 多 数 UNIX 实 现 〈 包 括 Linux) 还 
提供 了 标准 中 未 规定 的 LOG_UPTOO 宏 。 它 创建 一 个 能 过 滤 特 定 级 别 以 
及 以 上 的 所 有 消息 的 位 掩 码 。 使 用 这 个 宏 能 够 将 前 面 的 settogmaskO 调 用 
简化 成 下 面 这 个 。 


setlogmask(LOG UPTO(LOG ERR)); 
37.5.3 /etc/syslog.conf 文 件 


/etc/syslog.conf 配 置 文件 控制 syslogd daemon 的 操作 。 这 个 文件 由 规 
则 和 注释 〈 以 # 学 符 打 头 ) 构成 。 规 则 的 形式 如 下 上 所 示 。 





facility level action 





facility 和 level 组 合 在 一 起 被 称 为 选择 器 ， 因 为 它们 选择 了 需 应 用 规 
则 的 消息 。 这 个 字段 是 与 表 37-1 和 表 37-2 中 的 值 对 应 的 字符 串 。action 指 
定 了 与 选择 器 匹配 的 消息 被 发 送 到 何 处 。 选 择 器 和 action 之 间 用 空白 字 
符 隔 开 ， 下 面 是 一 些 示 例 。 








Err /dev/tty10 
auth. notice root 
* debug;mail.none;news.none -/var/log/messages 


第 一 条 规则 表示 来 自 所 有 工具 (*) 的 level 为 err ((LOG_ERR) 或 
更 高 的 消息 应 该 被 发 送 到 /dewtty10 控 制 台 设备 上 。 第 二 条 规则 表示 来 自 
验证 工具 (LOG_AUTH) 的 level 为 notice (LOG_NOTICE) 或 更 高 的 消 
因应 该 被 发 送 到 root 登 录 的 所 有 控制 台 和 终端 。 如 这 个 特别 的 规则 允许 
一 个 登录 的 root 用 户 立 即 看 到 失败 的 su 党 试 。 


最 后 一 条 规则 演示 了 规则 语法 中 的 几 个 高 级 特性 。 一 个 规则 可 以 包 
含 多 个 选择 器 ， 选 择 器 之 间 用 分 号 阳 开 。 第 一 个 选择 器 指定 了 所 有 的 消 
息 ， 它 使 用 * 通 配 符 表示 facility 并 将 level 的 值 指定 为 debug， 这 意味 着 所 
有 级 别 为 debug (最低 的 级 别 ) 以 及 更 高 的 消息 都 会 被 记录 下 来 。( 在 
Linux 以 及 其 他 一 些 UNIX 实 现 中 ， 可 以 将 level 指 定 为 *， 其 含义 与 debug 
是 一 样 的 。 但 不 是 所 有 的 syslog 实 现 都 支持 这 个 特性 。) 通常 ， 一 个 包 
含 多 个 选择 器 的 规则 会 匹配 与 其 中 任意 一 个 选择 器 对 应 的 消 轧 ， 但 当 将 
level 设 置 为 none 时 则 表示 排除 所 有 属于 相应 的 facility 的 消息 。 因 此 这 条 
规则 将 除 来 自 mail 和 news 工 具 的 消息 之 外 的 所 有 消息 发 送 
到 /varlog/messages 文 件 中 。 文 件 名 前 面 的 连接 符 〈-) 表示 无 需 每 次 写 
入 文件 时 都 将 文件 同步 到 磁盘 〈 参 见 13.3 节 ) 。 这 意味 着 与 入 操作 将 变 
得 更 快 ， 但 如 果 系 统 在 写 入 之 后 月 尝 的 话 可 能 会 丢失 一 些 数 据 。 


每 次 修改 syslog.conf 文 件 之 后 都 需要 使 用 下 面 的 方式 让 daemon 根 据 
这 个 文件 重新 初始 化 自 号 。 


$ killall -HUP syslogd Send SIGHUP to syslogd 

















syslog.conf 规 则 语法 的 高 级 特性 允许 编写 比 前 面 介 绍 的 
更 加 强大 的 规则 ， 更 多 细节 可 参考 syslog.conf(5) 手 册 。 


37.6 ”总 结 


daemon 是 一 个 长 时 间 运 行 并 且 没 有 控制 终端 的 进程 ( 即 它 运行 在 后 
台 ) 。daemon 执 行 特 定 的 任务 ， 如 提供 一 个 网 络 登 录 工 具 或 服务 Web 页 
面 。 一 个 程序 要 成 为 daemon 需 要 按 序 执行 一 组 步骤 ， 包 括 调用 forkO 和 
setsid()。 








daemon 应 该 在 合适 的 地 方正 确 地 处 理 SIGTERM 和 SIGHUP 信 和 号 。 
SIGTERM 信 号 的 处 理 方 式 应 该 是 按 序 关 闭 这 个 daemon， 而 SIGHUP 信 筷 
则 提供 了 一 种 机 制 让 daemon 通 过 读 取 器 配置 文件 并 重新 打开 所 使 用 的 所 
有 日 志文 件 来 重新 初始 化 自身 。 


syslog 工 具 为 daemon (以 及 其 他 应 用 程序 ) 提供 了 一 种 便捷 的 方式 
来 将 错误 和 其 他 消息 记录 到 一 个 中 心 位 置 。 这 些 消 息 由 syslogd daemon 
处 理 ，syslogd 会 根据 syslogd.conf 配 置 文件 中 的 指令 来 重新 分 发 消息 。 可 
以 将 消息 重新 分 发 到 几 个 目标 上 ， 包 括 终 端 、 破 盘 文 件 、 登 录 的 用 户 以 
及 通过 TCP/P 网 络 分 发 到 远程 主机 上 的 进程 中 《〈 通 第 是 其 他 syslogd 


daemon) 。 
更 多 信息 


有 关 编 写 daemon 的 更 多 信息 的 最 佳 来 源 可 能 就 是 各 种 既 有 daemon 
的 源 代 码 。 























37.7 “习题 


37-1. 编写 一 个 使 用 syslog(3) 的 程序 〈 与 logger(1) 类 似 ) 来 将 任意 
的 消息 写 入 到 系统 日 志文 件 中 。 程 序 应 该 接收 包含 如 记录 到 日 志 中 的 消 
恩 的 命令 行 参 数 ， 同 时 应 该 允许 指定 消 四 的 level。 





第 38 章 ”编写 安全 的 特权 程序 


特权 程序 能 够 访问 普通 用 户 无 法 访问 的 特性 和 资源 (文件 设备 
等 ) 。 一 个 程序 可 以 通过 下 面 两 种 方式 以 特权 方式 运行 。 


。 程序 在 一 个 特权 用 户 ID 下 启动 ， 很 多 daemon 和 网 络 服务 器 通常 以 
root 丑 份 运行 ， 它 们 就 属于 这 种 类 别 。 

。 程序 设置 了 set-user-ID 或 set-group-ID 权 限 位 。 当 一 个 set-user- 
ID (set-group-ID) 程序 被 执 行 之 后 ， 它 会 将 进程 的 有 效用 户 

CEH) ID 修改 为 与 程序 文件 的 所 有 者 〈 组 ) 一 样 的 ID。 《在 9.3 节 

中 首次 对 set-user-ID 和 set-group-ID 程 序 进 行 了 介绍 。) 在 本 章 中 有 
时 候 会 使 用 术语 setruser-ID-root 区 分 将 超级 用 户 权限 赋 给 进程 的 set- 
user-ID 程 序 与 赋 给 进程 另 一 个 有 效 身 份 的 程序 。 


如 果 一 个 特权 程序 包含 bug 或 可 以 被 恶意 用 户 破 坏 ， 那 么 系统 或 应 
用 程序 的 安全 性 就 会 受到 影响 。 从 安全 的 角度 来 讲 ， 在 编写 程序 的 时 候 
应 该 将 系统 受到 安全 威胁 的 可 能 性 以 及 受到 安全 威胁 时 产生 的 损失 降 到 
最 小 。 本 章 将 对 这 些 课题 进行 讨论 ， 并 提供 了 一 组 编写 安全 程序 的 推荐 
实践 ， 同 时 介绍 了 在 编写 特权 程序 时 应 该 避免 的 各 种 陷阱。 











38.1 是 个 需要 一 个 Set-User-ID 或 SetrGroup-ID 程 


有 关 编 写 set-user-ID 和 set-group-ID 程 序 的 最 佳 建 议 中 的 一 条 就 是 尽 
量 避 免 编写 这 种 程序 。 在 执行 一 个 任务 时 如 果 存 在 无 需 赋 给 程序 权限 的 
ee IBA — AREA PTT A, AVA OEE BR ACE EE 
问题 的 可 能 。 


有 时 候 可 以 将 需要 权限 才能 完成 的 功能 拆 分 到 一 个 只 执行 单个 任务 
的 程序 中 ， 然 后 在 需要 的 时 候 在 子 进 程 中 执行 这 个 程序 。 对 于 库 来 讲 ， 
a 的 。64.2.2 节 中 介绍 的 pt_chown 程 序 就 采用 了 这 种 


即使 有 时 候 需 要 set-user-ID 或 set-group-ID 权 限 ， 对 于 一 个 set-user-ID 
程序 来 讲 也 并 不 总 是 需要 赋 给 进程 root 身 份 。 如 果 赋 给 进程 其 他 一 些 身 
份 已 经 足够 ， 那 么 就 应 该 采用 这 种 方法 ， 因 为 以 root 权 限 运 行 可 能 会 引 
起 安全 性 问题 。 


假设 一 个 set-user-ID 程 序 需要 人 允许 用 户 更 新 一 个 它 没有 写 权 限 的 文 
件 ， 那 么 解决 这 个 问题 的 一 种 更 加 安全 的 方式 是 为 这 个 程序 创建 一 个 专 
用 组 账号 (组 ID，， 然 后 将 文件 所 属 的 组 修改 为 那个 组 (即使 得 该 组 中 
的 成 员 能 够 写 入 该 文件 ) ， 接 着 编写 一 个 将 进程 的 有 效 组 ID 设 置 为 该 专 
用 组 ID 的 setruser-ID 程 序 。 由 于 这 个 专用 的 组 ID 没有 其 他 权限 ， 因 此 能 
够 极 大 地 限制 程序 包含 Bug 或 被 破坏 时 所 造成 的 损失 。 








38.2 ”以 最 小 权限 操作 


set-user-ID (S\set-group-ID) 程序 通常 只 有 在 执行 特定 操作 的 时 候 
需要 权限 ， 因 此 在 程序 《特别 是 那些 拥有 超级 用 户 权限 的 程序 ) 执行 
其 他 工作 时 应 该 禁用 这 些 权 限 ， 同 时 如 果 之 后 永远 也 不 会 请 求 这 项 权限 
时 就 应 该 永久 删除 这 项 权限 。 换 句 话 说 ， 程 序 应 该 总 是 使 用 完成 当前 所 
执行 的 任务 所 需 的 最 小 权限 来 操作 ，saved 的 set-user-ID 工 具 吏 是 为 此 而 
设计 的 (参见 9.4 节 ) 。 


按 需 拥有 权限 


在 set-user-ID 程序 中 可 以 使 用 下 面 的 seteuid() 调 用 序列 来 临时 删除 
并 在 之 后 重新 获取 权限 。 


uid t orig euid; 














orig euid = geteuid(); 
if (seteuid(getuid()) == -1) /* Drop privileges */ 
errExit("seteuid"); 


/* Do unprivileged work */ 


if (seteuid(orig euid) == -1) /* Reacquire privileges */ 
errExit("seteuid"); 


/* Do privileged work */ 


第 一 个 调用 使 调用 进程 的 有 效用 户 ID 变 成 其 真实 ID。 第 二 个 调用 将 
有 效用 户 ID 还 原 成 saved set-user-ID 程 序 中 保存 的 值 。 


对 于 set-group-ID 程 序 来 讲 ，saved set-group-ID 会 保存 程序 的 初始 有 
效 组 ID， 并 且 setegidO 可 以 用 来 删除 和 重新 获取 权限 。 第 9 重 对 在 下 面 的 
建议 中 提 到 的 seteuid0、setegid0、 以 及 类 似 的 系统 调用 进行 了 介绍 ， 表 
9-1 对 它们 进行 了 总 结 。 


最 安全 的 作法 是 在 程序 局 动 的 时 候 立 即 删除 权限 ， 然 后 在 后 面 需 要 
的 时 候 临 时 重新 获得 这 些 权 限 。 如 果 在 某 个 特定 的 时 刻 之 后 永远 不 会 再 
次 请 求 权 限时 ， 那 么 程序 应 该 删除 这 些 权 限 ， 并 通过 确保 saved set-user- 
ID 的 变更 来 保证 程序 无 法 再 请 求 这 些 权 限 。 这 样 就 消除 了 通过 第 38.9 节 














中 介绍 的 栈 骨 演技 术 来 让 程序 重新 要 求 权 限 的 可 能 。 
在 无 需 使 用 权限 时 永久 地 删除 权限 


如 果 set-user-ID 或 set-group-ID 程 序 完 成 了 所 有 需要 权限 的 任务 ， 那 
么 它 应 该 永久 地 删除 这 些 权限 以 消除 任何 由 于 程序 中 包含 bug 或 其 他 意 
料 之 外 的 行为 而 可 能 引起 的 安全 风险 。 永 久 删 除权 限 是 通过 将 所 有 进程 
ALP CE) ID 重 置 为 真实 〈 组 ) ID 来 完成 的 。 


对 于 一 个 当前 有 效用 户 ID 为 0 的 set-user-ID-root 程 序 来 讲 ， 可 以 使 用 
下 面 的 代码 来 重 置 所 有 的 用 户 ID。 


if (setuid(getuid()) == -1) 
errExit ("setuid"); 


当 调 用 进程 的 当前 有 效用 户 ID 为 非 零 时 ， 上 面 的 代码 不 会 重 置 
saved set-user-ID: 当 在 一 个 有 效用 户 ID 不 为 零 的 程序 中 发 起 调用 时 ， 
setuid() 只 会 修改 有 效用 户 ID 〈 人 参见 9.7.1 节 ) 。 换 名 话说 ， 在 一 个 set- 
user-ID-root 程 序 中 ， 下 面 的 调用 序列 不 会 永久 地 删除 用 户 ID 0。 


/* Tnitial UIDs: real=1000 effective=0 saved=0 */ 











/* 1. Usual call to temporarily drop privilege */ 
orig euid = geteuid(); 
if (seteuid(getuid() == -1) 
errExit("seteuid"); 
/* UIDs changed to: real=1000 effective=1000 saved=0 */ 


/* 2, Looks like the right way to permanently drop privilege (WRONG!) */ 


if (setuid(getuid() == -1) 
errExit("setuid"); 


/* UIDs unchanged: real=1000 effective=1000 saved=0 */ 


相反 ， 在 永久 删除 权限 之 前 必须 要 重新 获取 权限 ， 这 可 以 通过 将 下 
面 的 调用 插入 到 前 面 的 第 1 步 和 第 2 步 之 间 即 可 。 


if (seteuid(orig euid) == -1) 
errExit("seteuid"); 


男 一 方面 ， 如 果 一 个 非 root 用 户 拥 有 了 set-user-ID 程 序 ， 那 么 由 于 








setuid() 不 足以 修改 set-user-ID 标 识 符 ， 因 此 必须 要 使 用 setreuid() 或 
setresuid0 来 永久 地 删除 特权 标识 符 。 例 如 ， 可 以 使 用 setreuid0) 来 获得 预 
期 的 结果 ， 如 下 所 示 。 


if (setreuid(getuid(), getuid()) == -1) 
errExit("setreuid"); 


上 面 的 代码 依赖 于 Linux 实 现 中 的 setreuid0 特 性 : 如果 第 一 个 参数 
(ruid) 不 是 -1， 那 么 Saved set-user-ID 也 会 被 设置 成 Gr) 有 效用 户 
ID. SUSv3 并 没有 规定 这 个 特性 ， 但 很 多 其 他 实现 的 行为 方式 与 Linux 


古 一 样 的。 


在 set-group-ID 程 序 中 永久 地 删除 一 个 特权 组 ID 同 样 必 须要 使 用 
setregid0) 或 setresgid0 系 统 调 用 ， 因 为 当 程 序 的 有 效用 户 ID 不 为 零 时 ， 
setgidO 只 会 修改 调用 进程 的 有 效 组 ID。 


修改 进程 喘 份 信 息 的 注意 事项 


前 面 几 小 市 介绍 了 临时 和 永久 删除 权限 的 技术 。 下 面 介绍 有 关 使 用 
这 些 技术 时 的 一 些 注意 事项 。 


e 一 些 修改 进程 身份 信息 的 系统 调用 在 不 同系 统 上 的 语义 是 不 同 的 。 
此 外 ， 此 类 系统 调用 中 的 一 些 在 调用 者 是 特权 进程 时 〈 有 效用 户 ID 
为 0) 与 非特 权 进 程 时 表现 出 来 的 语义 是 不 同 的 。 更 多 细节 信息 可 
参考 第 9 章 ， 特 别 是 9.7.4 节 。 由 于 存在 这 些 差 异 ，[Tsafrir et al., 
2008] 建 议 应 用 程序 应 该 使 用 系统 特有 的 非 标 准 系统 调用 来 修改 进 
程 的 喘 份 信息 ， 因 为 在 很 多 情况 下 ， 这 些 非 标准 系统 调用 比 与 其 对 
应 的 标准 系统 调用 提供 了 更 加 简单 和 一 致 的 语义 。 在 Linux 上 ， 这 
表示 需要 使 用 setresuid0 和 setresgid0) 来 修改 用 户 和 组 身份 信息 。 尽 
管 并 不 是 所 有 的 系统 都 提供 了 这 些 系 统 调用 ， 但 使 用 它们 会 降低 发 
生 错 误 的 可 能 性 。 ([Tsafrir et al., 2008] 提 供 了 一 个 函数 库 ， 其 中 的 
函数 会 使 用 各 个 平台 上 可 用 的 最 佳 接口 来 修改 身份 信息 。) 

在 Linuxz 上 ， 即 使 调用 者 的 有 效用 户 ID 为 0， 修 改 吴 份 信息 的 系统 调 
用 在 程序 显 式 地 操作 其 能 力 时 也 可 能 会 表现 出 意料 之 外 的 行为 。 

如 ， 如 果 禁 用 了 CAP_SETUID 能 力 ， 那 么 修改 进程 用 户 ID 将 会 失 
败 ， 甚 至 更 粳 的 是 ， 它 会 量 无 征兆 地 只 修改 其 中 一 些 需 修 改 的 用 户 


ID. 
由 于 存在 前 面 两 种 可 能 性 ， 因 此 强烈 建议 在 实践 中 (参见 [Tsafrir et 
al., 2008]) 不 仅 需 要 检查 一 个 修改 身份 信息 的 系统 调用 是 否 成 功 ， 

















还 需要 验证 修改 行为 是 否 如 预期 的 那样 。 例 如 如 果 使 用 seteuid0) 临 
时 删除 或 重新 请 求 一 个 特权 用 户 ID， 那 么 接着 应 该 使 用 一 个 
geteuid() 调 用 来 验证 有 效用 户 ID 是 否 为 预期 值 。 类 似 地 ， 如 果 永 久 
删除 了 一 个 特权 用 户 ID， 那 么 接着 应 该 验证 真实 用 户 ID、 有 效用 户 
ID 以 及 saved set-user-ID 已 经 被 成 功 地 修改 为 非特 权 用 户 ID。 遗 憾 的 
是 ， 虽 然 存 在 获取 真实 和 有 效 ID 的 标准 系统 调用 ， 但 不 存在 获取 
saved set IDs 的 标准 系统 调用 。Linux 和 其 他 一 些 系 统 提供 了 
getresuid() 和 getresgid() 来 解决 这 个 问题 ， 在 其 他 一 些 系统 上 则 可 能 
需要 使 用 诸如 解析 /proc 文 件 中 的 信息 之 类 的 技术 来 解决 这 个 问题 。 
些 身 份 信息 的 变更 只 能 由 有 效用 户 ID 为 0 的 进程 来 完成 。 因 此 在 
修改 多 个 ID 时 一 一 辅助 组 ID、 组 ID 和 用 户 ID 一 一 先 删除 特权 ID， 
最 后 再 删除 特权 有 效用 户 ID。 相 应 地 ， 在 提升 特权 ID 时 应 该 先 提 升 
特权 有 效用 户 ID。 




















38.3 小心 执 行程 序 


当 一 个 特权 程序 通过 exec() 和 直接 或 通过 system()、popen() 以 及 类 似 的 
库 函 数 间 接地 执行 另 一 个 程序 时 就 需要 小 心 处 理 了 。 


在 执行 另 一 个 程序 之 前 永久 地 删除 权限 


如 果 一 个 setruser-ID 〈 或 set-group-ID ) 程序 执行 了 另外 一 个 程序 ， 
那么 就 应 该 要 确保 所 有 的 进程 用 户 《 组 ) ID 被 重 置 为 真实 用 户 〈 组 ) 
ID， 这 样 新 程序 在 局 动 时 就 不 会 拥有 权限 ， 并 且 也 无 法 重新 请 求 这 些 权 
限 。 完 成 这 一 任务 的 一 种 方式 是 在 执行 execO 之 前 使 用 第 38.2 节 中 介绍 
的 技术 来 重 置 所 有 的 ID。 


在 exec0 调 用 之 前 调用 setuid(getuid0) 能 够 取得 同样 的 结果 。 虽 然 
setuidO 调 用 只 修改 了 那些 有 效用 户 ID 不 为 零 的 进程 的 有 效用 户 ID， 但 权 
限 还 是 会 被 删除 ， 因 为 成 功 的 execO 调 用 会 将 有 效用 户 ID 复制 到 saved 
set-user-ID. (如 果 exec() 执 行 失败 了 ， 那 么 saved set-user-ID 不 会 发 生 改 
这 对 于 在 exec() 失 败 时 需要 执行 其 他 特权 工作 的 程序 来 讲 是 比较 有 

Jo ) 


在 set-group-ID 程 序 中 也 可 以 采用 类 似 的 方式 〈 即 
setgid(getgid0)) ， 因 为 成 功 的 execO 调 用 也 会 将 有 效 组 ID 复制 到 Saved- 
Setgroup-ID。 


现在 假设 用 户 ID 200 拥 有 一 个 setruser-ID 程 序 ， 当 ID 为 1000 的 用 户 
执行 这 个 程序 时 ， 结 果 进 程 的 用 户 ID 如 下 所 示 。 


real=1000 effective=200 saved=200 


如 果 这 个 程序 执行 了 setuid(getuidO) 调 用 ， 那 么 进程 的 用 户 ID 将 会 
变 成 如 下 。 


real=1000 effective=1000 saved=200 


当 进 程 执行 一 个 非特 权 程序 时 ， 进 程 的 有 效用 户 ID 会 被 复制 到 
saved set-user-ID， 从 而 导致 进程 的 用 户 ID 变 为 : 


real=1000 effective=1000 saved=1000 








避 倪 执行 一 个 拥有 权限 的 shell (或 其 他 解释 器 ) 


运行 于 用 户 控 制 之 下 的 特权 程序 永远 都 不 该 直接 或 间接 (通过 
system(), popen(), execlp(), execvp() 或 其 他 类 似 的 库 函 数 ) 地 执行 shell。 
shell (以 及 其 他 不 受 限 的 解释 器 ， 如 awk) 的 复杂 性 和 强大 功能 意味 着 
几乎 不 可 能 消除 所 有 的 安全 漏洞 ， 即 使 被 执行 的 shell 不 允许 交互 式 访 
问 。 其 可 能 引起 的 风险 是 用 户 可 能 能 够 在 进程 的 有 效用 户 ID 下 执行 任意 
0 a 
删除 权限 。 

















在 27.6 节 有 关 system0 的 讨论 中 介绍 的 安全 漏洞 就 是 执 
行 shell 时 可 能 引起 的 一 个 漏洞 。 


一 些 UNIX 实 现在 将 权限 位 应 用 于 解释 左 脚 本 时 会 采用 setruser-ID 和 
set-group-ID 的 权限 位 (参见 27.3) ， 因 此 当 运 行 脚本 时 ， 执 行 脚 本 的 进 
程 的 吴 份 是 其 他 《特权 ) 用 户 。 由 于 存在 前 面 描述 的 安全 风险 ，Linux 
与 其 他 一 些 UNIX 实 现 一 样 ， 在 执行 脚本 时 会 坚 无 征兆 地 忽略 set-user-ID 
和 set-group-ID 权 限 位 。 即 使 在 允许 set-user-ID 和 set-group-ID 脚 本 的 实现 
上 也 应 该 避免 使 用 它们 。 


在 exec0 之 前 关闭 所 有 用 不 到 的 文件 描述 符 


在 27.4 节 中 提 到 过 在 默认 情况 下 ， 在 execO 调 用 之 间 文 件 描述 符 会 
保持 在 打开 状态 。 特 权 进 程 可 能 会 打开 普通 进程 无 法 访问 的 文件 ， 这 种 
打开 的 文件 描述 符 表 示 一 种 特权 资源 。 在 调用 exec0 之 前 应 该 关闭 这 种 
文件 搬 述 符 ， 这 样 被 执行 的 程序 就 无 法 访问 相关 的 文件 了 。 完 成 这 个 任 
AT ey OB Crna: 也 可 以 设置 程序 的 Close-on-exec 标 
w (8527.4) 。 





38.4 避免 暴露 敏感 信息 


当 一 个 程序 读 取 密码 或 其 他 敏感 信息 时 应 该 在 执行 完 所 需 的 处 理 之 
后 立即 从 内 存 中 删除 这 些 信 息 。《 在 8.5 节 了 一 个 这 样 的 例 
子 。) 在 内 存 中 保留 这 些 信息 是 一 种 安全 隐患 ， 其 原因 如 下 。 


。 包含 这 些 数据 的 虚拟 内 存 页 面 可 能 会 被 换 出 (除非 使 用 mlock0 或 类 
似 的 函数 将 它们 锁 在 内 存 中 ) ， 这 样 交 换 区 域 中 的 数据 可 能 会 被 一 
个 特权 程序 读 取 。 

。 如 果 进 程 接收 到 了 一 个 能 导致 它 产 生 一 个 核心 dump 文 件 的 信号 
那么 就 有 可 能 会 从 该 文件 中 获取 这 类 信忠。 


从 上 面 的 最 后 一 点 来 讲 ， 编 写 程序 时 应 遵循 的 一 个 通用 原则 是 安全 
程序 应 该 避免 产生 核心 dump。 一 个 程序 可 以 使 用 setrlimitO 将 
RLIMIT_CORE 资 源 限制 设置 为 0 来 防止 核心 dump 文 件 的 创建 〈 参 见 36.3 
有 











在 默认 情况 下 ，Linux 不 允许 set-user-ID 程 序 在 收 到 信 
号 时 执行 一 个 核心 dump (022.170) ， 即 使 程序 已 经 删 
除了 所 有 的 权限 。 但 其 他 UNIX 实 现 可 能 并 没有 提供 这 个 安 
全 特性 。 


38.5 ”确定 进程 的 边界 


ee 所 造成 的 损失 
方法。 


考虑 使 用 能 


Linux 能 力 模 型 将 传统 的 all-or-nothing UNIX 权 限 模 型 划分 为 一 个 个 
被 称 为 能 力 的 单元 。 一 个 进程 能 够 独立 地 局 用 或 茶 用 单个 能 力 。 通 过 只 
尼 用 进程 所 需 的 能 力 使 得 程序 能 够 在 不 拥有 完整 的 root 权 限 的 情况 下 运 
行 。 这 样 就 降低 了 程序 发 生 安全 问题 时 造成 损失 的 可 能 性 。 


此 外 ， 使 用 能 力 和 securebits 标 记 可 以 创建 只 拥有 有 限 的 一 组 权限 但 
无 需 属于 root 的 进程 《 即 进程 的 所 有 用 户 ID 都 不 为 零 ) 。 这 样 的 进程 无 
法 使 用 exec() 来 重新 获取 所 有 人 能力。 在 第 39 章 中 将 会 介绍 能 力 和 


securebits 标 记 。 
考虑 使 用 一 个 chroot 监 牢 


在 特定 情况 下 一 项 有 用 的 安全 技术 是 建立 一 个 chroot 监 牢 来 限制 程 
序 能 够 访问 的 一 组 目录 和 文件 。〈 还 需 确保 调用 chdir0 来 将 进程 的 当前 
工作 目录 改 为 监牢 中 的 一 个 位 置 。) 但 chroot 监 牢 不 足以 限制 一 个 set- 
user-ID-root 程 序 (参见 18.12 节 ) 。 





除了 使 用 chroot 监 牢 之 外 还 可 以 使 用 一 个 虚拟 服务 器 ， 
它 是 实现 于 虚拟 内 核 之 上 的 一 个 服务 器 。 由 于 每 个 虚拟 内 
核 与 运行 于 同一 便 件 上 的 其 他 虚拟 内 核 是 相互 隔离 的 ， 因 
此 虚拟 服务 器 比 chroot 监 牢 更 加 安全 和 灵活 。〈 其 他 一 些 现 
代 操 作 系统 还 提供 了 自己 的 虚拟 服务 器 实现 。) Linux 上 最 
早 的 虚拟 化 实现 是 User-Mode Linux (UML) ， 它 是 Linux 
2.6 内 核 的 标准 组 成 部 分 。 在 http://user-mode- 
linux.sourceforge.net/ 上 可 以 找到 有 关 UML 的 更 多 信息 。 最 











38.6 ”小心 信 号 和 竞争 条 件 


用 户 可 以 同 他 局 动 的 Setruser-ID 程 序 发 送 任意 信号 ， 其 发 送 时 间 和 
发 送 频率 也 是 任意 的 。 当 信和 号 在 程序 执行 过 程 中 的 任意 时 刻 发 送 时 需要 
考虑 可 能 出 现 的 竞争 条 件 。 在 程序 中 合适 的 地 方 应 该 捕获 、 阻 塞 或 忽略 
信号 以 防止 可 能 存在 的 安全 性 问题 。 此 外 ， 信 号 处 理 器 的 设计 应 该 尽 可 
能 简单 以 降低 无 意 中 创建 范 争 条 件 的 风险 。 


这 个 问题 与 停止 进程 的 信号 (如 SIGTSTP 和 SIGSTOP) 特别 相关 。 
存在 问题 的 场景 如 下 所 示 。 


1. 一 个 set-user-ID 程 序 确定 与 其 运行 时 环境 有 关 的 一 些 信息 。 


2. 用 户 需 要 停止 运行 程序 的 进程 和 修改 运行 时 环境 的 细节 。 这 样 
eee 的 权限 、 改 变 符号 链接 的 目标 以 及 删除 程序 所 
HA CTE o 


3. 用 户 使 用 SIGCONT 信 和 号 恢复 进程 。 这 时 程序 会 假设 原先 的 运行 
时 环境 没有 发 生变 化 并 继续 执行 ， 但 其 实 运 行 时 环境 已 经 发 生 了 变化 ， 
因此 在 这 种 假设 可 能 会 破坏 系统 的 安全 性 。 


这 里 描述 的 情况 确实 只 是 检查 时 间 Ctime-of-check) 和 使 用 时 间 
(time-of-use) 竞争 条 件 的 一 种 特殊 情况 。 特 权 进 程 应 该 避免 执行 依赖 
于 之 前 成 立 但 现在 已 经 不 再 成 立 的 条 件 的 操作 (具体 示例 可 参考 第 
15.4.4 节 中 对 accessO 系 统 调 用 的 讨论 ) 。 即 使 当 用 户 无 法 同 进 程 发 送信 
号 时 也 应 该 遵循 这 个 指南 。 停 止 一 个 进程 的 能 力 仅 仅 允 许 一 个 用 户 扩 大 
检查 时 间 和 使 用 时 间 之 间 的 时 间 间 隅 。 












































虽然 通过 一 次 尝试 就 在 检查 时 间 和 使 用 时 间 之 间 停 止 
—/SPERE FE LEB A ER, (ERR Py ER BT T 
set-user-ID fF? ŽEH ANJE — shell i AS E R Hh |] 
set-user-ID 程 序 发 送 停止 信号 并 修改 运行 时 环境 。 


38.7 ”执行 文件 操作 和 文件 VO 的 缺陷 


如 果 一 个 特权 进程 需要 创建 一 个 文件 ， 那 么 必须 要 小 心 处 理 那个 文 


件 的 所 有 权 和 权限 以 确保 文件 不 存在 被 恶意 操作 攻击 的 风险 点 ， 不 管 这 
个 风险 点 有 多 小 。 因 此 需 遵 循 下 列 指南 。 





需要 将 进程 的 umask 〈 参 见 15.4.6 节 ) 设置 为 一 个 能 确保 进程 永远 无 
法 创建 公共 可 写 的 文件 的 值 ， 否 则 恶意 用 户 束 能 修改 这 些 文件 了 。 
由 于 文件 的 所 有 权 是 根据 创建 进程 的 有 效用 户 了 DD 来 确定 的 ， 因 此 可 
能 需要 使 用 seteuid() 或 setreuid(0) 来 临时 地 修改 进程 的 身份 信息 以 确 
保 新 创建 的 文件 不 会 属于 错误 的 用 户 。 由 于 文件 的 组 所 有 权 可 能 会 
根据 进程 的 有 效 组 ID (参见 15.3.1 节 ) 来 确定 ， 因 此 类 似 的 规则 也 
同样 适用 于 set-group-ID 程 序 ， 并 且 可 以 使 用 相应 的 组 ID 调用 来 避 
免 此 类 问题 的 发 生 。“ 严 格 来 讲 ， 在 Linuxz 上， 新 文件 的 所 有 者 是 
由 进程 的 文件 系统 用 户 ID 来 确定 的 ， 这 个 ID 值 通 各 与 进程 的 有 效用 
户 ID 值 是 一 样 的 ， 有 具体 可 参见 9.5 节 ) 。 
如 果 一 个 setruser-ID-root 程 序 必 须要 创建 一 个 一 开始 由 其 目 己 拥有 
但 最 终 由 男 一 个 用 户 拥 有 的 文件 ， 那 么 所 创建 的 文件 在 一 开始 应 该 
不 对 其 他 用 户 开 放 写 权限 ， 这 可 以 通过 同 open() 传 入 一 个 合适 的 
mode 参 数 或 在 调用 open() 之 前 设置 进程 的 umask 完 成 。 之 后 ， 程 序 
可 以 使 用 fchown() 修 改 文件 的 所 有 权 ， 然 后 根据 需要 使 用 fchmod() 
修改 文件 的 权限 。 这 里 的 关键 点 是 set-user-ID 程 序 应 该 确保 它 永远 
不 会 创建 一 个 由 程序 所 有 者 拥有 但 允许 其 他 用 户 写 入 “即使 这 项 权 
限 只 开放 了 一 瞬间 ) 的 文件 。 
在 打开 的 文件 摘 述 符 上 检 碍 文件 的 特性 〈 如 在 open0 之 后 调用 
fstat()) ， 而 不 是 检查 与 一 个 路 径 名 相关 联 的 特性 后 再 打开 文件 

。 后 一 种 方法 存在 使 用 时 间 和 检查 时 
间 的 问题 。 
如 果 一 个 程序 必须 要 确保 它 自 己 是 文件 的 创建 者 ， 那 么 在 调用 
open() 时 应 该 使 用 O_EXCL 标 记 。 
特权 进程 应 该 避免 创建 或 依赖 像 /mp 这 样 的 公共 可 写 的 目录 ， 因 为 
这 样 程序 就 容易 受到 那些 试图 创建 文件 名 与 特权 程序 预期 一 致 的 非 
授权 文件 的 恶意 攻击 。 一 个 必须 要 在 某 个 公共 可 写 的 目录 中 创建 文 
件 的 程序 应 该 至 少 要 使 用 诸如 mkstemp0 之 类 的 函数 〈 人 参见 5.12 节 ) 
确保 这 个 文件 的 文件 名 不 会 不 可 预测 。 























38.8 不 要 完全 相信 输入 和 环境 
特权 程序 应 该 避免 完全 信任 输入 和 它们 所 运行 的 环境 。 
不 要 信任 环境 列表 


setruser-ID 和 set-group-ID 程 序 不 应 该 假设 环境 变量 的 值 是 可 靠 的 ， 
特别 是 PATH 和 IFS 两 个 变量 。 





PATH 确定 了 shell (和 system() and popen()〉 以 及 execlp() 和 execvp() 
在 何 处 搜索 程序 。 恶 意 用 户 可 以 改变 PATH 的 值 以 其 统 set-user-ID 程 序 使 
它 在 使 用 其 中 一 个 函数 时 会 导致 在 拥有 权限 的 情况 下 执行 任意 一 个 程 
序 。 在 使 用 这 些 函 数 时 应 该 将 PATH 值 设置 为 一 个 可 信 的 目录 列表 (更 
好 的 做 法 是 在 执行 程序 时 指定 绝对 路 径 名 ) 。 但 正如 之 前 已 经 提 过 的 ， 
在 执行 shel] 或 使 用 前 面 提 到 的 函数 之 前 最 好 先 删 除权 限 。 


IFS 指 定 了 shell 解 释 器 用 来 分 隅 命令 行 中 的 单词 的 分 隔 符 。 应 该 将 
这 个 变量 设置 为 任意 一 个 空 字符 串 ， 表 示 shell 只 会 把 空白 字符 当成 单词 
分 隅 符 。 一 些 shell 在 启动 的 时 候 总 是 会 这 样 设置 IFS 的 值 。 〈27.6 节 描述 
了 老式 Bourne shell 中 与 IFS 相 关 的 一 个 漏洞 。) 


在 某 些 情况 中 ， 特 别 是 在 执行 其 他 程序 或 调用 可 能 会 受到 环境 变量 
设置 影响 的 库 时 ， 最 安全 的 方式 是 删除 整个 环境 列表 〈 人 参见 6.7 节 ) ， 
然后 使 用 已 知 的 安全 值 来 还 原 所 选中 的 环境 变量 。 
防御 性 地 处 理 不 可 信用 户 的 输入 

特权 程序 应 该 在 根据 来 自 不 可 信 源 的 输入 采取 动作 之 前 小 心地 验证 
这 些 输 入 。 这 种 验证 包括 校 验 数字 是 否 位 于 接受 范围 之 内 、 字 符 串 的 长 
度 是 否 位 于 接受 范围 之 内 以 及 是 否 由 允许 的 字符 构成 等 。 需 要 采取 此 类 
验证 措施 的 输入 包括 用 户 创 建 的 文件 、 命 令 行 参 数 、 交 互 式 输入 、CGI 
输入 、 电 子 邮 件 消 息 、 环 境 变量 、 不 可 信用 户 能 够 访问 的 进程 间 通 信 通 
道 (FIFO. HEARS) 以 及 网 络 包 。 
避免 对 进程 的 运行 时 环境 进行 可 靠 性 假设 


set-user-ID 程 序 应 该 避免 假设 其 初始 的 运行 环境 是 可 徘 的 。 如 标准 























输入 、 输 出 或 错误 可 能 会 被 关闭 。《〈 这 些 描述 符 可 能 是 在 执行 这 个 set- 
user-ID 程 序 的 程序 中 被 关闭 的 。) 这 样 ， 当 打开 一 个 文件 时 可 能 会 无 意 
中 复 用 描述 符 1《〈 假 设 ) ， 从 而 导致 程序 认为 正在 往 标准 输出 中 输出 数 
据 ， 但 实际 上 是 在 往 一 个 由 其 打开 的 文件 中 写 入 数据 。 


还 有 很 多 情况 需要 考虑 。 如 一 个 进程 可 能 会 耗 光 各 种 资源 限制 ， 如 
能 够 创建 的 进程 数 限制 、CPU 时 间 资 源 限制 或 文件 大 小 资源 限制 ， 从 而 
导致 各 种 系统 调用 会 失败 或 各 种 信号 的 生成 。 恶 意 用 户 可 能 会 故意 攻击 
系统 使 得 资源 耗 尽 以 便 破 坏 程序 。 











38.9 小心 缓冲 区 游 出 


当 输 入 值 或 复制 的 字符 串 超出 分 配 的 缓冲 区 空间 时 就 需要 小 心 缓冲 
区 溢出 了 。 永 远 不 要 使 用 gets0， 在 使 用 诸如 scanfO、sprintfO 、strcpyO 
以 及 strcat(O 时 需要 谨慎 《如 使 用 证 语句 防止 在 使 用 这 些 函 数 时 造成 绥 冲 
Kiih) o 


es AP AAR CHER A RA) LRR 
KAE Co Bint SS A SBA SAAR R Si Tl PSEA AT FETS CP 
上 的 几 个 资源 站 点 解释 了 栈 粉 碎 的 细节 ， 读 者 还 可 以 参考 [Erickson， 
2008] 和 [Anley, 2007]) 。 从 CERT Chttp://www.cert.org/) 和 
Bugtraq Chttp://www.securityfocus.com/) 上 发 表 的 咨询 报告 的 频率 上 明 
显 可 以 看 出 在 一 个 计算 机 系统 上 ， 绥 冲 区 洲 出 可 能 是 引起 安全 性 问题 的 
最 常见 的 原因 了 。 绥 冲 区 洪 出 对 于 网 络 服 务 器 来 讲 特别 具有 人 危害 性 ， 
为 它们 使 得 系统 回 网 络 上 任意 地 方 的 远程 攻击 打开 了 大 门 。 











为 了 使 栈 朋 演变 得 更 加 困难 一 一 特别 是 使 得 在 远程 主 
机 上 使 用 此 类 攻击 手段 攻击 网 络 服务 器 时 更 加 耗 时 一 一 从 
内 核 2.6.12 开 始 ，Linux 实 现 了 地 址 空间 随机 化 。 这 项 技术 
使 得 栈 的 位 置 能 够 在 虚拟 内 存 最 前 面 的 8M 空 间 内 随机 变 
动 。 此 外 ， 如 果 软 RLIMIT_STACK 限 制 有 限 并 且 Linux 特 有 
的 /proc/sys/vm/legacy_va_layout 不 包含 0， 那 么 内 存 映 射 的 
位 置 也 可 以 随机 化 。 


最 新 的 x86-32 架 构 为 将 页 表 变 成 NX (“no execute”) 提 
供 了 硬件 支持 。 这 个 特性 用 来 防止 执行 栈 上 的 代码 ， 从 而 
使 得 栈 奔 演变 得 更 加 困难 。 





上 面 提 到 的 很 多 函数 都 存在 安全 的 版 本 如 SnprintfO、strncpyO 


以 及 strncatO) 





允许 调用 者 指定 需 复制 的 最 大 字符 数 。 这 些 函 数 考 虑 


到 了 最 大 数量 以 防止 目标 缓冲 区 的 派出 。 一 般 来 讲 ， 最 好 使 用 这 些 函 


数 ， 





但 使 用 时 仍然 需要 小 心 ， 特 别 需 要 注意 下 列 事项 。 


。 对 于 其 中 的 大 多 数 函 数 来 讲 ， 如 果 到 达 了 指定 的 最 大 值 ， 那 么 源 字 


符 串 的 截断 部 分 会 被 放 到 目标 缓冲 区 中 。 由 于 这 样 的 截断 字符 串 对 
于 程序 来 讲 可 能 是 毫 无 意义 的 ， 因 此 调用 者 必须 要 检查 字符 串 是 否 
发 生 了 截断 〈 如 使 用 SnprintfO 的 返回 值 ) 并 且 在 发 生 和 截断 的 时 候 采 
取 必 要 的 措施 。 

使 用 strncpyO 对 性 能 会 有 影响 。 如 在 strncpy(sL, s2, n) 调 用 中 ， 如 果 
s2 指 癌 的 字符 串 的 长 度 小 于 n 字 市 ， 那 么 补 全 的 null 字 节 束 会 被 写 入 
s1 以 确保 总 共 写 入 了 n 字 市 。 

如 果 传 入 strncpy0 的 最 大 大 小 不 足以 容纳 结尾 的 null 字 符 ， 那 么 目标 
字符 串 束 会 成 为 不 以 null 结 尾 的 字符 串 。 











一 些 UNIX 实 现 提供 了 strlcpy0 函 数 ， 它 接收 长 度 参数 
n， 最 多 将 n -1 个 字 节 复制 到 目标 缓冲 区 中 并 且 总 是 会 在 绥 
冲 区 的 结尾 加 上 null 字 符 。 但 SUSv3 并 没有 规定 这 个 函数 ， 
并 且 glibc 也 没有 实现 这 个 函数 。 此 外 ， 如 果 调 用 者 没有 小 
心 检查 字符 串 长 度 ， 那 么 这 个 函数 在 解决 一 个 问题 (缓冲 
区 溢出 ) 的 同时 又 引入 了 另 一 个 问题 〈 训 无 征兆 地 丢弃 数 
Pa 











38.10 小心 拒绝 服务 攻击 


随 着 基于 Internet 服 务 的 增长 ， 系 统 相 应 受到 远程 拒绝 服务 (DoS) 
的 攻击 的 可 能 性 也 在 增长 。 这 些 攻 击 通 过 向 服务 絮 友 送 能 导致 其 朋 尝 的 
错误 数据 或 使 用 虚假 请 求 给 服务 器 增加 过 量 的 负载 使 得 系统 无 法 向 合法 
用 户 提供 正常 的 服务 。 


本 地 的 拒绝 服务 攻击 也 是 有 可 能 的 。 最 知名 的 例子 是 
当 用 户 运 行 一 个 简单 的 fork 炸 弹 (一 个 重复 执行 fork 的 程 
序 ， 因 此 会 消耗 系统 中 的 所 有 进程 枢 ) 。 但 引起 本 地 拒绝 
服务 的 源头 更 加 容易 确定 ， 因 此 一 般 来 讲 可 以 通过 合适 的 
物理 和 密码 安全 措施 来 避免 。 


处 理 错 误 的 请 求 是 比较 直观 的 一 一 服务 器 应 该 严格 地 像 上 面 描述 的 
那样 检查 其 输入 以 避免 缓冲 区 游 出 。 


超 负 和 荷 攻 击 更 加 难以 处 理 。 由 于 服务 器 无 法 控制 远程 客户 端的 行为 
以 及 它们 提交 请 求 的 速率 ， 因 此 这 样 的 攻击 几乎 无 法 防止 。《〈 服 务 需 其 
至 无 法 确定 攻击 的 真正 源头 ， 因 为 网 络 包 的 源 卫 地址 是 可 以 伪造 的 。 此 
外 ， 分 布 式 攻击 可 能 会 得 集 不 知情 的 中 间 主 机 癌 目 标 系统 发 起 攻击 。) 
不 过 ， 仍 然 可 以 采取 各 种 措施 把 超 负 蓓 攻击 的 风险 和 损失 降 到 最 小 。 


© 服务 占 应 该 执行 负载 控制 ， 当 负载 超过 预先 设 定 的 限制 之 后 就 丢弃 
请 求 。 这 可 能 会 叶 致 丢弃 合法 的 请 求 ， 但 能 够 防止 服务 器 和 主机 机 
恬 的 负载 过 大 。 资 源 限制 和 磁盘 限额 的 使 用 也 有 助 于 限制 过 量 的 负 
Ro (HSA RMR MN (a AS 
4% http://sourceforge.net/projects/linuxquota/. ) 

。 MRA ae ZAG Phin AY BERS NT TH], CFR UR SP ig AS 
应 《可 能 是 故意 的 ) ， 那 么 服务 器 也 不 会 永远 地 等 待 客户 端 。 

。 在 发 生 超 负荷 时 ， 服 务 器 应 该 记录 下 合适 的 信息 以 便 系统 管理 员 得 





知 这 个 问题 。 (但 日 志 记 录 应 该 也 是 有 限制 的 ， 这 样 日 志 记 录 本 身 
不 会 给 系统 增加 过 量 的 负载 。) 

服务 器 程序 在 碰 到 预期 之 外 的 负载 时 不 应 该 央 溃 。 如 应 该 严格 进行 
边界 检查 以 确保 过 多 的 请 求 不 会 造成 数据 结构 溢出 。 

设计 的 数据 结构 应 该 能 够 避免 算法 复杂 度 攻 击 。 如 二 又 树 应 该 是 平 
衡 的 ， 并 且 在 常规 负载 下 应 该 能 提供 可 接受 的 性 能 。 但 攻击 者 可 能 
会 构造 一 组 会 导致 树 不 平衡 〈 在 最 坏 的 情况 下 等 价 于 一 个 链表 ) 的 
输入 ， 从 而 降低 性 能 。[Crosby & Wallach, 2003] 详 细 描 述 了 此 类 攻 
击 的 性 质 并 讨论 了 能 够 用 来 避免 此 类 攻击 的 数据 结构 技术 。 








38.11 检查 返回 状态 和 安全 地 处 理 失 败 情 况 


特权 程序 应 该 总 是 检查 系统 调用 和 库 函 数 调用 是 否 成 功 以 及 它们 是 
否 返 回 了 预期 的 值 。( 当 然 所 有 程序 都 应 该 这 么 做 ， 但 这 一 点 对 于 特权 
程序 来 讲 特别 重要 。) 各 种 各 样 的 系统 调用 都 可 能 会 失败 ， 即 使 程序 以 
root 的 身份 运行 。 如 当 达 到 系统 的 进程 数 限制 时 forkO 调 用 就 会 失败 ， 对 
只 读 文件 系统 调用 open0 以 获取 写 权 限时 会 失败 ， 或 者 当 目 标 目录 不 存 
在 时 调用 chdir0 会 失败 。 


即使 系统 调用 成 功 了 也 有 必要 检查 其 结果 。 如 ， 在 需要 的 时 候 ， 特 
OD ee ae 
4 Ie 


最 后 ， 如 果 特 权 程 序 碰 到 了 未 知情 形 ， 那 么 恰当 的 处 理 方式 通常 是 
终止 执行 或 如 果 是 服务 器 的 话 束 丢 弃 客 户 端 请 求 。 试 图 修复 未 知 的 问题 
通常 要 求 满足 一 些 前 提 条 件 ， 但 并 不 是 所 有 的 场景 都 满足 这 些 前 提 条 
件 ， 当 不 满足 时 残 可 能 会 产生 安全 漏洞 。 在 这 种 情况 下 ， 更 安全 的 做 法 
是 让 程序 终止 或 让 服务 器 把 信息 记录 下 来 并 丢弃 客户 端的 请 求 。 























38.12 ”总 结 


特权 程序 能 够 访问 普通 进程 无 法 访问 的 系统 资源 。 如 果 这 种 程序 被 
破坏 了 ， 那 么 系统 的 安全 性 就 会 受到 影响 。 本 章 给 出 了 编写 特权 程序 的 
一 组 指南 ， 这 些 指南 的 目标 包括 两 个 方面 :将 特权 程序 被 破坏 的 可 能 性 
降 到 最 低 和 当 特 权 程 序 被 破坏 时 所 造成 的 损失 降 到 最 小 。 


更 多 信息 


[Viega & McGraw, 2002] 介 绍 了 与 设计 和 实现 安全 软件 相关 的 各 项 
课题 。[Garfinkel et al., 2003] 介 绍 了 与 UNIX 系 统 的 安全 以 及 安全 程序 设 
计 技 术 有 关 的 信息 。[Bishop,2005] 深 入 介绍 了 计算 机 安全 ， 同 时 该 书 的 
作者 在 [Bishop, 2003] 中 更 加 深入 地 剖析 了 计算 机 安全 。[Peikari & 
Chuvakin, 2004] 也 介绍 了 计算 机 安全 ， 但 关注 点 是 攻击 系统 的 各 种 方 
式 。[Erickson, 2008] 和 [Anley, 2007] 详 尽 讨 论 了 各 种 安全 陷阱 并 为 聪明 
的 程序 员 提 供 了 详尽 的 信息 来 避免 这 些 陷阱 。[Chen et al., 2002] 这 篇 论 
文 描 述 和 分 析 了 UNIX set-user-ID 模 型 [Tsafrir et al., 2008] 对 在 [Chen et 
al., 2002] 中 讨论 的 各 个 课题 进行 了 优化 和 增强 。[Drepper, 2009] 为 Linux 
上 的 安全 和 防御 性 程序 设计 提供 了 有 价值 的 建议 。 


网 上 存在 几 个 编写 安全 程序 的 信息 源 ， 如 下 所 示 。 


e Matt Bishop 撰 写 了 很 多 与 安全 相关 的 文章 ， 读 者 可 以 
在 http://nob.cs.ucdavis.edu/~bishop/secprog 上 找到 这 些 文章 。 其 中 最 
有 趣 的 一 篇 是 《How to Write a Setuid Program) 原先 发 表 于 ; 
login: 12(1) Jan/Feb 1986) 。 尽 管 这 篇 文章 的 年 代 有 些 久 远 ， 但 其 
中 包含 了 很 多 有 价值 的 建议 。 

e David Wheeler 撰 写 的 Secure Programming for Linux and Unix 
HOWTO 可 以 在 http:/www.dwheeler.comy/secure-programs/ 上 找到 。 

e http://www.homeport.org/~adam/setuid.7.htmlW 4m 5 set-user-ID Fe)" pE 
供 了 一 个 有 用 的 检查 清单 。 








38.13 “习题 


38-1. 用 一 个 普通 的 非特 权 用 户 登 录 系 统 ， 创 建 一 个 可 执行 文件 
(或 复制 一 个 既 有 文件 ， 如 /bin/sleep) ， 然 后 启用 该 文件 的 set-user-ID 
权限 位 (chmod uts〉。 尝 试 修改 这 个 文件 (如 cat >> file) 。 当 使 用 (ls 
-时 文件 的 权限 会 发 生 什 么 情况 呢 ? 为 何 会 发 生 这 种 情况 ? 


38-2. 编写 一 个 与 sudo(8) 程 序 类 似 的 set-user-ID-root 程 序 。 这 个 程 
序 应 该 像 下面 这 样 接收 命令 行 选项 和 参数 : 


$ ./douser [-u user | program-file arg1 arg2 ... 


douser 程 序 使 用 给 定 的 参数 执行 program-file， 就 像 是 被 user 运 行 一 
样 。〔 如 果 省 略 了 --u 选 项 ， 那 么 user 默 认为 root。) 在 执行 program-file 
之 前 ，douser 应 该 请 求 user 的 密码 并 将 密码 与 标准 密码 文件 进行 比较 
ee ， 接 着 将 进程 的 用 户 和 组 ID 设置 为 与 该 用 户 对 应 





第 39 章 ”能 


本 章 描述 了 Linux 能 力 模型 ， 它 将 传统 的 all-or-nothing UNIX 权 限 模 
型 划分 成 一 个 个 能 单独 启用 或 禁用 的 能 力 。 使 用 能 力 人 允许 程序 在 执行 一 
些 特权 操作 的 同时 防止 它们 执行 其 他 未 经 允许 的 操作 。 


39.1 能 力 基 本 原理 


传统 的 UNIX 权 限 模型 将 进程 分 为 两 类 : 能 通过 所 有 权限 检测 的 有 
效用 户 ID 为 0〈 超 级 用 户 ) 的 进程 和 其 他 所 有 需要 根据 用 户 和 组 ID 进行 
权限 检测 的 进程 。 


这 个 模型 的 粗 粒度 划分 是 一 个 问题 。 如 果 需 要 允许 一 个 进程 执行 一 
些 只 有 超级 用 户 才 能 执行 的 操作 如 修改 系统 时 间 一 一 那么 就 必须 要 
让 进程 的 有 效用 户 ID 为 0。《〔 如 果 一 个 非特 权 用 户 需 要 执行 这 样 的 操 
作 ， 那 么 通常 需要 使 用 set-user-ID-root 程 序 来 完成 。) 但 这 种 做 法 同时 
也 赋予 了 进程 执行 其 他 操作 的 权限 如 在 访问 文件 时 会 通过 所 有 的 权 
限 检 测 一 一 从 而 为 程序 表现 异常 (可 能 是 由 于 未 预见 的 环境 或 由 于 恶意 
用 户 的 有 意 操 作 ) 时 引起 安全 性 问题 埋 下 了 隐患 。 第 38 章 列 出 了 处 理 此 
类 问题 的 传统 方法 : 删除 有 效 权 限 《〈 如 将 有 效用 户 ID 改 为 非 零 ， 同 时 将 
零 保 存在 saved set-user-ID 中 ) 并 只 在 需要 的 时 候 临 时 请 求 这 些 权 限 。 


Linux 能 力 模 型 优化 了 对 这 个 问题 的 处 理 方式 ， 即 在 内 核 中 执行 安 
全 性 检测 时 不 再 使 用 单个 权限 “ 即 有 效用 户 ID 为 0) ， 超 级 用 户 权限 被 
划分 成 了 不 同 的 的 单元 ， 这 个 单元 成 为 能 力 。 每 个 特权 操作 与 一 个 特定 
的 能 力 相 关联 ， 进 程 只 有 在 拥有 相应 的 能 力 的 时 候 《〈 不 管 其 有 效用 户 ID 
ÆA) 才能 执行 相应 的 操作 。 换 名 话说 ， 本 书 中 所 讨论 的 Linux 中 的 
特权 进程 其 实 是 指 拥 有 相应 的 能 力 来 执行 特定 操作 的 进程 。 


在 大 多 数 时 候 ，Linux 能 力 模型 对 程序 员 来 讲 是 不 可 见 的 ， 其 原因 
征 当 一 个 对 能 力 一 无 所 知 的 应 用 程序 的 有 效用 户 ID 为 0 时 ， 内 核 会 赋予 
该 进程 所 有 能 力 。 


Linux 能 力 是 基于 POSIX 1003.1e 标 准 草 案 
Chttp://wt.tuxomania.net/publications/posix.1e/) 实现 的 。 虽 然 这 一 项 标 
准 化 工作 在 20 世 纪 90 年 代 末 完成 之 前 被 放弃 了 ， 但 各 种 能 力 实现 仍然 是 
根据 这 个 标准 草案 来 实施 的 。〈 表 39-1 列 出 了 POSIX.1le 草 案 中 定义 的 一 

些 能 力 ， 但 大 多 数 能 力 是 Linux 上 的 扩展 。) 


























一 些 UNIX 实 现 也 提供 的 能 力 模 型 ， 如 Sun’s Solaris 10 


以 及 早期 的 Trusted Solaris 47}. SGI’s Trusted Irix、 以 及 
作为 FreeBSD 一 部 分 的 TrustedBSD 项 目 (([Watson, 2000])。 
其 他 一 些 操 作 系 统 中 也 存在 类 似 的 模型 ， 如 Digital's VMS 
系统 中 的 特权 机 制 。 


39.2 ” Linux 能力 


表 39-1 列 出 了 Linux 能 力 并 为 各 个 能 力 应 用 的 操作 提供 了 一 个 简短 
的 《以 及 不 完整 的 ) 指南 。 


39.3 ”进程 和 文件 能 


每 个 进程 拥有 3 个 相关 能 力 集 一 一 术语 称 作 * 许 可 的 ” “有效 的 ”以 
及 “可 继承 的 ”一 一 每 个 能 力 集 都 包含 表 39-1 中 列 出 的 零 个 或 多 个 能 
力 。 同 样 ， 每 个 文件 也 可 以 拥有 3 个 相关 能 力 集 ， 其 名 称 与 进程 的 能 
集 名 称 一 样 。《 其 原因 是 非常 明显 的 ， 文 件 的 有 效能 力 集 其 实 就 是 一 个 
可 以 镇 月 用 或 蔡 用 的 位 。》 下 面 几 节 将 会 深入 介绍 各 个 能 刁 集 的 细节 信 














39.3.1 ”进程 能 力 


内 核 会 为 每 个 进程 都 维护 3 个 能 力 集 ( 实 现 为 位 掩 码 ) ， 每 个 能 力 
E rena aparece 
I RATAN o 


。 许可 的 一 一 这 些 是 一 个 进程 可 能 使 用 的 能 力 。 许 可 的 集合 是 能 够 被 
添加 到 有 效 的 和 可 继承 的 集合 中 的 能 力 的 受 限 超 集 。 如 果 一 个 进程 
从 其 许可 集中 删除 了 一 个 能 力 ， 那 么 将 永远 也 无 法 再 重新 获取 该 能 
力 《〈 除 非 它 执行 了 一 个 再 次 授予 该 能 力 的 程序 ) 。 

。 有 效 的 一 一 内 核 会 使 用 这 些 能 力 来 对 进程 执行 权限 检测 。 只 有 进程 
在 其 许可 集中 维护 着 一 个 能 力 ， 那 么 进程 才能 通过 从 有 效 集中 删除 
这 个 能 力 来 临时 禁用 该 能 力 ， 之 后 再 将 该 能 力 还 原 到 这 个 集合 中 。 

A 当 这 个 进程 执行 一 个 程序 时 可 以 将 这 些 权 限 带 入 许可 











通过 Linux 特 有 的 /proc/PID/status 文 件 中 的 CapInh、CapPrm 以 及 
CapEff 三 个 字段 能 够 得 看 任意 进程 的 3 个 能 力 集 的 十 六 进 制 表示 。 


可 以 使 用 getpcap 程 序 〈 第 39.7 节 中 介绍 的 libcap 包 的 一 
部 分 ) 以 更 易 阅 读 的 格式 显示 一 个 进程 的 能 


通过 forkO 创 建 的 子 进程 会 继承 其 父 进程 的 能 力 集 的 副本 。 在 39.5 节 
中 描述 了 在 execO 调 用 中 能 力 集 的 处 理 方 式 。 


实际 上 ， 能 力 是 一 个 线程 级 的 特性 ， 进 程 中 的 每 个 线 
程 的 能 力 都 可 以 单独 进程 调整 。 在 /proc/PID/task/TID/status 
文件 中 可 以 查看 一 个 多 线程 进程 中 某 个 具体 线程 的 能 
力 。/procPID/status 文 件 显示 了 主线 程 的 能 





在 2.6.25 之 前 的 内 核 中 ，Linux 使 用 32 位 来 表示 能 
集 ， 而 在 2.6.25 内 核 中 因为 加 入 了 更 多 的 能 力 导 致 需要 64 位 
来 表示 能 力 集 。 


39.3.2 ”文件 能 


如 果 一 个 文件 拥有 相关 的 能 力 集 ， 那 么 这 些 集合 会 被 用 来 确定 赋 给 
执行 这 个 文件 的 进程 的 能 力 。 文 件 能 力 集 包 括 下 面 3 个 。 


e 许可 的 : 在 exec() 调 用 中 可 以 将 这 组 能 力 添 加 a 到 进程 的 许可 和 集中， 

不 管 进程 的 既 有 能 力 是 什么 。 

有 效 的 : 这 个 只 有 一 位 。 如 果 被 司 用 了 ， 那 么 在 execO 调 用 中 ， 进 
程 的 新 许可 集中 局 用 的 能 力 在 进程 的 新 有 效 集中 也 会 被 启用 。 如 果 
文件 有 效 位 被 禁用 了 ， 那 么 在 exec0 执 行 完 之 后 ， 进 程 的 新 有 效 集 
T Fran ee. 

可 继承 的 : 这 个 集合 将 与 进程 的 可 继承 集 取 掩 码 来 确定 在 执行 
exec() 之 后 进程 的 许可 和 集中 启用 的 能 力 集 。 


第 39.5 节 详细 描述 了 在 exec0O 调 用 中 如 何 使 用 文件 能 


许可 和 可 继承 文件 能 力 原来 称 为 强制 的 能 力 和 人 允许 的 


能 力 。 现 在 那些 术语 已 经 过 时 了 ， 但 它们 仍然 能 够 提供 一 
些 有 用 的 信息 。 许 可 的 文件 能 力 是 那些 在 exec() 调 用 中 被 强 
制 添加 到 进程 的 许可 集中 的 能 力 ， 不 管 进程 的 既 有 能 力 是 
什么 。 可 继承 的 文件 能 力 是 那些 在 exec() 调 用 中 允许 进入 进 
程 的 许可 和 集中 的 能 力 ， 前 提 是 在 进程 的 可 继承 能 力 集中 也 
局 用 了 那些 能 





与 文件 相关 的 能 力 是 存储 在 名 为 security.capability 的 安 
全 扩展 特性 (参见 16.1 节 )〉 中 的 ， 更 新 这 个 扩展 特性 需要 
具备 CAP_SETFCAP 能 力 。 


表 39-1: 各 个 Linux 能 力 人 允许 的 操作 
































( 自 Linux 2.6.11 起 ) 启用 和 禁用 内 核 审 计 日 志 、 修 改 
CAP_AUDIT_CONTROL | 审计 的 过 滤 规 则 、 读 取 审计 状态 和 过 滤 规 则 








修改 文件 的 用 户 ID (所 有 者 ) 或 将 文件 的 组 ID 修改 为 











CAP_CHOWN 不 包含 进程 的 一 个 组 (chown0) 





绕 过 文件 读 取 、 写 入 和 执行 权限 检查 “DAC 是 
CAP_DAC_OVERRIDE discretionary access control 的 缩写 ) ; 读 取 /proc/PID 中 
cwd、exe 和 root 符 号 链接 的 内 容 





绕 过 文件 读 取 权限 检查 以 及 目录 读 取 和 执行 的 权限 检 











CAP_DAC _ READ SEARCH 









































忽略 那些 平时 要 求 进程 的 文件 系统 用 户 ID 与 文件 的 用 


Pe. e Can En > - 权 > 设 

置 任意 文件 的 i-node 标 记 ; 设置 和 修改 任意 文件 芯 

NE ACL; 在 删除 文件 《unlink(), rmdir(), rename()) 时 忽略 
目录 烙 灌 位 的 效果 ; 在 open() 和 fcntl(F_SETFL) 中 为 任 
意 文件 指定 O_NOATIME 标 记 


修改 文件 时 使 内 核 不 关闭 set-user-ID 和 set-group-ID 位 
CAP_FSETID (write(), truncate()) ;为 那些 组 ID 与 进程 的 文件 系统 
组 ID 或 补充 组 ID 不 匹配 的 文件 启用 set-group-ID 位 
覆盖 内 存 加 锐 限 制 (mlock(), mlockall(), 
shmctl(SHM_LOCK), shmctl(SHM_UNLOCK)) ; 使 用 
ee shmget() SHM_HUGETLB 标 记 和 mmap() 
MAP_HUGETLB 标 记 


np pe Own ——_|rtitisyaenv nore 
所 和 发 送信 号 OKO, taquened) 的 权限 检查 


( 自 Linux 2.4 起 ) 在 任意 文件 上 建立 租赁 关系 
a 


( Linux 2.6.2542) 配置 或 修改 强制 访问 控制 
CAP MAC ADMIN (MAC) 的 状态 (一 些 Linux 安 全 模块 实现 了 这 个 能 
力 ) 


























( 自 Linux 2.6.25 起 ) Æ MAC (一 些 Linux 安 全 模块 
实现 了 这 个 能 力 ) 


( ALinux 2.4 起 ) 使 用 mknodO 创 建设 备 
执行 各 种 网 络 相 关 的 操作 (如 设置 特权 socket 选 项 、 启 
用 组 播 、 配 置 网 络 接口 、 修 改 路 由 表 ) 


CAP_MAC_OVERRIDE 














CAP_NET_BIND_SERVICE | 绑 定 到 特权 socket 端 口 


SED) 交行 socket “HEMIA 
全 用 大 的 和 人 sodka 


随意 修改 进程 组 ID (setgid(), setegid(), 

setregid(),setresgid(), setfsgid(), setgroups(), 
CAP_SETGID initgroups()) ;在 通过 UNIX domain 

socket (SCM_CREDENTIALS) ) 传递 验证 信息 时 伪造 

组 ID 
































CAP_SETFCAP ( ALinux 2.6.24 起 ) 设置 文件 能 


在 不 支持 文件 能 力 时 将 进程 的 许可 集中 的 能 力 授 予 其 
他 进程 〈 包 括 自 己 ) 或 删除 其 他 进程 〈 包 括 自己 ) 许 

CAP_SETPCAP 可 集中 的 能 力 ; 在 文 持 文件 能 力 时 将 进程 的 能 力 边 界 
集中 的 所 有 能 力 都 添加 到 自己 的 可 继承 集中 ， 删 除 边 
界 集中 的 能 力 以 及 修改 securebits 标 记 
随意 修改 进程 用 户 ID (setuid(), seteuid(), 
setreuid(),setresuid(), setfsuid()) ; 在 通过 UNIX domain 

CAP- SETON socket (SCM_CREDENTIALS) 传递 验证 信息 时 伪造 
FA PID 


在 打开 文件 的 系统 调用 中 (如 open(),shm_open(), pipe(), 
socket(), accept(), exec(), acct(), epoll_create()) 超 

tH /proc/sys/fs/file-max fk fil]; 执行 各 种 系统 管理 操作 ， 
包括 quotactlO 〈 控 制 磁盘 限额 ) 、mount0 和 umount()， 
swapon()#llswapoff(), pivot_root(), sethostname() 和 
setdomainname(); 执行 各 种 syslog(2) 操 作 ; 72 mi 
RLIMIT_NPROC 资 源 限制 (forkQO〉; 调用 
lookup_dcookie(); 设置 trusted 和 security 扩 展 特 性 ; 在 
任意 System V IPC 对 象 上 执行 IPC_SET 和 IPC_RMID 操 
作 ; 在 通过 UNIX domain 

socket (SCM_CREDENTIALS) 传递 验证 信息 时 伪造 
进程 ID; 使 用 ioprio_set() 来 分 配 IOPRIO_CLASS_RT 调 
度 类 ; 使 用 TIOCCONS ioctl); 在 clone() 和 unshare() 中 
使 用 CLONE_NEWNS 标 记 ; 执行 KEYCTL_CHOWN 和 
KEYCTL_SETPERM keyctl(0) 操 作 ， 管 理 random(4) 设 
备 ; 各 种 特定 于 设备 的 操作 










































































CAP_SYS_ADMIN 












































使 用 rebootO 重 启 系统 ; Jkexec_load() 


CAP SYS MODULE 加 载 和 仓 载 内 核 模块 (init_module(), delete_module(), 
create_module() ) 


提高 nice 值 (nice(), setpriority()) ; 修改 任意 进程 的 
nice 值 (setpriorityQ) ; 设置 调用 进程 的 SCHED_RR 和 
SCHED_FIFO 实 时 调度 策略 ， 重 置 
SCHED_RESET_ON_FORK 标 记 ; 设置 任意 进程 的 调 
度 策略 和 优先 级 (sched _setscheduler(), 
CAP_SYS_NICE sched_setparam()) ; 设置 任意 进程 的 VO 调度 类 和 优先 
级 (ioprio_set()) ; 设置 任意 进程 的 CPU 杀 和 力 
(Gdigi ganna) 使 用 migrate_ pages() 将 任意 mE 
程 迁移 到 任意 节点 以 及 多 许 进程 被 迁移 到 任意 节点 ; 
对 任意 进程 应 用 move_pages(); 在 mbind() 和 
move_pages() 中 使 用 MPOL_MF_MOVE_ALL 标 记 




















































































































使 用 ptrace0 跟 踪 任 意 进程 ;访问 任意 进程 
的 /proc/PID/environ; 对 任意 进程 应 用 get_robust_list() 
使 用 iopl() 和 iopermO 在 IO 端口 上 执行 操作 ;， V 
问 /proc/kcore; 打开 /devmem 和 /dewkmem 


使 用 文件 系统 上 的 预 留 空 间 ; 使 用 ioctO 调 用 控制 ext3 
journaling; 履 善 做 盘 限 额 限 制 ， 提 高 便 资源 限制 
(setrlimit()) ; #2iiRLIMIT_ NPROC 资源 限制 
CAP_SYS_RESOURCE (fork()) ; System V 消 息 队 列 
的 /proc/sys/kernel/msgmnb 限 制 提高 msg_gbytes; 绕 过 
由 /proc/sys/fs/mqueue 下 各 个 文件 定义 的 各 种 POSIX 消 
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修改 系统 时 钟 (settimeofday(), stime(), adjtime(), 
ce adjtimex()) ; 设置 硬件 时 钟 














CAP _SYS_ TTY CONFIG 使 用 vhangup0 执 行 终端 或 伪 终 端的 虚拟 挂 起 








39.3.3 ”进程 许可 和 有 效能 力 集 的 目的 


进程 的 许可 集 定 义 了 进程 能 够 使 用 的 能 力 。 进 程 的 有 效能 力 集 定义 
了 进程 当前 使 用 的 能 力 一 一 即 内 核 会 使 用 这 组 能 力 来 检查 进程 是 否 拥 有 
足够 的 权限 执行 茶 个 特定 的 操作 。 


许可 能 力 集 为 有 效能 力 集 定 义 了 一 个 上 限 。 进 程 只 能 将 其 许可 能 
集中 的 能 力 上 升 到 有 效 集中 。 (上 升 有 时 候 也 被 称 为 添加 或 设置 ， 与 之 
相反 的 操作 是 于 莽 或 删除 或 清除 。) 











有 效能 力 集 和 许可 能 力 集 之 间 的 关系 与 一 个 set-user- 
ID-root 程 序 中 的 有 效用 户 ID 和 setruser-ID 之 间 的 关系 类 似 。 
从 有 效 集 中 删除 一 个 能 力 与 临时 删除 一 个 有 效用 户 ID 0 同 
时 在 saved set-user-ID 中 维持 0 是 类 似 的 。 从 有 效能 力 集 和 许 
可 能 力 集 中 删除 一 个 能 力 与 通过 将 有 效用 户 ID 和 saved set- 
user-ID 设 置 为 非 零 值 来 永久 删除 超级 用 户 权 限 类 似 。 


39.3.4 ”文件 许可 和 有 效能 力 集 的 目的 


文件 许可 能 力 集 为 可 执行 文件 回 进程 赋予 能 力 提 供 了 一 种 机 制 ， 它 
指定 了 在 exec0 调 用 中 被 赋 给 进程 的 许可 能 力 集 的 一 组 能 力 。 


文件 有 效 文 件 集 是 一 个 可 以 被 局 用 或 茶 用 的 标记 “位 〉，。 要 理解 为 
何 这 个 集合 只 由 一 个 位 构成 束 需 要 考虑 在 程序 被 执行 时 会 发 生 的 两 种 情 
况 。 


。 程序 可 能 是 一 个 能 力 哑 元 ， 表 示 它 对 能 力 一 无 所 知 〈 即 传统 的 Set- 
user-ID-root 程 序 ) 。 这 种 程序 不 知道 需要 在 其 有 效 集中 提升 能 力 以 


便 能 够 执行 特权 操作 。 对 于 这 样 的 程序 来 讲 ，exec() 应 该 将 进程 的 
新 许可 集中 的 所 有 能 力 上 自动 加 到 其 有 效 集中 ， 这 是 通过 局 用 文件 有 
效 位 来 完成 的 。 

程序 可 能 是 知道 能 力 的 ， 表 示 在 设计 程序 的 时 候 使 用 了 能 力 框 染 ， 
并 且 会 使 用 合适 的 系统 调用 《〈《 稍 后 讨论 ) 来 在 其 有 效 集中 提升 和 删 
除 能 力 。 对 于 这 样 的 程序 来 讲 ， 最 小 权限 表示 在 execO 调 用 之 后 ， 

进程 的 有 效能 力 集中 的 所 有 能 力 一 开始 都 是 被 茶 用 的 ， 这 是 通过 芭 
用 文件 有 效能 力 位 来 完成 的 。 


39.3.5 “进程 和 文件 可 继承 集 的 目的 


乍 一 看 ， 对 于 能 力 系 统 来 讲 ， 有 了 进程 和 文件 的 许可 集 和 有 效 集 看 
起 来 已 经 足够 了 了 ， 但 还 是 存在 一 些 这 两 个 集合 无 法 满足 要 求 的 情形 。 如 
当 一 个 执行 execO 的 进程 想 要 在 execO 调 用 期 间 保存 其 当前 能 力 时 该 如 何 
WE? 看 起 来 ， 能 力 实现 可 以 通过 简单 地 在 execO 调 用 之 间 保 存 进 程 的 
许可 能 力 来 实现 这 个 特性 ， 但 这 种 方式 无 法 处 理 下 列 情 形 。 


。 执行 exec() 可 能 需要 特定 的 权限 (如 CAP_DAC_OVERRIDE) ,但 
在 exec() 调 用 之 间 可 能 不 想 要 保存 这 种 权限 。 

。 假设 显 式 地 删除 了 一 些 无 需 在 exec() 调 用 之 间 保 存 的 许可 能 力 ， 但 
exec() 调 用 失败 了 。 在 这 种 情况 下 ， 程 序 可 能 需要 知道 这 些 已 经 被 
删除 〈 不 可 逆 的 ) 的 许可 能 


基于 上 述 原 因 ， 在 exec0 之 间 是 不 会 保持 进程 的 许可 能 力 的 。 相 
反 ， 在 这 种 情况 下 会 适应 男 一 种 能 力 集 : 可 继承 集 。 可 继承 集 为 进程 在 
exec() 调 用 之 间 保 持 其 部 分 能 力 提 供 了 一 种 机 制 。 


进程 的 可 继承 集 指定 了 一 组 在 execO 调 用 之 间 可 被 赋 给 进程 的 许可 
能 力 集 的 能 力 。 相 应 文件 的 可 继承 集会 根据 进程 的 可 继承 集 取 掩 码 
CAND) 来 确定 在 execO 之 间 和 被 添加 到 进程 的 许可 能 力 集 中 的 能 





























在 exec0) 之 间 不 是 简 蛙 保持 进程 的 许可 能 力 集 还 存在 深 
层次 的 哲学 原因 。 能 力 系统 的 主要 思想 是 赋 给 进程 的 所 有 
权限 都 是 由 进程 所 执行 的 文件 来 授予 或 控制 的 。 虽 然 进程 


的 可 继承 集 指定 了 在 exec0) 之 间 传 入 能 力 ， 但 这 些 能 力 会 根 
据 文 件 的 可 继承 集 来 取 掩 码 。 


39.3.6 ”在 shell 中 给 文件 赋予 能 力 和 查看 文件 能 


在 39.7 节 中 介绍 的 libcap 包 中 包含 的 setcap(8) 和 getcap(8) 命 令 可 以 用 
来 操作 文件 能 力 集 。 下 面 通过 一 个 使 用 了 标准 的 date(1) 程 序 的 简短 示例 
来 演示 这 些 命令 的 用 法 。〔 根 据 39.3.4 节 中 给 出 的 定义 ， 这 个 程序 就 是 
一 种 能 力 哑 元 应 用 程序 。) 当 在 具备 权限 的 情况 下 运行 这 个 程序 时 ， 
date(1) 可 以 用 来 修改 系统 时 间 。date 程 序 不 是 一 个 setruser-ID-root， 因 此 
通常 使 用 权限 运行 这 个 程序 的 唯一 方式 是 变 成 超级 用 户 。 


下 面 首先 显示 当前 的 系统 时 间 ， 然 后 答 试 以 一 个 非特 权 用 户 的 吴 份 
来 修改 时 间 。 
$ date 


Tue Dec 28 15:54:08 CET 2010 
$ date -s '2018-02-01 21:39' 
date: cannot set date: Operation not permitted 
Thu Feb 1 21:39:00 CET 2018 


从 上 面 可 以 看 出 date 命令 没有 能 够 修改 系统 时 间 ， 但 它 仍 然 以 标准 
格式 显示 了 传 入 的 参数 。 


接 下 来 变 成 超级 用 户 ， 这 样 就 能 够 成 功 地 修改 系统 时 间 了。 


$ sudo date -s '2018-02-01 21:39' 
root's password: 

Thu Feb 1 21:39:00 CET 2018 

$ date 

Thu Feb 1 21:39:02 CET 2018 


现在 复制 一 份 date 程 序 的 副本 并 赋予 该 副本 所 需 的 能 力 。 


$ whereis -b date Find location of date binary 
date: /bin/date 

$ cp /bin/date . 

$ sudo setcap "cap_sys_time=pe" date 

root's password: 

$ getcap date 

date = cap sys timetep 


上 面 的 setcap 命 令 将 CAP_SYS_TIME 能 力 赋 给 了 可 执行 文件 的 许可 
能 力 集 P 和 有 效能 力 集 Ce) 。 接 着 使 用 了 getcap 命 令 来 验证 能 力 确 
实 被 赋 给 了 文件 。 dibcap 包 中 的 cap_from_text(3) 手 册 描 述 了 setcap 和 
getcap 中 用 来 表示 能 力 集 的 语法 。) 


oe ED all AS ASC AP REZI RIER A 8 A RE POR AC AR 
统 时 间 。 


$ ./date -s '2010-12-28 15:55 
Tue Dec 28 15:55:00 CET 2010 
$ date 

Tue Dec 28 15:55:02 CET 2010 


39.4 现代 能 力 实现 
能 力 的 完整 实现 要 求 如 下 。 


对 于 每 个 特权 操作 ， 内 核 应 该 检查 进程 是 否 拥有 相应 的 能 力 ， 而 不 
征 检查 有 效 〈 或 文件 系统 ) 用 户 ID 是 否 为 0。 

内 核 必 须要 提供 允许 获取 和 修改 进程 能 力 的 系统 调用 。 

内 核 必 须要 文 持 将 能 力 附加 给 可 执行 文件 的 概念 ， 这 样 当 文件 被 执 
行 时 进程 会 获取 相应 的 能 力 。 这 与 set-user-ID 位 是 类 似 的 ， 但 允许 
单独 地 设置 可 执行 文件 上 的 各 个 能 力 。 此 外 ， 系 统 必 须要 提供 一 组 
编程 接口 和 命令 来 设置 和 但 看 附加 给 可 执行 完 文 件 的 能 力 。 


在 2.6.23 以 及 之 前 的 内 核 中 ，Linux 只 满足 了 前 两 条 要 求 。 自 2.6.24 
内 核 开 始 就 可 以 将 能 力 附 加 到 文件 上 了 。 在 2.6.25 和 2.6.26 内 核 中 新 增 了 
很 多 其 他 特性 以 完善 能 力 的 实现 。 


这 里 针对 有 关 能 力 的 大 多 数 讨论 关注 的 都 是 现代 实现 。 在 39.10 市 
中 将 介绍 在 引入 文件 能 力 之 前 实现 之 间 存 在 的 不 一 臻 性。 此 外 ， 文 件 能 
力 是 现代 内 核 的 一 个 可 选 内 核 组 件 ， 但 本 次 讨论 的 主要 部 分 假设 在 内 核 
中 启用 了 这 个 组 件 。 接 着 将 会 介绍 文件 能 力 被 启用 与 被 禁用 之 间 存 在 的 
差别 。〈 从 几 个 方面 来 看 ， 其 行为 与 还 未 实现 文件 能 力 的 2.6.24 之 前 的 
Linux 内 核 中 行为 类 似 。) 


在 下 面 几 个 小 节 中 将 深入 介绍 Linux 能 力 实现 的 细节 。 























39.5 “在 exec(0 中 转变 进程 能 力 


在 exec() 执 行 期 间 ， 内 核 会 根据 进程 的 当前 能 力 以 及 被 执行 的 文件 
的 能 力 集 来 设置 进程 的 新 能 力 。 内 核 会 使 用 下 面 的 规则 来 计算 进程 的 新 
能 力 。 
p'(permitted) = (P(inheritable) & F(inheritable)) | (F(permitted) & cap bset) 
P' (effective) = F(effective) ? P'{permitted) : 0 


p'(inheritable) = P(inheritable) 


在 上 面 的 规则 中 ，P 表 示 在 调用 exec() 之 前 进程 的 能 力 集 的 取 值 ， 
P' 表 示 在 调用 exec() 之 后 进程 的 能 力 集 的 取 值 ，F 表 示 文 件 能 力 集 。 标 识 
ere ne een ee 
承 能 


39.5.1 能力 边界 集 


能 力 边界 集 是 一 种 用 于 限制 进程 在 exec0) 调 用 中 能 够 获取 的 能 力 的 
安全 机 制 ， 其 用 法 如 下 。 


。 在 exec0 调 用 中 ， 能 力 边界 集会 与 文件 许可 能 力 取 AND 来 确定 将 被 
授予 新 程序 的 许可 能 力 。 换 句 话 说， 当 一 个 可 执行 文件 的 某 个 许可 
能 力 不 在 边界 能 力 集中 时 就 无 法 辣 进 程 授予 该 项 能 力 。 

能 力 边 界 集 是 一 个 可 以 被 添加 到 进程 的 可 继承 集中 的 能 力 的 受 限 超 
集 。 这 表示 除非 能 力 位 于 边界 集中 ， 人 否则 进程 就 无 法 将 其 许可 能 
集中 的 东 个 能 力 添 加 到 其 可 继承 集中 并 一 一 通过 上 面 介 绍 的 第 一 条 
能 力 转换 规则 一 一 在 进程 执行 一 个 可 继承 集中 包含 该 项 能 力 的 文件 
时 将 该 项 能 力 保 留 在 进程 的 许可 集中 。 


能 力 边 界 集 是 一 个 进程 级 特性 ， 通 过 fork0O 创 建 的 子 进 程 会 继承 这 
个 特性 ， 并 且 在 execO 调 用 中 会 保持 这 个 特性 。 在 文 持 文件 能 力 的 内 核 
人 

FA. 


如 果 一 个 进程 具备 了 CAP_SETPCAP 能 力 ， 那 么 它 就 可 以 使 用 
prctl() PR_CAPBSET _DROP 操 作 从 其 边界 集中 删除 能 力 《〈 不 可 逆 

















的 ) 。〔 从 边界 集中 删除 一 个 能 力 不 会 对 进程 的 许可 、 有 效 和 可 继承 能 
力 集 产生 影响 。) 一 个 进程 使 用 prctl() PR_CAPBSET_READ 操 作 能 够 确 
定 一 个 能 力 是 否 位 于 其 边界 集中 。 


更 准确 地 讲 ， 能 力 边界 集 是 一 个 线程 级 的 特性 。 从 
Linux 2.6.26 开 始 ， 这 个 特性 在 Linux 特 有 
的 /proc/PID/task/TID/status 文 件 中 的 CapBnd 字 上段 予 以 显 
示 。/procPID/status 文 件 显 示 了 进程 主线 程 的 边界 集 。 


39.5.2 ”保持 root 语 义 


在 执行 一 个 文件 时 为 了 保持 root 用 户 的 传统 语义 〈 即 root 拥 有 所 有 
的 权限 ) ， 与 该 文件 相关 联 的 所 有 能 力 集 都 会 被 忽略 。 但 为 了 满足 在 
39.5 节 中 给 出 的 算法 的 要 求 ， 在 exec() 期 间 文件 能 力 集 的 定义 如 下 。 


e 如 果 执 行 了 一 个 set-user-ID-root 程 序 或 调用 exec() 的 进程 的 真实 或 有 
prea: 那么 文件 的 可 继承 和 许可 集 被 定义 为 包含 所 有 能 


° 如 果 执 行 了 一 站 set-user-ID-root 程 序 或 调用 exec() 的 进程 的 有 效用 户 
ID 为 0， 那 么 文件 有 效 位 被 定义 成 设置 状态 。 
假设 现在 正在 执行 一 个 set-user-ID-root 程 序 ， 那 么 这 些 文件 能 力 集 
的 进程 的 新 许可 和 有 效能 力 集 的 计算 被 
简化 成 了 : 


p'(permitted) = P(inheritable) | cap bset 
p' (effective) = P'(permitted) 


39.6 ”改变 用 户 ID 对 进程 能 力 的 影响 


为 了 与 用 户 ID 在 0 与 非 0 之 间 切 换 的 传统 含义 保持 羔 容 ， 在 改变 进程 
的 用 户 ID 使 用 setuid0 等 时， 内 核 会 完成 下 列 操作 。 


1. 如 果真 实用 户 ID、 有 效用 户 ID 或 saved set-user-ID 之 前 的 值 为 0， 
那么 修改 了 用 户 ID 之 后 ， 所 有 这 三 个 ID 的 值 都 会 变 成 非 0， 并 且 进 程 的 
许可 和 有 效能 力 集会 被 清除 〈 即 所 有 的 能 力 都 被 永久 地 删除 了 ) 。 


2. 如 果 有 效用 户 ID 从 0 变 成 了 非 0， 那 么 有 效能 力 集会 被 清除 《〈 即 
有 效能 力 被 删除 了 ， 但 那些 位 于 许可 集中 的 能 力 会 被 再 次 提升 ) 。 


3. 如 果 有 效用 户 ID 从 非 0 变 成 了 0， 那 么 许可 能 力 集会 被 复制 到 有 
效能 力 集 中 《〈 即 所 有 的 许可 能 力 变 成 了 有 效 ) 。 


4 如果 文件 系统 用 户 ID 从 0 变 成 了 非 0， 那 么 会 从 有 效能 力 集中 清 
除 这 些 文件 相关 的 能 力 : CAP_CHOWN, CAP_DAC OVERRIDE, 
CAP DAC READ SEARCH, CAP_FOWNER, CAP FSETID、 
CAP_LINUX_IMMUTABLE (Linux 2.6.30 起 ) 、 
CAP_MAC OVERRIDE 和 CAP_MKNOD ( 自 Linux 2.6.30 起 ) 。 相 应 
地 ， 如 果 文 件 系统 用 户 ID 从 非 0 变 成 了 0， 那 么 上 面 这 些 能 力 中 所 有 在 许 
可 集中 被 启用 的 能 力 会 在 有 效 集中 被 启用。 完成 这 些 操作 之 后 ， 对 
Linux 特 有 的 文件 系统 用 户 ID 的 操作 的 传统 语义 将 会 得 到 保持 。 








39.7 用 编程 的 方式 改变 进程 能 力 

一 个 进程 可 以 使 用 capset0 系 统 调用 或 稍 后 介绍 的 libcap APL (首选 
方法) 在 其 能 力 集中 提升 能 力 或 出 除 能 力 。 修 改进 程 能 力 需 要 过 循 下 
RN. 


1. 如 果 进 程 的 有 效 集中 没有 CAP_SETPCAP 能 力 ， 那 么 新 的 可 继 
承 集 必须 是 既 有 可 继承 集合 许可 和 集 组 合 的 一 个 子 集 。 


2. 新 的 可 继承 集 必须 是 既 有 可 继承 集合 能 力 边界 集 组 合 的 一 个 子 
集 。 











3. 新 许可 集 必 须 是 既 有 许可 集 的 一 个 子 集 。 换 名 话说 ， 一 个 进程 
无 法 授予 自身 不 属于 其 许可 集中 的 能 力 。 换 一 种 表述 方法 束 是 ， 在 从 许 
可 和 集中 删除 了 一 个 能 力 之 后 束 无 法 再 获取 这 个 能 力 了 。 


4. 新 的 有 效 集 只 能 包含 位 于 新 许可 集中 的 能 
libcap API 


本 间 到 现在 还 不 介绍 capset() 系 统 调用 以 及 相应 的 获取 进程 能 力 的 
capget() 系 统 调 用 的 原型 ， 是 因为 应 该 避免 使 用 这 两 个 系统 调用 。 相 
反 ， 应 该 使 用 libcap 库 中 的 相关 函数 。 这 些 函 数 提 供 了 一 个 与 POSIX 
1003.1e 标 准 草 案 一 致 的 接口 以 及 一 些 Linux 扩 展 。 


限于 篇 幅 ， 本 章 不 会 详细 介绍 libcap API。 总 的 来 说 ， 使 用 这 些 函 
数 的 程序 通常 会 执行 下 列 步 又 。 


1. 使 用 cap_get_procO 函 数 从 内 核 中 获取 进程 的 当前 能 力 集 的 一 个 
副本 并 将 其 放置 到 这 个 函数 在 用 户 空 间 分 配 的 一 个 结构 中 。 (或 者 可 以 
使 用 cap_initO 函 数 来 创建 一 个 全 新 的 空 能 力 集 结构 。) 在 libcap API, 
cap_t 数 据 类 型 是 用 来 引用 此 类 结构 的 一 个 指针 。 


2. 使 用 cap_set_flagO 函 数 更 新 用 户 空 间 的 结构 以 便 在 上 一 步骤 中 
返回 的 存储 于 用 户 空 间 中 的 结构 中 的 许可 、 有 效 和 可 继承 集中 提升 
(CAP_SET) 和 删除 (CAP_CLEAR) 能 力 。 

















3. 使 用 cap_set_procO 函 数 将 用 户 空 间 的 结构 传 回 内 核 以 修改 进程 


4. 使 用 cap_free() 函 数 释 放 在 第 一 步 中 由 libcap API 分 配 的 结构 。 


libcap-ng 是 一 个 全 新 改良 过 的 能 力 库 API。 在 撰写 本 书 
的 时 候 ， 有 关 libcap-ng 的 开发 工作 仍 在 进行 中 ， 详 细 信息 
可 参考 http://freshmeat.net/projects/libcap-ng。 


示例 程序 


程序 清单 8-2 会 根据 标准 的 口令 数据 库 来 验证 用 户 名 和 口令 。 注 意 
程序 在 读 取 影像 口令 文件 时 需要 具备 相应 的 权限 ， 而 只 有 root 和 shadow 
组 中 的 成 员 才 能 够 读 取 这 个 文件 。 给 这 个 程序 赋予 它 所 需 的 权限 的 传统 
方式 是 在 root 用 户 下 运行 这 个 程序 或 将 程序 变 成 一 个 set-user-ID-root 程 
序 。 下 面 将 修改 这 个 程序 使 之 使 用 能 力 和 libcap API. 


为 了 能 够 以 普通 用 户 的 身份 读 取 影像 口令 文件 就 需要 绕 过 标准 的 文 
件 权 限 检 查 。 从 表 39-1 中 列 出 的 能 力 可 以 看 出 相应 的 能 力 应 该 是 
CAP_DAC_READ_SEARCH。 程序 清 单 39-1 给 出 了 修改 过 的 口令 校 验 程 
序 。 这 个 程序 在 正好 需要 访问 影像 口令 文件 之 前 使 用 了 libcap API 来 在 
其 有 效能 力 集中 提升 CAP DAC READ SEARCH， 然 后 在 访问 文件 之 
后 立即 删除 了 这 个 能 力 。 为 了 让 非特 权 用 户 能 够 使 用 这 个 程序 ， 必 须要 
在 文件 的 许可 能 力 集中 设置 这 个 能 力 ， 如 下 面 的 shell 会 话 所 示 。 


$ sudo setcap "cap dac read search=p" check password caps 
root's password: 

$ getcap check password caps 

check_password_caps = cap dac read search+p 

$ ./check_password_caps 

Username: mtk 

Password: 

Successfully authenticated: UID=1000 


























程序 清单 39-1: 使 用 能 力 来 验证 用 户 的 程序 














cap/check_password_caps.c 


#define BSD SOURCE /* Get getpass() declaration from <unistd.h> */ 
#define XOPEN SOURCE /* Get crypt() declaration from <unistd.h> */ 
#include <sys/capability.h> 

#include <unistd.h> 

#include <limits.h> 

#include <pwd.h> 

#include <shadow.h> 

#include "tlpi hdr.h" 


/* Change setting of capability in caller's effective capabilities */ 


static int 
modifyCap(int capability, int setting) 


cap_t caps; 
cap value t capList[1]; 


7* Retrieve caller's current capabilities */ 
caps = cap get proc(); 
if (caps == NULL) 


return -1; 


/* Change setting of ‘capability’ in the effective set of ‘caps’. The 
third argument, 1, is the number of items in the array ‘capList’. */ 


capList[0] = capability; 


if (cap_set_flag(caps, CAP_EFFECTIVE, 1, capList, setting) == -1) { 
cap free(caps); 
return -1; 

} 


/* Push modified capability sets back to kernel, to change 
caller's capabilities */ 


if (cap_set_proc(caps) == -1) { 
cap_free(caps); 
return -1; 


} 


/# Free the structure that was allocated by libcap */ 


if (cap free(caps) == -1) 


return -1; 
return 0; 
} 
static int /* Raise capability in caller's effective set */ 


raiseCap(int capability) 


} 


return modifyCap(capability, CAP SET); 


/* An analogous dropCap() (unneeded in this program), could be 


defined as: modifyCap(capability, CAP_CLEAR); */ 


static int /* Drop all capabilities from all sets */ 
dropAllCaps (void) 
{ 


cap t empty; 

int s; 

empty = cap_init(); 

if (empty == NULL) 
return -1; 


s = cap set proc(empty); 


if (cap free(empty) == -1) 
return -1; 


return s; 


} 


int 
main(int argc, char *argv[ ]) 


char *username, *password, *encrypted, *p; 
struct passwd *pwd; 

struct spwd *spwd; 

Boolean authOk ; 

size_t len; 

long Inmax; 


lnmax = sysconf(_SC_LOGIN_NAME_ MAX); 
if (lnmax == -1) /* If limit is indeterminate */ 
lnmax = 256; /* make a guess */ 


username = malloc(1nmax) ; 
if (username == NULL) 


errExit("malloc"); 


printf("Username: "); 


fflush(stdout) ; 
if (fgets(username, lnmax, stdin) == NULL) 
exit(EXIT_FAILURE) ; /* Exit on EOF */ 
len = strlen(username) ; 
if (username[len - 1] == '\n') 
username[len - 1] = '\0'; /* Remove trailing '\n' */ 


pwd = getpwnam(username) ; 
if (pwd == NULL) 
fatal("couldn't get password record"); 


/* Only raise CAP_DAC_READ SEARCH for as long as we need it */ 


if (raiseCap(CAP_DAC_READ SEARCH) == -1) 
fatal("raiseCap() failed"); 


spwd = getspnam(username) ; 
if (spwd == NULL && errno == EACCES) 
fatal("no permission to read shadow password file"); 


/* At this point, we won't need any more capabilities, 
so drop all capabilities from all sets */ 


if (dropAllCaps() == -1) 
fatal("dropAllCaps() failed"); 


if (spwd != NULL) /* If there is a shadow password record */ 
pwd->pw passwd = spwd->sp_pwdp; /* Use the shadow password */ 


password = getpass("Password: "); 

/* Encrypt password and erase cleartext version immediately */ 
encrypted = crypt(password, pwd->pw passwd); 

for (p = password; *p != '\0'; ) 


*p++ = '\0'; 


if (encrypted == NULL) 
errExit("crypt"); 


authOk = strcmp(encrypted, pwd->pw passwd) == 0; 
if (tauthOk) { 


printf("Incorrect password\n"); 
exit(EXIT FAILURE); 


} 


printf("Successfully authenticated: UID=%ld\n", (long) pwd->pw_uid); 
/* Now do authenticated work... */ 


exit(EXIT SUCCESS); 


cap/check_password_caps.c 


39.8 创建 仅 包 含 能 力 的 环境 


在 前 面 几 页 中 介绍 了 在 能 力 方 面 对 用 户 ID 为 0 root) 的 进程 进行 特 
殊 处 理 的 各 种 方式 。 


。 当 一 个 或 多 个 用 户 ID 等 于 0 的 进程 将 其 所 有 的 用 户 ID 设置 为 非 0 值 
时 ， 进 程 的 许可 和 有 效能 力 集会 被 清除 。 (参见 39.6 节 ) 。 

当 有 效用 户 ID 为 0 的 进程 将 用 户 ID 修 改 为 非 0 值 时 会 失去 其 有 效能 
力 。 当 做 方向 相反 的 变动 时 ， 许 可 能 力 集会 被 复制 到 有 效 集 中 。 当 
当真 实 或 有 效用 户 ID 为 root 的 进程 执行 了 一 个 程序 或 任意 进程 执行 
了 一 个 setruser-ID-root 程 序 ， 那 么 文件 的 可 继承 和 许可 集会 被 定义 
成 包含 所 有 能 力 。 如 果 进 程 的 有 效用 户 ID 为 0 或 者 它 正 在 执行 一 个 
set-user-ID-root 程 序 ， 那 么 文件 的 有 效 位 被 定义 成 1。“〈 人 参见 39.5.2 
T) 在 通常 情况 下 〈 即 真实 和 有 效用 户 ID 都 是 root 或 正在 执行 一 个 
set-user-ID-root 程 序 ) ， 这 表示 进程 的 许可 和 有 效 集中 包含 了 所 有 
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和 于 一 个 完全 基于 能 力 的 系统 中 ， 内 核 无 需 对 root 用 户 执行 这 些 特殊 
的 处 理 ， 因 为 不 存在 set-user-ID-root 程 序 并 且 只 会 使 用 文件 能 力 赋 给 程 
序 执行 所 需 的 最 小 能 力 。 


由 于 既 有 应 用 程序 不 会 使 用 文件 能 力 基 础 架构 ， 因 此 内 核 必须 要 维 
持 对 用 户 ID 为 0 的 进程 的 传统 处 理 ， 但 可 以 要 求 应 用 程序 在 一 个 完全 基 
于 能 力 的 环境 中 运行 ， 在 这 样 的 环境 中 ， 不 会 对 root 做 上 述 的 特殊 处 
理 。 从 2.6.26 的 内 核 开 始 ， 当 在 内 核 中 局 用 了 文件 能 力 时 ，Linux 会 提供 
securebits 机 制 ， 它 可 以 控制 一 组 进程 级 别 的 标记 ， 通 过 这 组 标记 可 以 分 
别 启 用 或 禁用 前 面 针 对 root 的 三 种 特殊 处 理 中 的 各 种 特殊 人 处理。 CEE 
确 地 讲 ，securebits 标 记 实 际 上 是 一 个 线程 级 别 的 特性 。) 


securebits 机 制 控 制 着 表 39-2 中 列 出 的 标记 ， 每 个 标记 由 一 对 相关 的 
base 标 记 和 相应 的 locked 标 记 表 示 。 每 个 base 标 记 控 制 上 面 描述 的 针对 
root 的 一 种 特殊 处 理 。 设 置 相 应 的 locked 标 记 是 一 个 一 次 性 操作 ， 用 于 
防止 对 相关 联 的 base 标 记 的 后 续 变 更 一 旦 设置 之 后 就 无 法 重 置 
locked 标 记 了 。 
































表 39-2: securebits 标 记 








当 一 个 或 多 个 用 户 ID 为 0 的 进程 将 其 所 有 的 
用 户 ID 设置 为 非 0 值 时 不 要 删除 许可 权限 。 
只 有 在 没有 设置 

SECBIT NO_SETUID_FIXUP 标 记 的 情况 
下 这 个 标记 才 会 起 作用 。 在 exec0 中 这 个 标 
记 会 被 清除 


当 有 效 或 文件 系统 用 户 ID 在 0 和 非 0 之 间 切 
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forkO 创 建 子 进程 会 继承 securebits 标 记 设 置 。 在 调用 execO 期 间 ， 除 
SECBIT_ KEEP_ CAPS 之 外 的 所 有 标记 设置 都 会 得 到 保留 ， 之 所 以 清除 
SECBIT_KEEP_ CAPS 标 记 是 为 了 与 下 面 描述 的 PR_SET_KEEPCAPS 设 
置 保持 兼容 。 


进程 可 以 使 用 prctl() PR_GET_SECUREBITS 操 作 来 获取 securebits 标 
记 。 一 个 进程 如 果 拥 有 CAP_SETPCAP 能 力 ， 那 么 它 就 可 以 使 用 prctl0) 
PR_SET_SECUREBITS 操 作 修 改 securebits 标 记 。 一 个 完全 基于 能 力 的 应 
用 程序 能 够 使 用 下 面 的 调用 不 可 逆 地 禁用 调用 进程 及 其 所 有 子孙 进程 对 
root 用 户 的 特殊 处 理 。 


if (prctl(PR_SET_SECUREBITS, 
/* SECBIT KEEP CAPS off */ 
SECBIT NO SETUID FIXUP | SECBIT NO SETUID FIXUP LOCKED | 
SECBIT NOROOT | SECBIT NOROOT LOCKED) 
== -1) 
errExit("pretl"); 


在 执行 完 这 个 调用 之 后 ， 这 个 进程 及 其 所 有 子孙 进程 获取 能 力 的 唯 
一 方式 是 执行 拥有 文件 能 力 的 程序 。 


SECBIT_KEEP_CAPS 和 和 prctl() PR_SET_KEEPCAPS 操 作 








SECBIT_KEEP_CAPS 标 记 能 够 防止 能 力 在 一 个 或 多 个 用 户 ID 为 0 的 
进程 将 其 所 有 的 用 户 ID 值 设置 为 非 0 值 时 被 删除 。 粗 略 地 讲 ， 
SECBIT KEEP CAPS 提 供 了 SECBIT NO_SETUID_FIXUP 标 记 的 一 半 
功能 。 (从 表 39-2 中 可 以 看 出 ， 只 有 在 SECBIT_NO_SETUID_FIXUP 没 
有 被 设置 的 情况 下 ，SECBIT_KEEP_ CAPS 才 会 起 作用 。) 这 个 标记 的 
存在 是 为 了 提供 一 个 实现 更 古老 的 prcdO PR_SET_KEEPCAPS 操 作 的 
securebits 标 记 ， 它 控制 着 同样 的 特性 。 (这 两 种 机 制 之 间 的 一 个 差别 是 
进程 在 使 用 prctlO PR_SET_KEEPCAPS 操 作 时 无 需 具备 CAP_SETPCAP 
能 力 。) 


之 前 曾经 提 过 在 execO 调 用 期 间 会 保持 除 
SECBIT_ KEEP_ CAPS 之 外 的 所 有 securebits 标 记 。 对 
SECBIT _ KEEP_ CAPS 位 的 设置 与 其 他 securebits 设 置 相反 是 
为 了 与 通过 prctlO PR_SET_KEEPCAPS 操 作 设 置 的 对 特性 
的 处 理 保持 一 致 。 


prctl() PR_SET_KEEPCAPS 操 作 由 运行 于 老式 的 不 支持 文件 能 力 的 
内 核 上 的 set-user-ID-root 程 序 使 用 。 此 类 程序 可 以 通过 在 程序 中 删除 能 
力 并 在 需要 的 时 候 提 升 能 力 ( 参 见 39.10 节 ) 来 提高 安全 性 。 


即使 此 类 set-user-ID-root 程 序 删除 了 除 所 需 的 权限 之 外 的 所 有 其 他 
权限 ， 它 仍然 会 保留 两 个 重要 的 权限 : 访问 由 root 用 户 拥 有 的 文件 的 权 
限 以 及 通过 执行 程序 重新 获取 能 力 的 权限 〈 参 见 39.5.2 节 ) 。 了 永久 删除 
这 些 权限 的 唯一 方式 是 将 进程 的 所 有 用 户 ID 值 设置 为 非 0 值 ， 但 这 样 做 
通常 会 导致 清 除 许 可 和 有 效能 力 集 (参见 39.6 节 中 有 关 用 户 ID 的 变动 对 
能 力 造 成 的 四 点 影响 ) 。 这 就 产生 了 了 矛盾 ， 即 在 保持 一 些 能 力 的 同时 永 
久 地 删除 用 户 ID 0。 为 了 人 允许 这 样 的 情况 发 生 ， 可 以 使 用 prctl0 
PR_SET_KEEPCAPS 操 作 来 设置 进程 特性 以 防止 在 所 有 的 用 户 ID 变 成 非 
0 值 时 许可 能 力 集 被 清除 。【〔 在 这 种 情况 下 总 是 会 清除 进程 的 有 效能 
集 ， 不 管 是 否 设置 了 “keep capabilities” 特 性 。) 








39.9 ”发 现 程序 所 需 的 能 力 


假设 现在 有 一 个 对 能 力 一 无 所 知 的 程序 并 且 只 有 这 个 程序 的 二 进 制 





文件 ， 或 者 假设 程序 的 代码 太 多 了 以 至 于 无 法 很 容易 地 确定 运行 这 个 程 
序 需要 具备 那些 能 力 。 如 果 这 个 程序 需要 特权 ， 但 又 不 是 一 个 set-user- 
ID-root 程 序 ， 那 么 如 何 确定 将 哪些 许可 能 力 使 用 setcap(8) 赋 给 这 个 可 执 
行文 件 呢 ? 解答 这 个 问题 的 答案 有 两 个 。 





使 用 strace(1)〔 附 录 A) 检查 哪个 系统 调用 的 错误 号 是 EPERM， 
为 这 个 错误 号 是 用 来 标示 缺乏 所 需 的 能 力 的 。 通 过 查阅 系统 调用 的 
手册 或 内 核 的 源 代码 可 以 推断 出 程序 需要 哪些 能 力 。 但 这 个 方法 不 
是 很 完美 ， 因 为 偶尔 会 因为 其 他 原因 而 引起 EPERM 错 误 ， 其 中 一 
些 原因 与 程序 缺乏 相应 的 能 力 这 个 问题 毫 无 关系 。 此 外 ， 程 序 可 能 
会 正常 调用 一 个 需要 权限 的 系统 调用 ， 然 后 在 确定 没有 权限 执行 某 
个 特定 操作 之 后 改变 自身 的 行为 。 而 有 些 时 候 在 试图 确定 一 个 可 执 
行文 件 实 际 所 需 的 能 力 时 是 难以 区 分 这 种 “积极 啊 应 错误 ”的 情况 


的 。 

使 用 一 个 内 核 探 针 在 内 核 被 要 求 执行 能 力 检 查 时 产生 监控 输出 。 
[Hallyn, 2007]〈 由 其 中 一 个 文件 能 力 模 块 的 开 友 者 扎 写 的 一 篇 文 
章 ) 提供 了 如 何 完 成 这 个 任务 的 一 个 示例 。 对 于 每 个 能 力 检查 请 
求 ， 文 章 中 所 指 的 探 针 都 会 记录 被 调用 的 内 核 函 数 、 被 请 求 的 能 力 
以 及 请 求 程 序 的 名 称 。 虽 然 这 个 方法 比 使 用 strace(1) 需 要 做 更 多 的 
工作 ， 但 它 有 助 于 更 加 精确 地 确定 一 个 程序 所 需 的 能 











39.10 不 具备 文件 能 力 的 老式 内 核 和 系统 


本 节 将 介绍 之 前 各 种 版 本 的 内 核 中 有 关 能 力 实现 方面 的 差异 以 及 碰 
到 不 文 持 文 件 能 力 的 内 核 时 所 发 生 的 行为 差异 。Linux 在 下 面 两 个 场景 
中 是 不 支持 文件 能 力 的 。 


e {Linux 2.6.24 之 前 的 版 本 中 没有 实现 文件 能 

e 自 Linux 2.6.24 起 ， 当 在 构建 内 核 时 不 指定 
CONFIG_SECURITY_FILE_CAPABILITIES 选 项 时 文件 能 力 将 会 被 
禁用 
AW o 








虽然 从 2.2 内 核 开 始 ，Linux 束 已 经 引入 了 能 力 并 允许 将 
能 力 附 加 到 进程 中 ， 但 文件 能 力 的 实现 则 推 后 了 好 几 年 。 
之 所 以 未 实现 文件 能 力 的 原因 不 是 因为 技术 上 的 困难 ， 而 
是 因为 政策 的 原因 。 《第 16 章 介绍 的 扩展 特性 被 用 来 实现 
文件 能 力 ， 但 它 直到 2.6 内 核 才 可 用 。) 大 部 分 内 核 开 用 人 
员 要 求 系统 管理 员 为 各 个 特权 程序 分 别 设置 和 监控 能 力 集 
的 意见 会 使 得 管理 任务 变 得 复杂 和 难以 管理 一 一 虽然 有 些 
意见 是 合理 的 ， 但 很 难 做 到 。 相 反 ， 系 统管 理 员 对 于 现 有 
的 UNIX 权 限 模型 比较 熟悉 ， 他 们 知道 如 何 小 心 处 理 set- 
user-ID 程 序 并 且 能 够 使 用 简单 的 find 命 令 找 出 系统 中 的 set- 
user-ID 和 set-group-ID 程 序 。 不 过 ， 文 件 能 力 模 块 的 开发 人 
员 使 得 文件 能 力 的 应 用 在 管理 上 变 得 可 行 ， 最 终 为 将 文件 
能 力 集 成 进 内 核 提 供 了 足够 的 令 人 信服 的 论据 。 

















CAP SETPCAP 能 


在 不 文 持 文件 能 力 的 内 核 中 《〈 即 所 有 2.6.24 之 前 的 内 核 以 及 目 2.6.24 


起 文件 能 力 被 禁用 的 内 核 ) ，CAP_SETPCAP 能 力 的 语义 是 不 同 的 。 根 
据 与 39.7 节 中 描述 的 规则 类 似 的 规则 ， 从 理论 上 来 讲 ， 一 个 在 有 效 集中 
包含 CAP_SETPCAP 能 力 的 进程 能 够 修改 除 自身 之 外 的 其 他 进程 的 能 

力 。 换 名 话说 ， 可 以 修改 另 一 个 进程 的 能 力 、 指 定 进程 组 中 所 有 成 员 的 
能 力 以 及 系统 中 除 init 和 调用 者 本 身 之 外 的 所 有 进程 的 能 力 。 之 所 以 将 
init 排 除 在 外 是 因为 它 对 于 系统 的 运作 起 着 基础 性 的 作用 。 之 所 以 还 将 
调用 者 本 身 排除 在 外 是 因为 调用 者 可 能 会 试图 删除 系统 中 其 他 进程 的 能 
力 ， 但 这 里 并 不 希望 调用 进程 能 删除 自己 的 能 


修改 其 他 进程 的 能 力 只 是 在 理论 上 可 行 ， 在 较 早 的 内 核 以 及 禁用 了 
文件 能 力 的 现代 内 核 中 ， 能 力 边 界 集 ( 稍 后 讨论 总 是 会 隐藏 掉 
CAP_SETPCAP 能 力 。 


能 力 边界 集 


自 Linux 2.6.25 起 ， 能 力 边 界 集 就 是 一 个 进程 级 的 特性 了 。 但 在 较 早 
的 内 核 中 ， 能 力 边界 集 是 一 个 系统 级 别 的 特性 ， 它 会 影响 系统 中 的 所 有 
进程 。 在 初始 化 系统 级 别 的 能 力 边 界 集 时 总 是 会 隐藏 
CAP_SETPCAP (参见 前 面 的 介绍 )。 








在 2.6.25 之 后 的 内 核 中 ， 只 有 当 在 内 核 中 启用 了 文件 能 
力 时 才 文 持 从 各 个 进程 的 边界 集中 删除 能 力 。 在 那 种 情况 
下 ， 所 有 进程 的 祖先 进程 init 在 启动 的 时 候 会 包含 所 有 的 能 
力 ， 系 统 中 所 有 其 他 进程 会 继承 该 边界 集 的 一 个 副本 。 如 
果 文 件 能 力 被 禁用 了 ， 那 么 由 于 上 面 描述 的 
CAP_SETPCAP 能 力 的 语义 存在 差别 ， 因 此 init 在 启动 的 时 
候 会 包含 除 CAP_SETPCAP 之 外 的 所 有 能 


在 Linux 2.6.25 中 对 能 力 边 界 集 的 语义 还 做 了 另 一 个 变更 。 在 之 前 
(39.5.1 节 ) 曾经 提 过 ， 在 Linux 2.6.25 以 及 之 后 的 版 本 中 ， 各 个 进程 的 
能 力 边界 集 是 作为 能 够 被 添加 到 进程 的 可 继承 集中 的 能 力 的 一 个 受 限 超 


集 来 处 理 的。 在 Linux 2.6.24 以 及 之 前 的 版 本 中 ， 系 统 级 别 的 能 力 边界 集 
eee 〈 不 需要 这 种 效果 ， 因 为 这 些 内 核 不 文 持 文件 能 
Jos 


通过 Linux 特 有 的 /proc/sys/kernel/cap-bound 文 件 能 够 访问 系统 级 别 
的 能 力 边界 集 。 进 程 必 须要 具备 CAP_SYS_MODULE 能 力 才能 修改 cap- 
bound 文 件 的 内 容 。 但 只 有 init 进 程 才 能 够 开启 这 个 掩 码 中 的 位 ， 其 他 特 
权 进 程 只 能 关闭 掩 码 中 的 位 。 这 些 限 制 的 结果 束 是 在 不 支持 文件 能 力 的 
系统 上 永远 都 无 法 将 CAP_SETPCAP 能 力 赋 给 进程 。 这 种 做 法 是 合理 
的 ， 因 为 这 个 能 力 可 以 用 来 破坏 整个 内 核 权 限 检查 系统 。〔 当 需要 修改 
这 个 限制 时 必须 要 加 载 一 个 修改 集合 中 的 值 的 内 核 模块 并 修改 init 程 序 
Re 内 核 源 代码 中 修改 能 力 边界 集 的 初始 化 过 程 并 重建 内 
Ho) 











令 人 迷惑 的 是 ， 昌 然 是 一 个 位 掩 码 ， 但 在 cap-bound 文 
件 中 系统 级 别 的 掩 码 值 显 示 为 一 个 带 符 写 的 十 进 制 数字 。 
如 文件 中 的 初始 值 是 -257， 它 是 除 (1 << 8) 之 外 所 有 位 都 被 
开局 的 位 掩 码 的 三 的 补 码 表示 〈 即 二 进 制 格 式 为 11111111 
11111111 11111110 11111111) ; CAP_SETPCAP 的 值 为 
8。 





在 运行 于 无 文件 能 力 的 系统 上 的 程序 中 使 用 能 

即使 在 不 支持 文件 能 力 的 系统 上 仍然 可 以 使 用 能 力 来 提升 程序 的 安 
全 性 。 这 是 通过 下 列 步 又 来 完成 的 。 

1. 在 一 个 有 效用 户 ID 为 0 的 进程 中 运行 这 个 程序 通常 是 一 个 set- 


user-ID-root 程 序 ) 。 此 类 进程 的 许可 和 有 效能 力 集中 包含 了 所 有 的 能 力 
(前 面 提 过 ， 除 了 CAP_SETPCAP 能 力 ) 。 





2. 在 程序 启动 的 时 候 使 用 libcap API 删 除 有 效 集中 的 所 有 能 力 和 许 
可 和 集中 除 后 面 会 用 到 的 能 力 之 外 的 其 他 所 有 人 能力。 





3. 设置 SECBIT_KEEP_CAPS 标 记 〈( 或 使 用 prctl0 
PR_SET_KEEPCAPS 操 作 达 到 同样 的 效果 ) ， 这 样 在 下 一 步 中 就 不 会 市 
除 能 力 了 。 

4. 将 所 有 用 户 ID 设 为 非 0 值 以 防止 进程 访问 由 root 拥 有 的 文件 或 在 
exec() 中 获取 能 力 。 





如 果 需 要 防止 进程 在 exec() 中 重新 获取 权限 但 同时 要 人 允 
许 它 访问 由 root 拥 有 的 文件 的 话 则 可 以 使 用 
SECBIT_NOROOT 标 记 这 一 步 来 取代 前 面 的 两 步 。〈( 当 
然 ， 人 允许 进 程 访问 由 root 拥 有 的 文件 为 一 些 安全 性 风险 打开 
PAUE 








5. 在 程序 的 后 续 生 命 周 期 中 根据 需要 使 用 libcap API 在 有 效 集中 提 
升 或 删除 剩余 的 许可 能 力 以 便 执 行 特权 任务 。 


一 些 基 于 2.6.24 之 前 的 Linux 内 核 的 应 用 程序 采用 了 这 种 方法 。 








在 所 有 反对 为 可 执行 文件 实现 能 力 的 内 核 开 发 者 所 提 

出 的 反对 理由 中 ， 上 反对 使 用 正文 中 所 描述 的 方法 的 最 充分 

的 理由 之 一 古 应 用 程序 的 开发 人 员 通 常 知道 可 执行 程序 需 

要 用 到 哪些 能 力 ， 而 系统 管理 员 可 能 无 法 轻易 地 确定 此 类 
=| 


awe 
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39.11 总 结 


Linux 能 力 模 型 将 特权 操作 划分 成 不 同 的 种 类 并 允许 一 个 进程 在 被 
授予 一 些 能 力 的 同时 被 禁止 使 用 其 他 能 力 。 这 个 模型 对 传统 的 一 个 进程 
要 么 拥有 权限 执行 所 有 的 操作 “〈 用 户 ID 为 0) 或 没有 权限 “用 户 ID 非 0) 
执行 操作 的 all-or-nothing 权 限 机 制 进行 了 优化 。 自 2.6.24 内 核 起 ，Linux 
支持 将 能 力 附 加 到 文件 上 ， 这 样 进程 可 以 通过 执行 程序 来 获取 所 选中 的 


ABb 
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39.12 习题 


39-1. 修改 程序 清单 35-2 中 的 程序 Csched_set.c) 使 它 使 用 文件 能 
力 ， 这 样 非特 权 用 户 束 也 能 使 用 这 个 程序 了 。 


第 40 章 ”登录 记 账 


登录 记 账 关注 的 是 哪些 用 户 当前 登录 进 了 系统 以 及 记录 过 去 的 登录 
和 登 出 行为 。 本 章 将 介绍 登录 记 账 文件 以 及 用 来 获取 和 更 新 这 些 文件 中 
所 包含 的 信息 的 库 函 数 。 此 外 ， 本 章 还 将 介绍 提供 登录 服务 的 应 用 程序 
应 该 采取 的 措施 以 便 在 用 户 登 录 和 登 出 时 更 新 这 些 文件 。 











40.1 utmp 和 wtmp 文 件 概 述 


a 统 维护 着 两 个 包含 与 用 户 登录 和 登 出 系统 有 关 的 信息 的 数 
iis LFF 


。utmp 文 件 维护 着 当前 登录 进 系统 的 用 户 记 录 《〈 以 及 其 他 一 些 信 息 ， 
稍 后 将 会 介绍 ) 。 每 一 个 用 户 登 录 进 系统 时 都 会 同 utmp 文件 号 入 
一 条 记录 。 在 这 条 记录 中 包含 一 个 ut_user 字段 ， 它 记录 着 用 户 的 登 
录 名 。 当 用 户 登 出 的 时 候 该 条 记录 会 被 删除 。 像 who(1) 之 类 的 程序 
会 使 用 utmp 文件 中 的 信息 来 显示 当前 登录 进 系统 的 用 户 列 表 。 
wtmp 文 件 包含 着 所 有 用 户 登 录 和 登 出 行为 的 留 痕 信息 以 供 审计 之 
用 (以 及 其 他 一 些 信 息 ， 稍 后 将 会 介绍 ) 。 每 一 个 用 户 登 录 进 系统 
时 ， 写 入 utmp 文 件 中 的 记录 同时 会 被 附加 到 wtmp 文 件 中 。 当 用 户 
登 出 系统 的 时 候 还 会 回 这 个 文件 附加 一 条 记录 。 这 条 记录 包含 的 信 
恩 与 登录 记录 相同 ， 但 ut_user 字 上 段 会 被 置 零 。last(1) 命 令 可 以 用 来 
显示 和 过 滤 wtmp 文 件 中 的 内 容 。 


在 Linux 上 ，utmp 文 件 位 于 /var/run/utmp，wtmp 文 件 位 
于 /var/log/wtmp。 一 般 来 讲 ， 应 用 程序 无 需 知道 这 些 路 径 名 ， 因 为 这 些 
路 径 名 是 编译 进 glibc 的 。 需 要 引用 这 些 文件 的 存储 位 置 的 程序 应 该 使 用 
在 <paths.h> (and <utmpx.h>) 中 定义 的 _ PATH_UTMP 和 _PATH_WTM 路 
径 名 第 量 ， 而 不 是 在 代码 中 硬 编 码 路 径 名 。 









































SUSv3 并 没有 为 mp 和 wtmp 文 件 的 路 径 名 提供 标准 化 
的 符号 名 。Linux 和 BSD 使 用 了 _PATH_UTMP 和 
_PATH_WTMP。 而 其 他 很 多 UNIX 实 现 定义 了 UTMP_FILE 
和 WTMP_FILE 和 常量 来 表示 这 两 个 路 径 名 。Linux 还 在 
<utmp.h> 中 定义 了 这 些 名 词 ， 但 并 没有 在 <utmpx.h> 和 
<paths.h> 中 对 它们 进行 定义 。 








40.2 utmpx API 


utmp 和 wtmp 文 件 很 早 就 出 现在 了 UNIX 系 统 上 了 ， 但 随 着 系统 的 演 
化 ， 不 同 UNIX 实 现 之 间 的 分 卜 开 始 出 现 了 ， 特 别 是 BSD 与 System VŽ 
间 的 差别 。System V Release 4 对 API 进 行 了 大 量 的 扩展 ， 包 括 创建 了 一 
个 全 新 的 《并行 的 ) utmpx 结 构 以 及 相关 的 utmpx 和 wtmpx 文 件 。 同 样 ， 
处 理 这 些 新 文件 的 函数 名 以 及 相关 的 头 文件 名 中 也 包含 了 字母 X。 很 多 
其 他 UNIX 实 现 也 在 API 中 增加 了 自己 的 扩展 。 











本 章 将 介绍 Linux utmpx API， 它 是 BSD 和 System V 实 现 的 一 个 混合 
体 。Linux 并 没有 像 System V 那 样 创建 并 行 的 umpx 和 wtmpx 文 件 ， 相 
反 ，utmp 和 wtmp 文 件 包含 了 所 有 所 需 的 信息 。 但 为 了 与 其 他 UNIX 实 现 
保持 兼容 ，Linux 提 供 了 传统 的 uump 和 从 System V 演 化 而 来 的 utmpx API 
来 访问 这 些 文件 的 内 容 。 在 Linux 上 ， 这 两 组 API 返 回 的 信息 是 完全 一 样 
的 。《〈 这 两 组 API 之 间 的 差别 之 一 是 utmp API 中 的 一 些 函 数 是 可 重 入 
的 ， 而 utmpx 中 的 函数 是 不 可 重 入 的 。) 由 于 SUSv3 规 定 了 utmpx API, 
因此 从 与 其 他 UNIX 实 现 保 持 可 移植 的 角度 出 发 ， 本 章 将 介绍 utmpx 接 
Oo 





SUSvV3 规 范 并 没有 和 履 盖 到 utmpx API 的 方方面面 (如 并 没有 规定 
utmp 和 wtmp 文 件 的 存放 位 置 ) 。 不 同 实现 上 的 登录 记 账 文件 中 包含 的 
内 容 稍微 存在 一 些 差 异 ， 并 且 各 种 实现 都 提供 了 额外 的 登录 记 账 函数 ， 
而 SUSVv3 并 没有 对 这 些 函 数 予 以 定义 。 








[Frisch, 2002] 中 的 第 17 间 对 不 同 UNIX 实 现 中 wtmp 和 
utmp 文 件 在 存放 位 置 和 使 用 方面 的 差异 进行 了 总 结 。 此 外 
还 介绍 了 ac(1) 命 令 的 用 法 ， 这 条 命令 可 以 用 来 对 wtmp 文 件 
中 的 登录 信息 进行 总 结 。 





40.3 ”utmpx 结 构 


utmp 和 wtmp 文 件 包含 utmpx 记 录 。utmpx 结 构 式 在 <utmpx.h> 中 定义 
的 ， 如 程序 清单 40-1 所 示 。 


SUSv3 规 范 中 的 utmpx 结 构 不 包含 ut_host、ut_exit、 
ut_session 以 及 ut_addr_v6 字 段 。 在 其 他 大 多 数 实现 中 都 存 
在 ut_host 和 ut_exit 字 段 ， 一 些 实现 上 还 定义 了 ut_session 字 
段 ，ut_addr_v6 是 Linux 特 有 的 字段 。SUSvV3 规 定 了 ut_line 和 
ut_user 字 段 ， 但 并 没有 规定 它们 的 长 度 。 





在 utmpx 结 构 中 ut_addr_v6 字 段 的 数据 类 型 是 int32_t， 
它 是 一 个 32 位 的 整数 。 

















程序 清单 40-1: utmpx 结 构 的 定义 

















#define _GNU_SOURCE /* Without _GNU_SOURCE the two field 


struct exit_status { names below are prepended by "__" */ 
short e_termination; /* Process termination status (signal) */ 
short e exit; /* Process exit status */ 

}; 


#define _ UT LINESIZE 32 
#define UT NAMESIZE 32 
#define _ UT_HOSTSIZE 256 


struct utmpx { 


short ut type; /* Type of record */ 

pid t ut pid; /* PID of login process */ 

char ut _line[ UT LINESIZE]; /* Terminal device name */ 

char ut_id[4]; /* Suffix from terminal name, or 
ID field from inittab(5) */ 

char ut_user[__UT_NAMESIZE]; /* Username */ 

char ut host[ UT HOSTSIZE]; /* Hostname for remote login, or kernel 
version for run-level messages */ 

struct exit status ut exit; /* Exit status of process marked 


as DEAD PROCESS (not filled 
in by init(8) on Linux) */ 


long ut_session; /* Session ID */ 
struct timeval ut_tv; /* Time when entry was made */ 
int32_t ut_addr_v6[4]; /* IP address of remote host (IPv4 


address uses just ut addr v6[0], 
with other elements set to 0) */ 
char _ unused[20]; /* Reserved for future use */ 


J 





utmpx 结 构 中 的 所 有 字符 串 字 段 都 以 nu 结尾 ， 除 非 值 完全 填 满 了 相 
应 的 数组 。 


对 于 登录 进程 来 讲 ， 存 储 在 ut_line 和 ut_id 字 段 中 的 信息 是 从 终端 设 
备 的 名 称 中 得 出 的 。ut_line 字 有 段 包含 了 终端 设备 的 完整 的 文件 名 。ut_id 
字段 包含 了 文件 名 的 后 缀 一 一 跟 在 tty、pts 或 pty 后 面 的 字符 串 (后 两 个 
分 别 表 示 System-V 和 BSD 风 格 的 伪 终 端 ) 。 因 此 ， 对 于 /dev/tty2 终 端 来 
讲 ，ut_line 的 值 为 ty2，ut_id 的 值 为 2。 


在 窗口 环境 中 ， 一 些 终端 模拟 器 使 用 ut_session 字 上 段 来 为 终端 窗口 记 
录 会 话 ID (有 关 会 话 ID 的 介绍 请 参考 34.3 节 ) 。 


ut_type 了 字段 是 一 个 整数 ， 它 定义 了 写 入 文件 的 记录 类 型 ， 其 取 值 为 
下 面 一 组 常量 中 的 一 个 (括号 中 给 出 了 相应 的 数值 〉。 








EMPTY (0) 
这 个 记录 不 包含 有 效 的 记 账 信息 。 
RUN_LVL (1) 


这 个 记录 表明 在 系统 启动 或 关闭 时 系统 运行 级 别 发 生 了 变化 。 (有 
关 运 行 级 别 的 信息 可 以 在 init(8) 手 册 中 找到 。) 要 在 <utmpx.h> 中 取得 这 
个 常量 的 定义 就 必须 要 定义 _GNU_SOURCE 特 性 测试 宏 。 


BOOT_TIME (2) 


这 个 记录 包含 ut_tv 字 上 段 中 的 系统 启动 时 间 。 写 入 RUN_LVL 和 
BOOT_TIME 字 上 段 的 进程 通常 是 init。 这 些 记录 会 同时 被 写 入 utmp 和 
wtmp 文 件 。 





NEW_TIME (3) 
这 个 记录 包含 系统 时 钟 变 更 之 后 的 新 时 间 ， 记 录 在 ut_tv 字 段 中 。 


OLD_TIME (4) 


这 个 记录 包含 系统 时 钟 变更 之 前 的 旧时 间 ， 记 录 在 ut_tv 字 段 中 。 当 
系统 时 钟 发 生变 更 时 ，NTP daemon (或 类 似 的 进程 会 将 类 型 为 
OLD_TIME 和 NEW_TIME 的 记录 写 入 到 utmp 和 wtmp 文 件 中 。 








INIT_PROCESS (5) 


记录 由 init 进 程 孵 化 的 进程 ， 如 getty 进 程 ， 细 节 信 息 请 参考 inittab(5) 





LOGIN_PROCESS (6) 
记录 用 户 登 录 会 话 组 长 进程 ， 如 login(1) 进 程 。 
USER_PROCESS (7) 


记录 用 户 进程 ， 通 常 是 登录 会 话 ， 用 户 名 会 出 现在 ut_user 字 段 中 。 
登录 会 话 可 能 是 由 login(1) 启 动 ， 或 者 也 可 能 是 由 像 ftp 和 ssh 之 类 的 提供 
远程 登录 工具 的 应 用 程序 启动 。 


DEAD_PROCESS (8) 











这 个 记录 标识 出 已 经 退出 的 进程 。 

这 里 之 所 以 给 出 了 这 些 常 量 的 数值 是 因为 很 多 应 用 程序 都 要 求 这 些 
常量 的 数值 顺序 与 上 面 列 出 的 顺 友 一致。 如 在 agetty 程 序 的 源 代码 中 可 
以 发 现下 面 这 样 的 检查 。 


utp->ut_type >= INIT PROCESS && utp->ut type <= DEAD PROCESS 





类 型 为 INIT_PROCESS 通 单 对 应 于 getty(8) 调 用 《或 类 似 的 程序 ， 如 
agetty(8) 和 mingetty(8)) 。 在 系统 启动 的 时 候 ，init 进 程 会 为 每 个 命令 行 
和 虚拟 控制 台 创 建 一 个 子 进程 ， 每 个 子 进 程 会 执行 getty 程 序 。getty 程 序 
会 打开 终端 ， 提 示 用 户 输入 用 户 名 ， 然 后 执行 login(1)。 当 成 功 验证 用 
户 以 及 执行 了 其 他 一 些 动作 之 后 ，login 会 创建 一 个 子 进程 来 执行 用 户 登 
录 shell。 这 种 登录 会 话 的 完整 声明 周期 由 写 入 wtmp 文 件 的 四 个 记录 来 表 
示 ， 其 顺序 如 下 所 示 。 


一 个 INIT_PROCESS 记 录 ， 由 init 写 入 。 

一 个 LOGIN_PROCES 记 录 ， 由 getty 写 入 。 

一 个 USER_PROCESS 记 录 ， 由 login 写 入 。 

一 个 DEAD_PROCESS 记 录 ， 当 init 进 程 检 测 到 login 子 进程 死亡 之 后 
《发 生 在 用 户 登 出 时 ) SA. 


更 多 有 关 在 用 户 登 录 期 间 getty 和 login 的 操作 的 细节 可 以 在 [Stevens 
& Rago, 2005] 的 第 9 章 中 找到 。 

















一 些 版 本 的 init 会 在 更 新 wtmp 文 件 之 前 孵化 出 getty 进 
程 ， 这 样 init 和 getty 会 在 更 新 wtmp 文 件 时 形成 竞争 ， 从 而 导 
致 INIT_ PROCESS 和 LOGIN_PROCESS 记 录 的 写 入 顺序 与 
正文 中 描述 的 顺序 相反 。 


本 节 介 绍 的 函数 能 从 包含 utmpx 格 式 记 录 的 文件 中 获取 读 取 信息 
在 默认 情况 下 ， 这 些 函 数 使 用 标准 的 utmp 文 件 ， 但 使 用 in rene (JEN 
数 〈 稍 后 介绍 ) 能 够 改变 读 取 的 文件 。 


这 些 函 数 都 使 用 了 当前 位 置 (current location) 的 概念 ， 它 们 会 从 
文件 中 的 当前 位 置 来 读 取 记录 ， 每 个 函数 都 会 更 新 这 个 位 置 。 


setutxent() 函 数 会 将 utmp 文 件 的 当前 位 置 设置 到 文件 的 起 始 位 置 。 

















#include <utmpx.h> 


void setutxent(void); 











通常 ， 在 使 用 任意 getutx*() 疯 数 〈 稍 后 介绍 ) 之 前 应 该 调用 
setutxent()， 这 样 束 能 避免 因 程 序 中 已 经 调用 到 的 第 三 方 函 数 在 之 前 用 
过 这 些 函 数 而 产生 的 混淆 。 根 据 所 执行 的 任务 的 不 同 ， 在 程序 后 面 合适 
的 地 方 可 能 需要 调用 setutxent()。 


当 utmp 文 件 没有 被 打开 时 ，setutxent() 函 数 和 getutx*() 函 数 会 打开 这 
ea o 当 用 完 这 个 文件 之 后 可 以 使 用 endutxent() 函 数 来 关闭 这 个 文 











#include <utmpx.h> 





void endutxent(void); 








getutxent()、getutxid() 和 getutxline() 函 数 从 utmp 文 件 中 读 取 一 个 记录 
并 返回 一 个 指 同 utmpx 结 构 ( 静 态 分 配 〉 的 指针 。 








#include <utmpx.h> 


struct utmpx *getutxent(void) ; 
struct utmpx *getutxid(const struct utmpx *zd); 
struct utmpx *getutxline(const struct utmpx *ut); 


All return a pointer to a statically allocated utmpx structure, 
or NULL if no matching record or EOF was encountered 








getutxent(O 函 数 顺序 读 取 utmp 文 件 中 的 下 一 个 记录 。getutxid0 和 
getutxline0O) 函 数 会 从 当前 文件 位 置 开 始 搜索 与 ut 参数 指向 的 utmpx 结 构 中 
指定 的 标准 匹配 的 一 个 记录 。 


getutxidO 〇 函数 根据 ut 参数 中 ut_type 和 ut_id 字 段 的 值 在 utmp 文 件 中 搜 
iA 


e 如 果 ut_type 字 7 段 是 RUN_LVL、BOOT_TIME、NEW_TIME 或 
OLD_TIME， 那 么 getutxid0) 会 找 出 下 一 个 ut_type 字 段 与 指定 的 值 匹 
配 的 记录 。 (这 种 类 型 的 记录 与 用 户 登 录 不 相关 。) RE ee 
索 与 修改 系统 时 间 和 运行 级 别 相 关 的 记录 了 。 

e 如 果 ut_type 字 段 的 取 值 是 剩余 的 有 效 值 中 的 一 个 

(CNIT_PROCESS、LOGIN_PROCESS、USER_PROCESS 或 
DEAD_PROCESS) ， 那 么 getutxentO 会 找 出 下 一 个 ut_type 字 段 与 这 
些 值 中 的 任意 一 个 匹配 并 且 ut_id 字 段 与 ut 参数 中 指定 的 值 匹 配 的 记 
录 。 这 样 束 能 够 扫描 文件 来 找 出 对 应 于 某 个 特定 终端 的 记录 了 。 


getutxline() 函 数 会 向 前 搜索 ut_type 字 段 为 LOGIN_PROCESS 或 
USER_PROCESS 并 且 ut_line 字 段 与 ut 参数 指定 的 值 匹配 的 记录 。 这 对 于 
找 出 与 用 户 登 录 相 关 的 记录 是 非常 有 用 的 。 


当 搜 索 失 败 时 《 即 达到 文件 尾 时 还 没有 找到 匹配 的 记录 ) ， 
getutxid() 和 getutxline() 都 返回 NULL。 














在 一 些 UNIX 实 现 上 ，getutxline() 和 getutxid() 将 用 于 返回 utmpx 结 构 
的 静态 区 域 看 成 是 某 种 高 速 缓冲 存储 〈cache) 。 如 果 它 们 确定 上 一 个 
getutx*(O 调 用 放置 在 高 速 缓冲 存储 中 的 记录 与 ut 指定 的 标准 匹配 ， 那 么 
就 不 会 执行 文件 读 取 操 作 ， 而 是 简单 地 再 次 返回 同样 的 记录 (SUSvV3 允 
许 这 个 行为 )。 因 此 为 避免 当 在 循环 中 调用 getutxline() 和 getutxidO 时 重 
复 返 回 同一 个 记录 ， 必 须要 使 用 下 面 的 代码 清除 这 个 静态 数据 结构 。 








struct utmpx *res = NULL; 
/* Other code omitted */ 
if (res != NULL) /* If 'res' was set via a previous call */ 


memset(res, 0, sizeof(struct utmpx)); 
res = getutxline(&ut) ; 


libc 实 现 不 会 进行 这 样 的 缓存 ， 但 从 可 移植 性 的 角度 出 发 ， 在 编写 
程序 时 永远 不 要 使 用 这 种 技术 。 


由 于 getutx*() 函 数 返 回 的 是 一 个 指 问 静态 分 配 的 结构 的 
虽 针 ， 因 此 它们 是 不 可 重 入 的 。GNU C 库 提供 了 传统 的 
utmp 函 数 的 可 重 入 版 本 (getutent_r()、getutid_r() 以 及 
getutline_r()) ， 但 并 没有 为 utmpx 函 数 提供 可 重 入 版 本 。 
(SUSv3 并 没有 规定 可 重 入 版 本 。) 


在 默认 情况 下 ， 所 有 getutx*0O) 函 数 都 使 用 标准 的 utmp 文 件 。 如 果 需 
要 使 用 男 一 个 文件 ， 如 wtmp 文 件 ， 那 么 必须 要 首先 调用 utmpxname() 并 
HE HERRITA o 





#define _GNU_SOURCE 
#include <utmpx. h> 


int utmpxname(const char *file); 


Returns 0 on success, or -1 on error 











utmpxname() K BUM CREA HERE Bill tt, “EE ANSE FT FF 
件 ， 但 会 关闭 之 前 由 其 他 调用 打开 的 所 有 文件 。 这 表示 就 算 指 定 了 一 个 
无 效 的 路 径 名 ，utmpxname0 也 不 会 返回 错误 。 相 反 ， 当 后 面 调 用 某 个 
getutx*() 隙 数 发 现 无 法 打开 文件 时 会 返回 一 个 错误 〈( 即 NULL，errno 被 
设 为 ENOENT) 。 





虽然 SUSv3 并 没有 对 此 进行 规定 ， 但 大 多 数 UNIX 实 现 
提供 了 utmpxname0 或 类 似 的 utmpnameO 函 数 。 


示例 程序 


程序 清单 40-2 中 的 程序 使 用 了 本 节 中 介绍 的 一 些 函 数 来 输出 一 个 
utmpx 格 式 文件 的 内 容 。 下 面 的 shell 会 话 日 志 给 出 了 使 用 这 个 程序 输 
出 /var/run/utmp 〈 当 没有 调用 utmpxname0O 时 这 些 函 数 会 默认 使 用 该 文 
件 ) 的 内 容 时 得 到 的 结果 。 


$ ./dump_utmpx 
user type PID line id host date/time 


LOGIN LOGIN PR 1761 ttyl 1 Sat Oct 23 09:29:37 2010 
LOGIN LOGIN PR 1762 tty2 2 Sat Oct 23 09:29:37 2010 
lynley USER PR 10482 tty3 3 Sat Oct 23 10:19:43 2010 
david USER_PR 9664 tty4 4 Sat Oct 23 10:07:50 2010 
liz USER PR 1985 tty5 5 Sat Oct 23 10:50:12 2010 
mtk USER PR 10111 pts/0 /0 Sat Oct 23 09:30:57 2010 


限于 篇 幅 ， 这 里 将 程序 的 很 多 输出 都 省 去 了 。 上 面 tty1 到 tty5 是 表示 
虚拟 控制 台 上 的 登录 Cdev/tty[1-6]) 。 和 输出 中 的 最 后 一 行 表示 伪 终 端 上 


的 xterm 会 话 。 


从 下 面 输出 /Var/log/wtmp 文 件 时 所 产生 的 结果 可 以 看 出 当 一 个 用 户 
登录 和 登 出 时 会 铝 wtmp 文 件 写 入 两 个 记录 。 《程序 的 其 他 不 相关 的 所 
有 输出 都 被 省 去 了 。) 在 顺序 搜索 wtmp 文 件 〈 使 用 getutxline0 ) 时 可 以 
使 用 ut_line 来 匹配 这 些 记 录 。 


$ .ydump_utmpx /var/log/wtmp 

user type PID line id host date/time 

lynley USER PR 10482 tty3 3 Sat Oct 23 10:19:43 2010 
DEAD PR 10482 tty3 3 2.4.20-4G Sat Oct 23 10:32:54 2010 





























程序 清单 40-2: 显示 一 个 utmpx 格 式 文件 的 内 容 














loginacct/dump_utmpx.c 


#define _GNU_SOURCE 
#include <time.h> 
#include <utmpx.h> 
#include <paths.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 
{ 
struct utmpx *ut; 
if (argc > 1 && strcmp(argv[1], "--help") == 0) 
usageErr("4s [utmp-pathname]\n", argv[0]); 
if (argc > 1) /* Use alternate file if supplied */ 
if (utmpxname(argv[1]) == -1) 


errExit("utmpxname") ; 


setutxent(); 
printf("user type PID line id host date/time\n"); 
while ({ut = getutxent()) != NULL) { /* Sequential scan to EOF */ 


printf("%-8s ", ut->ut_user); 
printf("4-9.9s ", 


(ut->ut_type == EMPTY) ? "EMPTY" : 
(ut->ut_type == RUN_LVL) ? “RUN LVL" : 
(ut->ut_type == BOOT TIME) ? “BOOT TIME" : 
(ut->ut type == NEW TIME) ? “NEW TIME" : 
(ut->ut type == OLD TIME) ? "OLD TIME" : 


(ut->ut type == INIT PROCESS) ? “INIT PR” : 
(ut->ut type == LOGIN PROCESS) ? "LOGIN PR" : 
{ut->ut type == USER PROCESS) ? "USER PR" : 
(ut->ut type == DEAD PROCESS) ? "DEAD PR" : "???"); 

printf("%5ld %-6.6s %-3.5s %-9.9s ", (long) ut->ut_pid, 
ut->ut_line, ut->ut_id, ut->ut_host); 

printf("%s", ctime((time_t *) &(ut->ut_tv.tv_sec))); 

} 


endutxent(); 
exit(EXIT SUCCESS); 


loginacct/dump_utmpx.c 





405 ”获取 登录 名 称 : getlogin() 


getlogin() 函 数 返 回 登录 到 调用 进程 的 控制 终端 的 用 记名 ， 它 会 使 用 
在 utmp 文 件 中 维护 的 信息 。 











#include <unistd.h> 


char *getlogin(void); 


Returns pointer to username string, or NULL on error 











getlogin0) 函 数 会 调用 ttyname0 〈 人 参见 62.10 节 ) 来 找 出 与 调用 进程 的 
标准 输入 相关 联 的 终端 名 ， 接 着 它 将 搜索 utmp 文 件 以 找 出 ut_line 值 与 终 
端 名 匹配 的 记录 。 如 果 找 到 了 匹配 的 记录 ， 那 么 getlogin0) 会 返回 记录 中 
的 ut_user 字 符 串 。 


如 果 没 有 找到 匹配 的 记录 或 者 发 生 了 错误 ， 那 么 getlogin0) 会 返回 
NULL 并 设置 errno 来 标示 错误 。getlogin0 可 能 会 失败 的 一 个 原因 是 进程 
没有 一 个 与 其 标准 输入 相关 联 的 终端 CENOTTY) ， 这 可 能 是 因为 进程 
本 号 是 一 个 daemon。 男 一 个 可 能 的 原因 是 终端 会 话 并 没有 记录 在 utmp 
文件 中 ， 如 一 些 软件 终端 模拟 器 不 会 在 utmp 文 件 中 创建 条 目 。 


即使 当 一 个 用 户 ID 在 /etc/passwd 文 件 中 拥有 多 个 登录 名 时 (不 党 
JIL) ，getlogin0 还 是 能 够 返回 登录 进 这 个 终端 的 实际 用 户 名 ， 因 为 它 依 
赖 的 是 utmp 文 件 。 相 反 ，getpwuid(getuidO) 总 是 会 返回 /etc/passwd 中 第 
一 个 匹配 的 记录 ， 不 管 登录 名 是 什么 。 























SUSv3 规 定 了 getlogin0 的 一 个 可 重 入 版 本 getlogin_r0， 
glibc 提 供 了 这 个 函数 。 


LOGNAME 环 境 变量 也 可 以 用 来 找 出 用 户 的 登录 名 。 
但 用 户 可 以 改变 这 个 变量 的 值 ， 这 表示 无 法 使 用 这 个 变量 
Se DI Hs 


40.6 ”为 登录 会 话 更 新 utmp 和 wtmp 文 件 


在 编写 一 个 创建 登录 会 话 的 应 用 程序 〈 如 像 login 或 sshd 那 样 ) 时 应 
该 要 按照 下 面 的 步骤 更 新 tmp 和 wtmp 文 件 。 


。 在 登录 的 时 候 应 该 同 utmp 文 件 号 入 一 条 记录 表明 这 个 用 户 登 录 进 系 
统 了 。 应 用 程序 必须 要 检查 在 utmp 文 件 中 是 个 存 在 这 个 终端 的 记 
录 。 如 有 果 已 经 存在 了 一 个 记录 ， 那 么 它 将 重 写 这 个 记录 ， 人 否则 就 在 
文件 后 面 附加 一 个 新 记录 。 通 常 调用 pututxline()〔 稍 后 介绍 〉 束 中 
以 确保 正确 执行 这 些 步 又 了 《具体 示例 可 参见 程序 清单 40-3) 。 输 
出 的 utmpx 记 录 至 少 需 要 填充 ut_type、ut_user、ut_tv、ut_pid、ut_id 
以 及 ut_line 字 段 。ut_type 字 段 应 该 被 设置 成 USER_PROCESS。 
ut_id 字 段 应 该 包含 用 户 登 录 的 设备 名 《〈 即 终端 或 伪 终 端 ) 的 后 级 ， 
ut_line 字 段 应 该 包含 登录 设备 的 名 称 中 去 除了 开头 的 /dev/ 的 字符 
Po (运行 程序 清单 40-2 中 的 程序 时 产生 的 输出 会 显示 这 两 个 字段 
J ) 一 个 包含 完全 一 样 的 信息 的 记录 会 被 附加 到 wtmp 文 件 























utmp 文 件 中 的 记录 以 终端 名 〈ut_line 和 ut_id 字 段 ) 作 
为 唯一 键 。 





。 在 登 出 的 时 候 应 该 删除 之 前 写 入 utmp 文 件 的 记录 ， 这 是 通过 创建 一 
个 记录 并 将 ut_type 设 置 为 DEAD_PROCESS、 同 时 将 ut_id 和 ut_line 
设置 为 登录 时 写 入 的 记录 中 相应 字段 的 值 并 将 ut_user 字 段 的 值 置 零 
来 完成 的 。 这 个 记录 会 覆盖 之 前 的 记录 ， 同 时 这 个 记录 的 一 个 副本 
会 被 附加 到 wtmp 文 件 中 。 





如 果 在 登 出 时 没有 成 功 清理 utmp 中 的 相关 记录 ， 可 能 


因为 程序 衣 溃 ， 那 么 在 下 一 次 重启 的 时 候 ，init 会 自动 清理 
这 些 记录 并 将 记录 的 ut_type 设 置 为 DEAD_PROCESS 以 及 将 
记录 中 其 他 字段 置 零 。 





通常 utmp 和 wtmp 文 件 是 受 保护 的 ， 只 有 特权 用 户 可 以 更 新 这 些 文 
件 。getlogin0 的 精确 程度 依赖 于 utmp 文 件 的 完整 性 。 正 因为 这 个 原因 以 
及 其 他 一 些 原 因 ， 在 utmp 和 wtmp 文 件 的 权限 设置 中 应 该 永远 都 不 允许 
非特 权 用 户 写 这 两 个 文件 。 


哪些 程序 会 产生 一 个 登录 会 话 呢 ? 正如 读者 所 想 的 那样 ， 通 过 
login、telnet 以 及 ssh 登 录 会 记录 在 登录 记 账 文件 中 。 大 多 数 ftp 实 现 也 会 
创建 登录 记 账 记录 。 但 系统 上 每 个 打开 的 终端 窗口 或 调用 su 时 会 创建 登 
录 记 账 记录 吗 ? 这 个 问题 的 答案 因 UNIX 实 现 的 不 同 而 不 同 。 











在 一 些 终端 模拟 程序 〈 如 xterm) 中 ， 可 以 使 用 命令 行 
选项 以 及 其 他 一 些 机 制 来 确定 程序 是 人 否 更 新 登录 记 账 文 
tre 








pututxline0 函 数 会 将 ut 指向 的 utmpx 结 构 写 入 到 /varrun/utmp 文 件 中 
(或 者 如 果 之 前 调用 了 utmpxname() 的 话 将 是 男 一 个 文件 ) 。 





#include <utmpx.h> 


struct utmpx *pututxline(const struct utmpx *ut); 


Returns pointer to copy of successfully updated record on success, 
OT NULL on error 











在 写 入 记录 之 前 ，pututxline() 首 先 会 使 用 getutxid0) 向 前 搜索 一 个 可 
被 重 写 的 记录 。 如 果 找 到 了 这 样 的 记录 ， 那 么 会 重 写 该 记录 ， 否 则 就 会 
在 文件 尾 附 加 一 个 新 记录 。 在 很 多 情况 下 ， 应 用 程序 在 调用 pututxline() 











之 前 会 调用 其 中 一 个 getutx*() 阔 数 ， 因 为 这 个 阔 数 会 将 当前 文件 位 置 设 
定 到 正确 的 记录 一 一 即 与 getutxid(O) 系 列 函 数 中 ut 指 同 的 utmpx 结 构 中 的 
标准 匹配 的 记录 。 如 果 pututxline() 能 够 确定 已 经 重 置 过 了 当前 文件 位 
置 ， 那 么 就 不 会 调用 getutxid()。 


如 果 pututxline0O 在 内 部 调用 了 getutxid0， 那 么 这 个 调用 
不 会 改变 getutx*() 函 数 用 来 返回 utmpx 结 构 的 静态 区 域 。 
SUSv3 要 求实 现 遵循 这 种 行为 。 


在 更 新 wtmp 文 件 时 仅仅 是 简单 地 打开 文件 并 在 文件 尾 附加 一 个 记 
录 。 由 于 这 是 一 个 标准 操作 ， 因 此 glibc 将 其 封装 进 了 updwtmpxO 函 数 。 





#define GNU SOURCE 
#include <utmpx.h> 





void updwtmpx(char *wtmpx_file, struct utmpx *ut); 








updwtmpx0 〇 函数 将 ut 指向 的 utmpx 记 录 附 加 到 wtmpx_file 指 定 的 文件 
毛 。 


SUSv3 没 有 规定 updwtmpx(0， 这 个 函数 只 出 现 了 一 些 UNIX 实 现 
中 ， 而 其 他 实现 则 提供 了 相关 函数 一 一 login(3)、logout(3) 以 及 
logwtmp(3) 一 一 这 些 函 数位 于 glibc 中 并 且 手 册 也 对 这 些 函 数 进 行 了 描 
述 。 如 果 不 存在 这 样 的 函数 ， 那 么 就 需要 自己 编写 实现 相同 功能 的 函数 
To 《这些 函数 的 实现 并 不 复杂 。 ) 


示例 程序 


程序 清单 40-3 使 用 了 这 一 节 中 介绍 的 函数 来 更 新 ump 和 wtmp 文 件 。 
这 个 程序 先 执行 记录 由 命令 行 指定 的 用 户 的 登录 操作 所 需 的 对 utmp 和 
wimp CfA at, FAS BERRA LAE Ja CHF. A, US BR 
作 会 与 用 户 的 登录 会 话 的 创建 和 终止 相关 联 。 这 个 程序 使 用 了 ttyname() 
来 获取 与 文件 描述 符 相 关联 的 终端 设备 的 名 称 ，ttyname0 将 在 第 62.10 节 




















中 予以 介绍 。 


下 面 的 shell 会 话 日 志 演 示 了 程序 清单 40-3 中 的 程序 的 操作 。 假 设 程 
序 已 经 拥有 了 更 新 登录 记 账 文件 的 权限 ， 然 后 使 用 这 个 程序 来 为 用 户 
mtk 创 建 一 个 记录 。 


$ su 
Password: 
# ./utmpx_login mtk 
Creating login entries in utmp and wtmp 
using pid 1471, line pts/7, id /7 
Type Control-Z to suspend program 
[1]+ Stopped ./utmpx_login mtk 


在 utmpx_login 程 序 睡 眠 的 过 程 中 输入 Control-Z 以 挂 起 该 程序 并 将 其 
放 到 后 台 。 接 着 使 用 程序 清单 40-2 中 的 程序 来 查看 utmp 文 件 中 的 内 容 。 


# ./dump_utmpx /var/run/utmp 


user type PID line id host date/time 

cecilia USER PR 249 ttyl 1 Fri Feb 1 21:39:07 2008 
mtk USER PR 1471 pts/7 /7 Fri Feb 1 22:08:06 2008 
# who 

cecilia tty1 Feb 1 21:39 

mtk pts/7 Feb 1 22:08 


上 面 使 用 了 who(1) 命 令 来 表明 who 的 输出 源 自 utmp 文 件 。 
接着 使 用 程序 来 查看 wtmp 文 件 中 的 内 容 。 


# ./dump_utmpx /var/Log/wtmp 


user type PID line id host date/time 

cecilia USER PR 249 ttyl 1 Fri Feb 1 21:39:07 2008 
mtk USER_PR 1471 pts/7 /7 Fri Feb 1 22:08:06 2008 
# last mtk 

mtk pts/7 Fri Feb 1 22:08 still logged in 


上 面 使 用 了 last(T) 命 令 来 表明 last 的 输出 源 自 wtmp 文 件 。《〈 限 于 篇 
幅 ， 这 里 给 出 的 shel 会 话 日 志 中 dump_utmpx 和 1last 命 令 输出 已 经 删除 了 
与 本 节 讨 论 主题 无 关 的 内 容 。) 


接着 使 用 fg 命令 将 utmpx_login 程 序 恢 复 到 前 台 。 程 序 随后 就 会 将 登 
出 记录 写 入 utmp 和 wtmp 文 件 。 








# fg 
./utmpx_login mtk 
Creating logout entries in utmp and wtmp 


Rea URE A ump CFA, MP NE tmp FE he eB 
Blo 


# ./dump_utmpx /var/run/utmp 


user type PID line id host date/time 

cecilia USER_PR 249 tty1 1 Fri Feb 1 21:39:07 2008 
DEAD PR 1471 pts/7 77 Fri Feb 1 22:09:09 2008 

# who 

cecilia tty1 Feb 1 21:39 





输出 中 的 最 后 一 行 表 明 who 和 忽略 了 DEAD_PROCESS 记 录 。 


在 查看 wtmp 文 件 之 后 可 以 看 出 wtmp 记 录 已 经 被 附加 进去 了 。 


# ./dump_utmpx /var/log/wtmp 


user type PID line id host date/time 

cecilia USER PR 249 ttyl 1 Fri Feb 1 21:39:07 2008 

mtk USER_PR 1471 pts/7 /7 Fri Feb 1 22:08:06 2008 
DEAD PR 1471 pts/7 /7 Fri Feb 1 22:09:09 2008 

# last mtk 

mtk pts/7 Fri Feb 1 22:08 - 22:09 (00:01) 





上 面 输出 中 的 最 后 一 行 表明 last 匹 配 了 wtmp 文 件 中 的 登录 和 登 出 记 
录 ， 从 而 能 看 出 整个 登录 会 话 的 开始 时 间 和 结束 时 间 。 


程序 清单 40-3: 更 新 utmp 和 wtmp 文 件 














loginacct/utmpx_login.c 
#define _GNU_SOURCE 
#include <time.h> 
#include <utmpx.h> 
#include <paths.h> /* Definitions of PATH UTMP and PATH WIMP */ 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


struct utmpx ut; 
char *devName; 


if (argc < 2 || stremp{argv[1], “--help") == 0) 
usageErr("%s username [sleep-time]\n", argv[0]); 


/* Initialize login record for utmp and wtmp files */ 


memset(&ut, 0, sizeof(struct utmpx)); 
ut,ut type = USER PROCESS; /* This is a user login */ 
strncpy(ut.ut_user, argv[1], sizeof(ut.ut_user)); 
if (time((time_t *) &ut.ut_tv.tv_sec) == -1) 

errExit ("time"); /* Stamp with current time */ 
ut.ut_pid = getpid(); 


/* Set ut_line and ut_id based on the terminal associated with 
‘stdin’. This code assumes terminals named "/dev/[pt]t[sy]*". 
The “/dev/" dirname is 5 characters; the "[pt]t[sy]" filename 
prefix is 3 characters (making 8 characters in all). */ 


devName = ttyname(STDIN_FILENO) ; 

if (devName == NULL) 
errExit("ttyname"); 

if (strlen(devName) <= 8) /* Should never happen */ 
fatal("Terminal name is too short: %s", devName); 


strncpy(ut.ut_line, devName + 5, sizeof(ut.ut_line))}; 
strncpy({ut.ut_id, devName + 8, sizeof{ut.ut_id)); 


printf("Creating login entries in utmp and wtmp\n"); 

printf(" using pid #ld, line %.*s, id %.*s\n", 
(long) ut.ut_pid, (int) sizeof(ut.ut_line), ut.ut_line, 
(int) sizeof({ut.ut_id), ut.ut_id); 


setutxent(); /* Rewind to start of utmp file */ 

if (pututxline(&ut) == NULL) /* Write login record to utmp */ 
errExit("pututxline") ; 

updwtmpx(_PATH_WTMP, &ut); /* Append login record to wtmp */ 


/* Sleep a while, so we can examine utmp and wtmp files */ 
sleep((argc > 2) ? getInt(argv[2], GN NONNEG, “sleep-time") : 15); 


/* Now do a "logout"; use values from previously initialized ‘ut', 
except for changes below */ 


ut.ut_type = DEAD PROCESS; /* Required for logout record */ 
time({time t *) &ut.ut_tv.tv_sec); /* Stamp with logout time */ 
memset(&ut.ut_user, 0, sizeof(ut.ut_user)); 

/* Logout record has null username */ 


printf("Creating logout entries in utmp and wtmp\n"); 


setutxent(); /* Rewind to start of utmp file */ 

if (pututxline(&ut) == NULL) /* Overwrite previous utmp record */ 
errExit("pututxline"); 

updwtmpx( PATH WIMP, &ut); /* Append logout record to wtmp */ 

endutxent (); 


exit(EXIT_SUCCESS); 


loginacct/utmpx_login.c 


40.7 lastlog 文 件 


lastlog 文 件 记 录 着 每 个 用 户 最 近 一 次 登录 到 系统 的 时 间 。 CES 
wtmp 文 件 不 同 ，wtmp 文 件 记录 着 所 有 用 户 的 登录 和 登 出 行为 。) login 
程序 通过 lastlog 文 件 能 够 通知 用 户 〈 在 新 登录 会 话 开 始 的 时 候 ) 他们 上 
次 登录 的 时 间 。 提 供 登 录 服 务 的 应 用 程序 除了 要 更 新 utmp 和 wtmp 文 件 
之 外 还 应 该 更 新 lastlog 文 件 。 


与 utmp 和 wtmp 文 件 一 样 ， 不 同系 统 实现 中 lastlog 文 件 的 存放 位 置 和 
阁 式 可 能 会 存在 差异 。 (一 些 UNIX 实 现 关 没 有 提供 这 个 文件 。) 在 
Linux 上， 这 个 文件 位 于 /var/log/lastlog，<paths.h> 文 件 中 定义 的 常量 
_PATH_LASTLOG 指 向 了 这 个 位 置 。 与 utmp 和 wtmp 文 件 一 样 ，lastlog 文 
件 通 常 也 是 受 保护 的 ， 这 样 所 有 用 户 都 能 读 取 这 个 文件 但 只 有 特权 进程 
才能 够 更 新 这 个 文件 。 


lastlog 文 件 中 的 记录 的 格式 如 下 所 示 《 在 <lastlog.h> 中 定义 ) 。 


#define UT_NAMESIZE 32 
#define UT_HOSTSIZE 256 














struct lastlog { 


time 七 11 time; /* Time of last login */ 
char 11 line[UT NAMESIZE]; /* Terminal for remote login */ 
char 11 host[UT HOSTSIZE]; /* Hostname for remote login */ 


by 


注意 这 些 记 录 中 并 没有 包含 用 户 名 或 用 户 ID。lastlog 文 件 中 的 记录 
是 用 用 户 ID 作为 索引 的 ， 因 此 要 找 出 用 户 ID 为 1000 的 lastlog 记 录 束 需要 
到 文件 的 相应 位 置 处 (1000 * sizeof(struct lastlog)) 查找 。 程 序 清 单 40-4 
对 此 进行 了 演示 ， 通 过 这 个 程序 读者 能 够 查看 在 命令 行 中 列 出 的 用 户 的 
lastlog 记 录 ， 其 功能 与 lastlog(1) 命 令 的 功能 类 似 。 下 面 是 运行 这 个 程序 
时 产生 的 输出 。 


$ ./view_lastlog annie paulh 
annie tty2 Mon Jan 17 11:00:12 2011 
paulh — pt s/11 Sat Aug 14 09:22:14 2010 


更 新 lastlog 文 件 时 会 打开 文件 ， 寻 找到 正确 的 位 置 ， 然 后 执行 一 个 
写 入 操作 。 





由 于 lastlog 文 件 是 以 用 户 了 D 为 索引 的 ， 因 此 无 法 区 分 
拥有 同样 的 用 户 ID 的 不 同 用 户 名 的 登录 行为 。 在 8.1 节 中 
层 指出 过 多 个 登录 名 拥有 同样 的 用 户 ID 是 可 能 的 ， 虽然 这 
种 情况 并 个 常见 。) 








程序 清单 40-4: 显示 lastlog 文 件 中 的 信息 





loginacct/view_lastlog.c 


#include <time.h> 
#include <lastlog.h> 


#include <paths.h> /* Definition of _PATH_LASTLOG */ 
#include <fcntl.h> 
#include “ugid functions.h" /* Declaration of userIdFromName() */ 


#include “tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


struct lastlog llog; 
int fd, j; 
uid t uid; 


if (argc > 1 && strcmp(argv[1], "--help") == 0) 
usageErr("%s [username...]\n", argv[0]); 


fd = open(_PATH_LASTLOG, O_RDONLY); 
if (fd == -1) 
errExit("open"); 


for (j = 1; j < argc; j++) { 
uid = userIdFromName(argv[j]); 
if (uid == -1) { 
printf("No such user: %s\n", argv[j]); 
continue; 


} 


if (lseek(fd, uid * sizeof(struct lastlog), SEEK SET) == -1) 
errExit("lseek"); 


if (read(fd, &llog, sizeof(struct lastlog)) <= 0) { 
printf("read failed for %s\n", argv[j]); /* EOF or error */ 
continue; 


} 


printf("%-8.8s %-6.6s %-20.20s %s", argv[j], llog.11_line, 
llog.11_ host, ctime((time t *) &llog.11 time)); 
} 


close(fd); 
exit(EXIT SUCCESS); 


loginacct/view_lastlog.c 


40.8 Ma 


登录 记 账 记录 着 当前 登录 的 用 户 以 及 过 去 登录 过 系统 的 用 户 。 这 类 
信息 维护 在 三 个 文件 中 : utmp 文件 维护 了 所 有 当前 登录 进 系统 的 用 户 
记录 ; wimp 文 作 维护 了 所 有 登录 和 总 出 行为 的 审计 信息 ; lastlog 文件 
记录 着 每 个 用 户 最 近 一 次 登录 系统 的 时 间 。 很 多 命令 ， 如 who 和 ]last， 都 
使 用 了 这 些 文件 中 的 信息 。 


C 库 提供 了 读 取 和 更 新 登录 记 账 文件 中 的 信息 的 函数 。 提 供 登 录 服 
务 的 应 用 程序 应 该 使 用 这 些 丽 数 来 更 新 登录 记 账 文件 ， 这 样 依赖 于 这 些 
信息 的 命令 才能 够 表现 出 正确 的 行为 。 


更 多 信息 
除了 utmp(5) 手 册 之 外 ， 找 到 更 多 有 关 登 录 记 账 函数 的 信息 的 最 有 


用 的 地 方 是 各 种 使 用 这 些 函 数 的 应 用 程序 的 源 代码 。 如 可 以 阅读 
mingetty (或 agetty) 、login、init、telnet、ssh 以 及 ftp 的 源 代码 。 























40.9 ”习题 


40-1. 实现 getlogin0。 在 40.5 节 中 曾 提 到 过 当 进 程 运 行 在 一 些 软件 
终端 模拟 器 下 时 getlogin0 可 能 无 法 正确 工作 ， 在 那 种 情况 下 就 在 虚拟 控 
制 台 中 进行 测试 。 

40-2. 修改 程序 清单 40-3 中 的 程序 Cutmpx_login.c) 使 它 除了 更 新 
utmp 和 wtmp 文 件 之 外 还 更 新 lastlog 文 件 。 

40-3. 阅读 login(3)、logout(3) 以 及 logwtmp(3) 的 手册 。 实 现 这 些 函 
数 。 

40-4. 实现 一 个 简单 的 who(1)。 





HALT FEE E ii 


共有 至 库 是 一 种 将 库 函 数 打包 成 一 个 单元 使 之 能 够 在 运行 时 被 多 个 进 
程 共 至 的 技术 。 这 种 技术 能 够 节省 磁盘 空间 和 RAM。 本 革 将 介绍 共享 
库 的 基础 知识 ， 下 一 章 将 介绍 共享 库 的 儿 个 高 级 特性 。 











41.1 目标 库 


构建 程序 的 一 种 方式 古人 简单 地 将 每 一 个 源 文件 编译 成 目标 文件 ， 然 
后 将 这 些 目标 文件 链接 在 一 起 组 成 一 个 可 执行 程序 ， 如 下 所 示 。 


$ cc -g -c prog.c mod1.c mod2.c mod3.c 
$ cc -g -o prog nolib prog.o mod1.o mod2.0 mod3.0 


链接 实际 上 是 由 一 个 单独 的 链接 器 程序 1d 来 完成 的 。 
当 使 用 cc 或 gcc) 命令 链接 一 个 程序 时 ， 编 译 器 会 在 幕后 
调用 1d。 在 Linux 上 应 该 总 是 通过 gcc 间 接地 调用 链接 器 ， 
为 gcc 能 够 确保 使 用 正确 的 选项 来 调用 ld 并 将 程序 与 正确 的 
库 文件 链接 起 来 。 


在 很 多 情况 下 ， 源 代码 文件 也 可 以 被 多 个 程序 共 孚 。 因 此 要 降低 工 
作 量 的 第 一 步 束 是 将 这 些 源 代码 文件 只 编译 一 次 ， 然 后 在 需要 的 时 候 将 
它们 链接 进 不 同 的 可 执行 文件 中 。 虽 然 这 项 技术 能 够 节省 编译 时 间 ， 但 
其 缺点 是 在 链接 的 时 候 仍 然 需要 为 所 有 目标 文件 命名 。 此 外 ， 大 量 的 目 
标 文件 会 散落 在 系统 上 的 各 个 目录 中 ， 从 而 造成 目录 中 内 容 的 混乱 。 


为 解决 这 个 问题 ， 可 以 将 一 组 目标 文件 组 织 成 一 个 被 称 为 对 象 库 的 
单元 。 对 象 库 分 为 两 种 ， 静 态 的 和 共享 的 。 共 享 库 是 一 种 更 加 现代 化 的 
对 象 库 ， 它 比 吏 态 库 更 具 优势 ，41.3 节 将 会 对 此 予以 介绍 。 


题 外 话 : 在 编译 程序 时 包含 调试 如 信息 


在 上 面 的 cc 命令 中 使 用 了 -g 选 项 以 在 编译 过 的 程序 中 包含 调试 信 
上 县。 一 般 来 讲 ， 创 建 允许 调试 的 程序 和 库 是 一 种 比较 好 的 做 法 。〈 在 早 
期 ， 有 时 候 会 忽略 调试 信息 ， 这 样 产生 的 可 执行 文件 会 占用 更 少 的 磁盘 
和 RAM， 但 现在 磁盘 和 RAM 己 经 非常 便宜 了 。) 











此 外 ， 在 一 些 架 构 上 ， 如 x86-32， 不 应 该 指定 -fomit-frame-pointer 
选项 ， 因 为 这 会 使 得 无 法 调试 。【〔 在 一 些 架 构 上 ， 如 x86-64， 这 个 选项 
是 默认 局 用 的 ， 因 为 它 不 会 防止 调试 。) 出 于 同样 的 原因 ， 可 执行 文件 
和 库 不 应 该 使 用 strip(1) 删 除 调试 信息 。 





41.2 HATE 


在 开始 讨论 共享 库 之 前 首先 对 静态 库 作 一 个 简短 的 介绍 ， 这 样 读者 
就 能 够 弄 清 楚 共 孚 库 与 静态 库 之 间 的 差别 以 及 共 孕 库 所 具备 的 优势 了 。 


静态 库 也 被 称 为 归档 文件 ， 它 是 UNIX 系 统 提 供 的 第 一 种 库 。 静 态 
库 能 带 来 下 列 好 处 。 


o 可 以 将 一 组 经 党 被 用 到 的 目标 文件 组 织 进 单个 库 文件 ， 这 样 束 可 以 
使 用 它 来 构建 多 个 可 执行 程序 并 且 在 构建 各 个 应 用 程序 的 时 候 无 需 
重新 编译 原来 的 源 代 码 文件 。 

o 链接 命令 变 得 更 加 简单 了 。 在 链接 命令 行 中 只 需要 指定 静态 库 的 名 
称 即 可 ， 而 无 需 一 个 个 地 列 出 目标 文件 了 了。 链接 需 知 道 如 何 搜索 毅 
态 库 并 将 可 执行 程序 需要 的 对 象 抽取 出 来 。 


创建 和 维护 静态 库 


从 结果 上 来 看 ， 静 态 库 实 际 上 就 是 一 个 保存 所 有 被 添加 到 其 中 的 目 
标 文 件 的 副本 的 文件 。 这 个 归档 文件 还 记录 着 每 个 目标 文件 的 各 种 特 
性 ， 包 括 文件 权限 、 数 字 用 户 和 组 ID 以 及 最 后 修改 时 间 。 根 据 惯 例 ， 静 
态 库 的 名 称 的 形式 为 libname.a。 


使 用 ar(1) 命 令 能 够 创建 和 维护 静态 库 ， 其 通用 形式 如 下 所 示 。 


$ ax options archive object-file... 


options 参 数 由 一 系列 的 字母 构成 ， 其 中 一 个 是 操作 代码 ， 其 他 是 能 
够 影响 操作 的 执行 的 修饰 符 。 下 面 是 一 些 常 用 的 操作 代码 。 


er CBR): 将 一 个 目标 文件 插入 到 归档 文件 中 并 取代 同名 的 目标 
文件 。 这 个 创建 和 更 新 归档 文件 的 标准 方法 ， 使 用 下 面 的 命令 可 以 
构建 一 个 归档 文件 。 
$ cc -g -c modi.c mod2.c mod3.c 
$ ar r libdemo.a modi.o mod2.0 mod3.0 
$ rm mod1.0 mod2.0 mod3.0 


从 上 面 可 以 看 出 ， 在 构建 完 库 之 后 可 以 根据 需要 删除 原始 的 目标 文 
件 ， 因 为 已 经 不 再 需要 它们 了 。 















































et (ARR): 显示 归档 中 的 目录 表 。 在 默认 情况 下 只 会 列 出 归档 
文件 中 目标 文件 的 名 称 。 添 加 v (verbose) 修饰 符 之 后 可 以 看 到 记 
录 在 归档 文件 中 的 各 个 目标 文件 的 其 他 所 有 特性 ， 如 下 面 的 例子 所 


Zo 

$ ar tv libdemo.a 

Tw-T--T-- 1000/100 1001016 Nov 15 12:26 2009 mod1.0 
Tw-T--T-- 1000/100 406668 Nov 15 12:21 2009 mod2.0 
rw-r--r-- 1000/100 46672 Nov 15 12:21 2009 mod3.o 


从 左 至 右 每 个 目标 文件 的 特性 为 被 添加 到 归档 文件 中 时 的 权限 、 用 
户 ID 和 组 ID、 大 小 以 及 上 次 修改 的 日 志和 时 间 。 


e d《〈 删 除 ) : 从 归档 文件 中 删除 一 个 模 卖 ， 如 下 面 的 例子 所 示 。 


$ ar d libdemo.a mod3.0 
使 用 静态 库 

将 程序 与 静态 库 链 接 起 来 存在 两 种 方式 。 第 一 种 是 在 链接 命令 中 指 
定 静 态 库 的 名 称 ， 如 下 所 示 。 


$ cc -g -c prog.c 
$ cc -g -0 prog prog.o libdemo.a 


或 者 将 静态 库 放 在 链接 器 搜索 的 其 中 一 个 标准 目录 中 
e a a 
an) 。 


$ cc -g -o prog prog.o -ldemo 

如 果 库 不 位 于 链接 器 搜索 的 目录 中 ， 那 么 可 以 只 用 蕊 选项 指定 链接 
顺应 该 搜索 这 个 额外 的 目录 。 
$ cc -g -0 prog prog.o -Lmylibdir -ldemo 

虽然 一 个 静态 库 可 以 包含 很 多 目标 模块 ， 但 链接 器 只 会 包含 那些 程 
序 需 要 的 模块 。 

在 链接 完 程序 之 后 可 以 按照 通常 的 方式 运行 这 个 程序 。 
$ ./prog 


Called mod1-x1 
Called mod2-x2 























41.3 ”共享 库 概 述 


将 程序 与 静态 库 链 接 起 来 时 〈 或 没有 使 用 静态 库 ) ， 得 到 的 可 执行 
文件 会 包含 所 有 被 链接 进程 序 的 目标 文件 的 副本 。 这 样 当 几 个 不 同 的 可 
执行 程序 使 用 了 同样 的 目标 模块 时 ， 每 个 可 执行 程序 会 拥有 上 自己 的 目标 
模块 的 副本 。 这 种 代码 的 元 余 存 在 几 个 缺点 。 


。 存储 同一 个 目标 模块 的 多 个 副本 会 浪费 磁盘 空间 ， 并 且 所 浪费 的 空 
间 是 比较 大 的 。 

如 果 几 个 使 用 了 同一 模块 的 程序 在 同一 时 刻 运行 ， 那 么 每 个 程序 会 
独立 地 在 虚拟 内 存 中 保存 一 份 目标 模块 的 副本 ， 从 而 提高 系统 中 虚 
拟 内 存 的 整体 使 用 量 。 

如 末 需 要 修改 一 个 静态 库 中 的 一 个 目标 模块 《可 能 是 因为 安全 性 或 
需要 修正 bug) ， 那 么 所 有 使 用 那个 模块 的 可 执行 文件 都 必须 要 重 
新 进行 链接 以 合并 这 个 变更 。 这 个 缺点 还 会 导致 系统 管理 员 需 要 弄 
清楚 哪些 应 用 程序 链接 了 这 个 库 。 


共有 至 库 就 是 设计 用 来 解决 这 些 缺 点 的 。 共 至 库 的 关键 思想 是 目标 模 
块 的 单个 副本 由 所 有 需要 这 些 模块 的 程序 共享 。 目 标 模块 不 会 被 复制 到 
链接 过 的 可 执行 文件 中 ， 相 反 ， 当 第 一 个 需要 共 胖 库 中 的 模块 的 程序 局 
动 时 ， 库 的 单个 副本 就 会 在 运行 时 被 加 载 进 内 存 。 当 后 面 使 用 同一 共 孚 
库 的 其 他 程序 启动 时 ， 它 们 会 使 用 已 经 被 加 载 进 内 存 的 库 的 副本 。 使 用 
ne rye ee reat ean ee 

D J 






































里 然 共 至 库 的 代码 是 由 多 个 进程 共 译 的 ， 但 其 中 的 变 
量 却 不 是 的 。 每 个 使 用 库 的 进程 会 拥有 目 己 的 在 库 中 定义 
的 全 局 和 静态 变量 的 副本 。 





共有 至 库 还 具备 下 列 优势 。 








由 于 整个 程序 的 大 小 变 得 更 小 了 ， 因 此 在 一 些 情 况 下 ， 程 序 可 以 完 
全 被 加 载 进 内 存 中 ， 从 而 能 够 更 快 地 局 动 程序 。 这 一 点 只 有 在 大 型 
共有 至 库 正在 被 其 他 程序 使 用 的 情况 下 才 成 立 。 第 一 个 加 载 共 至 库 的 
程序 实际 上 在 启动 时 会 花费 更 长 的 时 间 ， 因 为 必须 要 先 找 到 共 吾 库 
并 将 其 加 载 到 内 存 中 。 

由 于 目标 模块 没有 被 复制 进 可 执行 文件 中 ， 而 古 在 共享 库 中 集中 维 
护 的 ， 因 此 在 修改 目标 模块 时 需 遵 循 41.8 节 中 介绍 的 限制 ) 无 需 
重新 链接 程序 就 能 够 看 到 变更 ， 甚 至 在 运行 着 的 程序 正在 使 用 共享 
库 的 现 有 版 本 的 时 候 也 能 够 进行 这 样 的 变更 。 


这 项 新 增 功 能 的 主要 开销 如 下 所 述 。 


在 概念 上 以 及 创建 共享 库 和 构建 使 用 共享 库 的 程序 的 实践 上 ， 共 享 
库 比 静态 库 更 复杂 。 

共享 库 在 编译 时 必须 要 使 用 位 置 独立 的 代码 〈 在 41.4.2 节 中 子 以 介 
绍 ) ， 这 在 大 多 数 架 构 上 都 会 市 来 性 能 开销 ， 因 为 它 需 要 使 用 额外 
的 一 个 寄存 器 〈[Hubicka, 2003]) 。 

在 运行 时 必须 要 执行 符号 重 定位 。 在 符号 重 定 位 期 间 ， 需 要 将 对 共 
享 库 中 每 个 符号 〈 变 量 或 函数 ) 的 引用 修改 成 符号 在 虚拟 内 存 中 的 
实际 运行 时 位 置 。 由 于 存在 这 个 重 定位 的 过 程 ， 与 静态 链接 程序 相 
人 
过 程 。 






































共享 库 的 另 一 种 用 法 是 作为 Java Nativelnterface (JND 中 
的 一 个 构建 块 ， 它 允许 Java 代 码 通过 调用 共享 库 中 的 C 函 数 
直接 访问 底层 操作 系统 的 特性 ， 更 多 信息 可 参考 [Liang， 
1999] 和 [Rochkind, 2004]. 





41.4 创建 和 使 用 共享 库 一 首 回 合 


为 了 理解 共享 库 的 操作 方式 ， 下 面 开 始 介绍 构建 和 使 用 一 个 共 主 库 
所 需 完成 的 最 少 步骤 ， 在 介绍 的 过 程 中 会 急 略 平时 使 用 的 共 至 库 文件 命 
名 规范 。 遵 循 第 41.6 节 中 介绍 的 惯例 允许 程序 上 自动 加 载 它们 所 需 的 共 孕 
库 的 最 新 版 本 ， 同 时 也 允许 一 个 库 的 多 个 相互 不 兼容 的 版 本 《所 谓 的 主 
版 本 ) 和 谐 地 共存 。 


在 本 章 中 ， 我 们 只 关心 Executable and Linking Format (ELF) 共享 
库 ， 因 为 现代 版 本 的 Linux 以 及 很 多 其 他 UNIX 实 现 的 可 执行 文件 和 共 孚 
库 都 采用 了 ELF 格 式 。 


ELF 取 代 了 较 早 以 前 的 a.out 和 COFF 格 式 。 


41.4.1 创建 一 个 共享 库 
为 构建 之 前 创建 的 静态 库 的 共享 版 本 ， 需 要 执行 下 面 的 步骤 。 


$ gcc -g -c -fPIC -Wall mod1.c mod2.c mod3.c 
$ gcc -g -shared -o libfoo.so mod1.o mod2.0 mod3.0 


第 一 个 命令 创建 了 三 个 将 要 被 放 到 库 中 的 目标 模块 。( 下 一 市 将 对 


cc -fPIC 选项 进行 解释 。) cc -shared 命 令 创 建 了 一 个 包含 这 三 个 目标 模 
块 的 共享 库 。 


根据 惯例 ， 共 享 库 的 前 级 为 lib， 后 级 为 .so 表示 shared object) 。 
在 上 面 的 例子 中 使 用 了 gcc 命 令 ， 而 并 没有 使 用 与 之 等 价 的 cc 命 


这 是 为 了 突出 用 来 创建 共 圣 库 的 命令 行 选项 是 依赖 于 编译 占 的 ， 在 
一 个 UNIX 实 现 上 使 用 一 个 不 同 的 C 编 译 器 可 能 会 需要 使 用 不 同 的 选 
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注意 可 以 将 编译 源 代 码 文件 和 创建 共享 库 放 在 一 个 命令 中 执行 。 


$ gcc -g -fPIC -Wall mod1.c mod2.c mod3.c -shared -o libfoo.so 


这 里 为 了 清楚 区 分 编译 和 构建 库 两 个 步骤， 所 以 在 本 章 给 出 的 例子 
中 使 用 了 两 个 独立 的 命令 。 


与 静态 库 不 同 ， 可 以 同 之 前 构建 的 共享 库 中 添加 单个 目标 模块 ， 也 
可 以 从 中 删除 日 个 目标 模块 。 与 普通 的 可 执行 文件 一 样 ， 共 至 库 中 的 目 
标 文 件 不 再 维护 不 同 的 里 份 。 


41.4.2 ”位置 独立 的 代码 


cc-fPIC 选 项 指定 编译 占 应 该 生成 位 置 独 立 的 代码 ， 这 会 改变 编译 如 
生成 执行 特定 操作 的 代码 的 方式 ， 包 括 访 问 全 局 、 静 态 和 外 部 变量 ， 访 
问 字 符 串 常量 ， 以 及 获取 函数 的 地 址 。 这 些 变 更 使 得 代码 可 以 在 运行 时 
被 放置 在 任意 一 个 虚拟 地 址 处 。 这 一 点 对 于 共 至 库 来 讲 是 必需 的 ， 因 为 
在 链接 的 时 候 是 无 法 知道 共享 库 代 码 位 于 内 存 的 何 处 的 。 (一 个 共享 库 
在 运行 时 所 处 的 内 存 位 置 依赖 于 很 多 因素 ， 如 加 载 这 个 库 的 程序 已 经 占 
用 的 内 存 数量 和 这 个 程序 已 经 加 载 的 其 他 共享 库 。) 


在 Linux/x86-32 上， 可 以 使 用 不 加 -fPIC 选项 编译 的 模块 来 创建 共享 
库 。 但 这 样 做 的 话 会 丢失 共享 库 的 一 些 优点 ， 因 为 包含 依赖 于 位 置 的 内 
存 引 用 的 程序 文本 页 面 不 会 在 进程 间 共 享 。 在 一 些 架 构 上 是 无 法 在 不 
加 -fPIC 选项 的 情况 下 构建 共享 库 的 。 


为 了 确定 一 个 既 有 目标 文件 在 编译 时 是 否 使 用 了 -fPIC 选 项 ， 可 以 
使 用 下 面 两 个 命令 中 的 一 个 来 检查 目标 文件 符号 表 中 是 否 存在 名 称 
_GLOBAL_OFFSET_TABLE_. 






































$ nm modi.o | grep _GLOBAL_OFFSET_TABLE_ 
$ readelf -s modi.o | grep _GLOBAL_OFFSET_TABLE_ 


相应 地 ， 如 果 下 面 两 个 相互 等 价 的 命令 中 的 任意 一 个 产生 了 任何 输 
e a 0 a 
fPIC 选项 。 


$ objdump --all-headers libfoo.so | grep TEXTREL 
$ readelf -d libfoo.so | grep TEXTREL 


字符 串 TEXTREL 表 示 存 在 一 个 目标 模块 ， 其 文本 段 中 包含 需要 运 
行 时 重 定位 的 引用 。 


在 41.5 节 中 将 会 介绍 更 多 有 关 nm、readelf 以 及 objdump 命 令 的 信 





4D o 


41.4.3 ”使 用 一 个 共享 库 


为 了 使 用 一 个 共享 库 就 需要 做 两 件 事情 ， 而 使 用 静态 库 的 程序 则 无 
需 完 成 这 两 件 事情 。 


。 由 于 可 执行 文件 不 再 包含 它 所 需 的 目标 文件 的 副本 ， 因 此 它 必 须要 
通过 东 种 机 制 找 出 在 运行 时 所 需 的 共享 库 。 这 是 通过 在 链接 阶段 将 
共 吝 库 的 名 称 谍 入 可 执行 文件 中 来 完成 的 。《〈 在 ELF 中 ， 库 依赖 性 
是 记录 在 可 执行 文件 的 DT_NEEDED 标 签 中 的 。) 一 个 程序 所 依赖 
的 所 有 共 至 库 列表 被 称 为 程序 的 动态 依赖 列表 。 

在 运行 时 必须 要 存在 茶 种 机 制 来 解析 内 入 的 库 名 一 一 即 找 出 与 在 可 
执行 文件 中 指定 的 名 称 对 应 的 共 至 库 文件 一 一 接 看 如 末 库 不 在 内 存 
中 的 话 束 将 库 加 载 进 内 存 。 


将 程序 与 共 至 库 链接 起 来 时 自动 会 将 库 的 名 字 授 入 可 执行 文件 中 。 


$ gcc -g -Wall -o prog prog.c libfoo.so 
URINE IS TIA TREY, ABA SE PM FES o 


$ ./prog 
./prog: error in loading shared libraries: libfoo.so: cannot 
open shared object file: No such file or directory 


解决 这 个 问题 就 需要 做 第 二 件 事 情 : 动态 链接 ， 即 在 运行 时 解析 内 
舱 的 库 名 。 这 个 任务 是 由 动态 链接 器 (也 和 为 动态 链接 加 载 划 或 运行 时 
链接 器 〉 来 完成 的 。 动 态 链 接 器 本 里 也 是 一 个 共享 库 ， 其 名 称 为 /lib/ld- 
linux.so.2， 所 有 使 用 共 < 享 库 的 ELE 可 执行 文件 都 会 用 到 这 个 共 k 享 库 。 












































路 径 名 /lib/ld-linux.so.2 通 常 是 一 个 指 辣 动 态 链 接 絮 可 执 
行文 件 的 符号 链接 。 这 个 文件 的 名 称 为 1d-version.so， 其 中 
version 表 示 安 装 在 系统 上 的 glibc 的 版 本 一 一 如 1d-2.11.so。 

在 一 些 架 构 上 ， 动 态 链 接 器 的 路 径 名 是 不 同 的 。 如 在 IA-64 





上 ， 动 态 链接 絮 符 写 链 接 的 名 称 为 ib/ld-linux-ia64.s0.2。 


动态 链接 器 会 检查 程序 所 需 的 共享 库 清单 并 使 用 一 组 预先 定义 好 的 
规则 来 在 文件 系统 上 找 出 相关 的 库 文件 。 其 中 一 些 规则 指定 了 一 组 存放 
共享 库 的 标准 目录 。 如 很 多 共享 库 位 于 /lib 和 /asrlib 中 。 之 所 以 出 现 上 面 
的 错误 消息 是 因为 程序 所 需 的 库 位 于 当前 工作 目录 中 ， 而 不 位 于 动态 链 
接 器 搜索 的 标准 目录 清单 中 。 


























一 些 架构 〈 如 zSeries、PowerPC64 以 及 x86-64) 同时 支 
持 执行 32 位 和 64 位 的 程序 。 在 此 类 系统 上 ，32 位 的 库 位 于 
*#/lib 子 目录 中 ，64 位 的 库 位 于 lib64 子 目录 中 。 


LD_LIBRARY _ PATH 环境 变量 


通知 动态 链接 器 一 个 共享 库 位 于 一 个 非 标 准 目录 中 的 一 种 方法 是 将 
该 目录 添加 到 LD_LIBRARY_PATH 环 境 变量 中 以 分 号 分 隔 的 目录 列表 
中 。《 也 可 以 使 用 分 号 来 分 隔 ， 在 使 用 分 号 时 必须 将 列表 放 在 引号 中 以 
防止 shell 将 分 号 解释 了 其 他 用 途 。)〉 如 果 定 义 了 
LD_LIBRARY_PATH， 那 么 动态 链接 器 在 查找 标准 库 目 录 之 前 会 先 查 
找 该 环境 变量 列 出 的 目录 中 的 共享 库 。《〈 稍 后 会 介绍 一 个 生产 应 用 程序 
永远 都 不 应 该 依赖 于 LD_ LIBRARY_ PATH， 但 此 刻 通 过 这 个 变量 可 以 
方便 地 开始 使 用 共享 库 了 。) 因此 可 以 使 用 下 面 的 命令 来 运行 程序 。 


$ LD LIBRARY PATH=. ./prog 
Called mod1-x1 
Called mod2-x2 


上 面 的 命令 中 使 用 的 shell (bash、Korn 以 及 Bourne) 语法 在 执行 
prog 的 进程 中 创建 了 一 个 环境 变量 定义 。 这 个 定义 告诉 动态 链接 器 在 .， 
即 当 前 工作 目录 中 搜索 共享 库 。 




















在 LD_LIBRARY_PATH 人 列表 中 的 空 目录 (如 dirx::diry 
中 间 的 空 目录 ) 等 价 于 .， 即 当前 工作 目录 (但 注意 将 
LD_LIBRARY_PATH 的 值 设置 为 空 字 符 串 并 不 能 达到 同样 
效果 ) 。 需 要 避免 这 种 用 法 〈SUSv3 同 样 不 建议 在 PATH 环 
境 变 量 中 使 用 这 种 方式 ) 。 











静态 链接 和 动态 链接 比较 


通常 ， 术 语 链接 用 来 表示 使 用 链接 器 1d 将 一 个 或 多 个 编译 过 的 目标 
文件 组 合成 一 个 可 执行 文件 。 有 时 候 会 使 用 术语 静态 链接 从 动态 链接 中 
将 在 运行 时 加 载 可 执行 文件 所 需 的 共享 库 这 一 步骤 给 区 分 出 来 。 《静态 
链接 有 时 候 也 被 称 为 链接 编辑 ， eon a 
接 编 辑 器 。) 每 个 程序 
n e 在 运行 时 ， 使 用 共 经 历 额外 的 动态 链 
ZEST EX o 














41.4.4 共享 库 soname 


到 目 前 为 止 介绍 的 所 有 例子 中 ， 和 能 入 到 可 执行 文件 以 及 动态 链接 名 
在 运行 时 搜索 的 名 称 是 共享 | 库 文件 的 实际 名 称 ， 这 被 称 为 库 的 真实 名 称 
(realname) 。 但 可 以 实际 上 经 党 别名 来 创建 共享 
库 ， 这 种 别名 称 为 Soname (ELF 中 的 DT_SONAME 标 签 )。 


如 果 共 享 库 拥有 一 个 soname， 那 么 在 静态 链接 阶段 会 将 soname 同 入 
到 可 执行 文件 中 ， 而 不 会 使 用 真实 名 称 ， 同 时 后 面 的 动态 链接 器 在 运行 
时 也 会 使 用 这 个 soname 来 搜索 库 。 引 入 soname 的 目的 是 为 了 提供 一 层 间 
接 ， 可 a 与 链接 时 使 用 的 库 不 同 的 (但 兼 
容 的 ) 共享 


在 41.6 节 中 将 会 介绍 共享 库 的 真实 名 称 和 soname 的 命名 规则 。 下 面 
通过 一 个 简化 的 例子 来 说 明 这 些 原 则 。 


使 用 soname 的 第 一 步 是 在 创建 共享 库 时 指定 soname。 






































$ gcc -g -c -fPIC -Wall modi.c mod2.c mod3.c 
$ gcc -g -shared -W1l,-soname,libbar.so -o libfoo.so mod1.0 mod2.0 mod3.0 


—W1, -soname LI X libbar.sowt LE (E25 FE RS IF O DAG E Fe 
libfoo.so 的 soname 设 置 为 libbar.so。 


如 果 要 确定 一 个 既 有 共享 库 的 soname， 那 么 可 以 使 用 下 面 两 个 命令 
中 的 任意 一 个 。 


$ objdump -p libfoo.so | grep SONAME 


SONAME libbar.so 
$ readelf -d libfoo.so | grep SONAME 
0x0000000e (SONAME) Library soname: [libbar.so] 


在 使 用 soname 创 建 了 一 个 共享 库 之 后 束 可 以 照常 创建 可 执行 文件 


[e] 


$ gcc -g -Wall -o prog prog.c libfoo.so 


但 这 次 链接 器 检查 到 库 ]ibfoo.so 包 含 了 soname libbar.so， 于 是 将 这 
个 soname 般 入 到 了 可 执行 文件 中 。 


现在 当 运 行 这 个 程序 时 就 会 看 到 下 面 的 输出 。 


$ LD_LIBRARY PATH=. ./prog 
prog: error in loading shared libraries: libbar.so: cannot open 
shared object file: No such file or directory 


这 里 的 问题 是 动态 链接 器 无 法 找到 名 为 libbar.so 共 享 库 。 当 使 用 
soname 时 还 需要 做 一 件 事情 : 必须 要 创建 一 个 符号 链接 将 soname 指 问 库 
的 真实 名 称 ， 并 且 必 须要 将 这 个 符 写 链接 放 在 动态 链接 器 搜索 的 其 中 一 
个 目录 中 。 因 此 可 以 像 下 面 这 样 运行 这 个 程序 。 


$ ln -s libfoo.so libbar.so Create soname symbolic link in current directory 
$ LD LIBRARY PATH=. ./prog 

Called mod1-x1 

Called mod2-x2 


图 41-1 给 出 了 在 使 用 一 个 内 瞬 的 soname， 将 程序 与 共享 库 链 接 起 
和 
项 。 











-g -c \ (2) $ gcc -shared -o libfoo.so \ 
-fPIC -Wall \ -Wl,-soname, libbar.so \ 
modi.c mod2.c mod3.c mod1.0 mod2.0 mod3 .0 









libfoo.so 
ELF 3% 
( 其 他 信息 ) 
modl.o 代码 soname=libbar.so 
( 其 他 信息 ) 
modl.o 代码 


mod2.o 代码 


mod3.o 代码 mod3.o 代码 










mod2.o 代码 












$ gcc -o prog \ 
prog.c libfoo.so 


(4) $ In -s libfoo.so \ 


libbar.so 


seme i i á q 


prog libbar.so 
程序 头 “libfoo.so” 
共享 目标 依赖 : 
/lib/d-linux.so.2 y 
libbar.so 一 





prog.o 代码 

















图 41-1: 创建 一 个 共享 库 并 将 一 个 程序 与 该 共享 库 链接 起 来 


了 当 图 41-1 中 创建 的 程序 被 加 载 进 内 存 以 备 执行 时 发 生 


















libfoo.so z libbar.so 
头 指向 libfoo.so 的 
共享 目标 依赖 : 符号 链接 
ee /lib/ld-linux.so.2 4 
modl.o 代码 libbar.so © 在 an 位 置 找 
mod2.o 代码 H 到 libbar.so 
mod3.o 代码 
E | ! 
I 1 t 文件 系统 
| 进程 虚拟 内 存 
1 $ LD_LIBRARY_PATH=. ./prog | | 
l 进程 创建 ; SOAS AMAL AT 1 | 
| (1d-linux.so) 和 | I 
| ”Prog 载 入 到 内 存 口中 i I 
l t ! 
\ j 
ý 程序 头 
\ 共享 目标 依赖 : 
/lib/ld-linux.so.2 
\ libbar.so 


ERE eas a apes ae. | 
\ 
@ prog.o 代码 | 
\ | 
` / 
libfoo.so ` 7 @) 
N 


内 存 中 rr 共享 目标 依赖 
I 








图 41-2: 加 载 共 享 库 的 程序 的 执行 


要 找 出 一 个 进程 当前 使 用 的 共享 库 则 可 以 列 出 相应 的 
Linux 特 有 的 /proc/PID/maps 文 件 中 的 内 容 〈 参 见 48.5 节 )。 








41.5 (AES RNA ALE 


本 节 将 简要 介绍 对 分 析 共 享 库 、 可 执行 文件 以 及 编译 过 的 目标 文件 
Co) 有 用 的 一 组 工具 。 


1dd 命 令 


1dd(1)( 列 出 动态 依赖 ) 命令 显示 了 一 个 程序 运行 所 需 的 共享 库 ， 
如 下 所 示 。 


$ ldd prog 
libdemo.so.1 => /usr/lib/libdemo.so.1 (0x40019000) 
libc.so.6 => /lib/tls/libc.so.6 (0x4017b000) 
/lib/1d-linux.so.2 => /lib/1d-linux.so.2 (0x40000000) 


ldd 命 令 会 解析 出 每 个 库 引 用 (使 用 的 搜索 方式 与 动态 链接 器 一 
样 ) 并 以 下 面 的 形式 显示 结果 。 

















library-name => resolves-to-path 





对 于 大 多 数 ELF 可 执行 文件 来 讲 ，1dd 至 少 会 列 出 与 ]d-linux.so.2、 动 
态 链接 器 以 及 标准 C 库 libc.so.6 相 关 的 条 目 。 





在 一 些 架构 上 ，C 库 的 名 称 是 不 同 的 。 如 在 IA-64 和 
Alpha 上 ， 这 个 库 的 名 称 是 libc.so.6.1。 


objdump 和 readelf 命 令 


objdump 命 令 能 够 用 来 获取 各 类 信息 包括 反 汇 编 的 二 进 制 机 器 
码 从 一 个 可 执行 文件 、 编 译 过 的 目标 以 及 共享 库 中 。 它 还 能 够 用 来 
显示 这 些 文件 中 各 个 ELF 节 的 头 部 信息 ， 当 这 样 使 用 objdump 时 它 就 类 
似 于 readelf，readelf 能 显示 类 似 的 信息 ， 但 显示 格式 不 同 。 本 章 结尾 处 
将 会 列 出 更 多 有 关 objdump 和 readelf 的 信息 源 。 

















nm 命令 








nm 命令 会 列 出 目标 库 或 可 执行 程序 中 定义 的 一 组 符号 。 这 个 命令 
的 一 种 用 途 是 找 出 哪些 库 定义 了 一 个 符号 。 如 要 找 出 哪个 库 定 义 了 
crypt0 函 数 则 可 以 像 下 面 这 样 做 。 


$ nm -A /usr/lib/lib*.so 2> /dev/null | grep ' crypt$' 
/usr/lib/libcrypt.so:00007080 W crypt 


nm 的 -A 选项 指定 了 在 显示 符 写 的 每 一 行 的 开头 处 应 该 列 出 库 的 名 
称 。 这 样 做 是 有 必要 的 ， 因 为 在 默认 情况 下 ，nm 只 列 出 库 名 一 次 ， 然 
后 在 后 面 会 列 出 库 中 包含 的 所 有 符号 ， 这 对 于 像 上 面 那样 进行 某 种 过 滤 
的 例子 来 讲 是 没有 用 处 的 。 此 外 ， 这 里 还 丢弃 了 标准 错误 输出 以 便 隐藏 
与 nm 命令 无 法 识别 文件 格式 有 关 的 错误 消息 。 从 上 面 的 输出 中 可 以 看 
出 ，cryptO 被 定义 在 了 libcrypt 库 中 。 











41.6 ”共有 至 库 版 本 和 命名 规则 


下 面 考虑 在 共 \ 圣 库 的 版 本 化 过 程 中 需要 做 的 事情 。 一 般 来 讲 ， 一 个 
共有 至 库 相 互 连 续 的 两 个 版 本 是 相互 羔 容 的 ， 这 意味 看 每 个 模块 中 的 函数 
对 外 呈现 出 来 的 调用 接口 是 一 致 的 ， 并 且 函 数 的 语义 是 等 价 的 〈 即 它们 
能 取得 同样 的 结果 〉，。 这 种 版 本 与 不 同 但 相互 羔 容 的 版 本 被 称 为 共 至 库 
的 次 要 版 本 。 但 有 时 候 需 要 创建 创建 一 个 库 的 新 主 版 本 一 一 即 与 上 一 个 
版 本 不 莱 容 的 版 本 。〔 在 41.8 节 中 将 会 更 加 明确 地 看 到 哪些 方面 会 引起 
不 兼容 性 。) 同时 ， 必 须要 确 保 使 用 老 版 本 的 库 的 程序 仍然 能 够 运行 。 


为 了 满足 这 些 版 本 化 的 要 求 ， 共 享 库 的 真实 名 称 和 soname 必 须要 使 
用 一 种 标准 的 命名 规范 。 


真实 名 称 、soname 以 及 链接 器 名 称 


共有 至 库 的 每 个 不 兼容 版 本 是 通过 一 个 唯一 的 主要 版 本 标识 符 来 区 分 
的 ， 这 个 主要 版 本 标识 符 是 共享 库 的 真实 名 称 的 一 部 分 。 根 据 惯例 ， 主 
要 版 本 标识 符 由 一 个 数字 构成 ， 这 个 数字 随 看 库 的 每 个 不 羔 容 版 本 的 友 
布 而 顺 厅 递增。 除了 主要 版 本 标识 符 之 外 ， 真 实名 称 还 包含 一 个 次 要 版 
本 标识 符 ， 它 用 来 区 分 库 的 主要 版 本 中 兼容 的 次 要 版 本 。 真 实名 称 的 格 


式 规 范 为 libname.so.major-id.minor-id。 


与 主要 版 本 标识 符 一 样 ， 次 要 版 本 标识 符 可 以 是 任意 字符 串 。 但 根 
据 惯 例 ， 它 要么 是 一 个 数字 ， 要 么 是 两 个 由 点 分 隅 的 数字 ， 其 中 第 一 个 
数字 标识 出 了 次 要 版 本 ， 第 二 个 数字 表示 该 次 要 版 本 中 的 补丁 号 或 修订 
写 。 下 面 是 一 些 共 至 库 的 真实 名 称 。 


libdemo.so.1.0.1 

libdemo.so.1.0.2 Minor version, compatible with version 1.0.1 
libdemo.so.2.0.0 New major version, incompatible with version 1.* 
libreadline.so.5.0 


共享 库 的 soname 包 括 相 应 的 真实 名 称 中 的 主要 版 本 标识 符 ， 但 不 包 
含 次 要 版 本 标识 符 。 因 此 soname 的 形式 为 libname.so.major-id。 


通常 ， 会 将 soname 创 建 为 包含 真实 名 称 的 目录 中 的 一 个 相对 符号 链 
接 。 下 面 古 一 坚 soname 的 例子 以 及 它们 可 能 通过 符号 链接 指 由 的 真实 名 
称 。 






































libdemo.so.1 -> libdemo.so.1.0.2 
libdemo.so.2 -> libdemo.so.2.0.0 
libreadline.so.5 -> libreadline.so.5.0 











对 于 共享 库 的 某 个 特定 的 主要 版 本 来 讲 ， 可 能 存在 几 个 库 文 件 ， 这 
些 库 文件 是 通过 不 同 的 次 要 版 本 标识 符 来 区 分 的 。 通 常 ， 每 个 库 的 主要 
版 本 的 soname 会 指 同 在 主要 版 本 中 最 新 的 次 要 版 本 (如 上 面 的 
libdemo.so 例 子 所 示 ) 。 这 种 配置 使 得 在 共享 库 的 运行 时 操作 期 间 版 本 
化 语义 能 够 正确 工作 。 由 于 静态 链接 阶段 会 将 soname 的 副本 〈 独 立 于 次 
要 版 本 ) 磐 入 到 可 执行 文件 中 并 且 soname 符 号 链接 后 面 可 能 会 被 修改 指 
问 一 个 更 新 的 《次 要 ) 版 本 的 共享 库 ， 因 此 可 以 确保 可 执行 文件 在 运行 
时 能 够 加 载 库 的 最 新 的 次 要 版 本 。 此 外 ， 由 于 一 个 库 的 不 同 的 主要 版 本 
的 soname 不 同 ， 因 此 它们 能 够 和 平地 共存 并 且 被 需要 它们 的 程序 访问 。 


除了 真实 名 称 和 soname 之 外 ， 通 常 还 会 为 每 个 共享 库 定义 第 三 个 名 
PK: 链接 器 名 称 ， 将 可 执行 文件 与 共享 库 链 接 起 来 时 会 用 到 这 个 名 称 。 
链接 器 名 称 是 一 个 只 包 舍 库 名 同时 不 包含 主要 或 次 要 版 本 标识 符 的 人 符号 
链接 ， 因 此 其 形式 为 libname.so。 有 了 链接 占 名 称 之 后 束 可 以 构建 能 够 
Se ge ( 即 最 新 版 本 )〉 的 独立 于 版 本 的 链接 命令 

















一 般 来 讲 ， 链 接 器 名 称 与 它 所 引用 的 文件 位 于 同一 个 目录 中 ， 它 既 
可 以 链接 到 真实 名 称 ， 也 可 以 连接 到 库 的 最 新 主要 版 本 的 soname。 通 
常 ， 最 好 使 用 指 癌 soname 的 链接 ， 因 此 对 soname 所 做 的 变更 会 目 动 反应 
到 链接 器 名 称 上。 (在 41.7 节 中 会 看 到 ]dconfig 程 序 将 保持 soname 最 新 的 
a ee 因此 如 果 使 用 了 刚才 介绍 的 规范 的 话 束 是 隐 式 地 维护 链 
去 器 名 称 。) 


如 果 需 要 将 一 个 程序 与 共享 库 的 一 个 较 老 的 主要 版 本 
链接 起 来 ， 就 不 能 使 用 链接 器 名 称 。 相 反 ， 在 链接 命令 中 
需要 通过 制定 具体 的 真实 名 称 或 soname 来 标示 出 所 需要 的 
版 本 《主要 版 本 ) 。 


下 面 是 一 些 链接 器 名 称 的 例子 。 


libdemo.so -> libdeno.so.2 
libreadline.so -> libreadline.so.5 


表 41-1 对 共享 库 的 真实 名 称 、soname 以 及 链接 器 名 称 进行 了 总 结 ， 
图 41-3 摘 绘 了 这 些 名 称 之 间 的 关系 。 





真实 名 称 soname RETZA HBR 


libname.so.maj}.min Y. libname.so. ma} X. libname.so 


(常规 文件 ) 
库 模 块 的 
日 标 代 码 





保存 库 代 码 的 文件 ， 每 个 库 的 major-plus-minor 版 本 都 存 
在 一 个 真实 名 称 


























库 的 每 个 主要 版 本 都 存在 一 个 soname; 在 链接 时 被 嵌入 
soname | libname.so.maj 到 可 执行 文件 中 ; 在 运行 时 用 来 找 出 指向 相应 的 “最 新 
的 ) 真实 名 称 的 同名 符号 链接 所 引用 的 库 


链接 器 | same so 指向 真实 名 称 或 最 新 的 《更 常见 的 做 法 ) soname 的 符号 
名 称 | 链接 ， 只 存在 一 个 实例 ， 人 允许 构建 版 本 独立 的 链接 命令 


使 用 标准 规范 创建 一 个 共 至 库 


根据 上 面 介绍 的 相关 知识 ， 下 面 开始 介绍 如 何 遵 循 标 准 规范 来 构建 
一 个 演示 库 。 弟 先 需 要 创建 目标 文件 。 


$ gcc -g -c -fPIC -Wall modi.c mod2.c mod3.c 
































接着 创建 共享 库 ， 其 真实 名 称 为 libdemo.so.1.0.1，soname 为 
libdemo.so.1。 


$ gcc -g -shared -W1,-soname,libdemo.so.1 -o libdemo.so.1.0.1 \ 
mod1.0 mod2.0 mod3.0 


接着 为 Soname 和 链接 器 名 称 创建 恰当 的 符号 链接 。 


$ In -s libdemo.so.1.0.1 libdemo.so.1 
$ ln -s libdemo.so.1 libdemo.so 


接 独 可 以 使 用 ls 来 验证 配置 “使 用 awk 来 选择 感 兴趣 的 字段 ) 。 


$ 1s -1 libdemo.so* | awk '{print $1, $9, $10, $14}' 
lrwxrwxrwx libdemo.so -> libdemo.so.1 

lrwxrwxrwx libdemo.so.1 -> libdemo.so.1.0.1 
-rwxr-xr-x libdemo.so.1.0.1 


接着 可 以 使 用 链接 器 名 称 来 构建 可 执行 文件 (注意 链接 命令 不 会 用 
到 版 本 号 ) ， 并 照常 运行 这 个 程序 。 


$ gcc -g -Wall -o prog prog.c -L. -ldemo 
$ LD_LIBRARY_PATH=. ./prog 

Called mod1-x1 

Called mod2-x2 





41.7 ”安装 共享 库 


在 本 章 到 目前 为 止 介绍 的 例子 中 都 是 将 共享 库 创 建 在 用 户 私 有 的 目 
录 中 ， 然 后 使 用 LD_ LIBRARY PATH 环境 变量 来 确保 动态 链接 器 会 搜 
到 该 目录 。 特 权 用 户 和 非特 权 用 户 都 可 以 使 用 这 种 技术 ， 但 在 生产 应 用 
程序 中 不 应 该 采用 这 种 技术 。 一 般 来 讲 ， 共 享 库 及 其 关联 的 符号 链接 会 
被 安装 在 其 中 一 个 标准 库 目 录 中 ， 标 准 库 目 录 包 括 : 


/usr/lib， 它 是 大 多 数 标准 库 安装 的 目录 。 

/ib， 应 该 将 系统 启动 时 用 到 的 库 安装 在 这 个 目录 中 (因为 在 系统 
启动 时 可 能 还 没有 挂 载 /usrlib〉。 

/usr/locallib， 应 该 将 非 标准 或 实验 性 的 库 安 装 在 这 个 目录 中 (对 
于 /usr/lib 是 一 个 由 多 个 系统 共享 的 网 络 挂 载 但 需要 只 在 本 机 安装 一 
个 库 的 情况 则 可 以 将 库 放 在 这 个 目录 中 ) 。 

其 中 一 个 在 /etcld.so.conf 〈 稍 后 介绍 ) 中 列 出 的 目录 。 


在 大 多 数 情况 下 ， 将 文件 复制 到 这 些 目录 中 需要 具备 超级 用 户 的 权 
限 。 


安装 完 之 后 就 必须 要 创建 soname 和 链接 絮 名 称 的 符号 链接 了 ， 通 和 沼 
它们 是 作为 相对 符号 链接 与 库 文件 位 于 同一 个 目录 中 。 因 此 要 将 本 章 的 
演示 库 安装 在 /usr/lib〈 只 人 允许 root 进 行 更 新 中 则 可 以 使 用 下 面 的 命 
AB 


~ 























$ su 
Password: 


# mv 1ibdemo.so.1.0.1 /usr/lib 
# cd /usr/lib 


# In -s libdemo.so.1.0.1 libdemo.so.1 
# In -s libdemo.so.1 libdemo.so 


shell 会 话 中 的 最 后 两 行 创建 了 soname 和 链接 器 名 称 的 符号 链接 。 





ldconfig 
ldconfig(8) 解 决 了 共享 库 的 两 个 潜在 问题 。 
。 共享 库 可 以 位 于 各 种 目录 中 ， 如 果 动 态 链 接 器 需要 通过 搜索 所 有 这 





些 目录 来 找 出 一 个 库 并 加 载 这 个 库 ， 那 么 整个 过 程 将 非常 慢 。 
当 安 装 了 新 版 本 的 库 或 者 删除 了 旧版 本 的 库 ， 那 么 soname 符 号 链接 
就 不 是 最 新 的 。 


ldconfig 程 序 通 过 执行 两 个 任务 来 解决 这 些 问 题 。 


1. 它 搜索 一 组 标准 的 目录 并 创建 或 更 新 一 个 绥 存 文 
件 /etc/ld.so.cache 使 之 包含 在 所 有 这 些 目 录 中 的 主要 库 版 本 (每 个 库 的 主 
要 版 本 的 最 新 的 次 要 有 版本) 列表。 动态 链接 器 在 运行 时 解析 库 名 称 时 会 
轮流 使 用 这 个 缓存 文件 。 为 了 构建 这 个 缓存 ，ldconfig 会 搜索 
在 /etcld.so.conf 中 指定 的 目录 ， 然 后 搜索 /lib 和 /usr/lib。/etc/ld.so.conf 文 
件 由 一 个 目录 路 径 名 《应 该 是 绝对 路 径 名 ) 列表 构成 ， 其 中 路 径 名 之 间 
用 换行 、 空 格 、 制 表 符 、 喜 号 或 冒号 分 隔 。 在 一 些 发 行 版 
中 ，/usr/locallib 目 录 也 位 于 这 个 列表 中 。 如 果 不 在 这 个 列表 中 ， 那 么 
就 需要 手工 将 其 添加 到 列表 中 。) 

















命令 ldconfig -p 会 显示 /etc/ld.so.cache 的 当前 内 容 。 





2. 它 检查 每 个 库 的 各 个 主要 版 本 的 最 新 次 要 版 本 〈( 即 具有 最 大 的 
次 要 版 本 号 的 版 本 ) 以 找 出 租 入 的 soname， 然 后 在 同一 目录 中 为 每 个 
soname 创 建 〈 或 更 新 ) 相对 符号 链接 。 


为 了 能 够 正确 执行 这 些 动作 ，ldconfig 要 求 库 的 名 称 要 根据 前 面 介 
绍 的 规范 来 俞 名 《〈 即 库 的 真实 名 称 包 含 主要 和 次 要 标识 符 ， 它 们 随 着 库 
的 版 本 的 更 新 而 恰当 的 增长 〉。 


在 默认 情况 下 ，ldconfig 会 执行 上 面 两 个 动作 ， 但 可 以 使 用 命令 行 
选项 来 指定 它 执行 其 中 一 个 动作 : -N 选 项 会 防止 绥 存 的 重建 ，-X 选 项 会 
阻止 soname 符 号 链接 的 创建 。 此 外 ，-v (verbose) 选 项 会 使 得 ldconfig 输 
出 描述 其 所 执行 的 动作 的 信息 。 


每 当 安装 了 一 个 新 的 库 ， 更 新 或 删除 了 一 个 既 有 库 ， 以 
及 /etc/ld.so.conf 中 的 目录 列表 被 修改 之 后 ， 都 应 该 运行 ldconfig。 

















下 面 是 一 个 使 用 ldconfig 的 例子 。 假 设 需要 安装 一 个 库 的 两 个 不 同 
的 主要 版 本 ， 那 么 需要 做 下 面 的 事情 。 


$ su 

Password: 

# mv libdemo.so.1.0.1 libdemo.so.2.0.0 /usr/lib 

# ldconfig -v | grep libdemo 
libdemo.so.1 -> libdemo.so.1.0.1 (changed) 
libdemo.so.2 -> libdemo.so.2.0.0 (changed) 


上 面 对 ldconfig 的 输出 进行 了 过 滤 ， 这 样 读者 就 只 会 看 到 与 名 为 
libdemo 的 库 相 关 的 信息 了 。 


接着 列 出 在 /usr/lib 目 录 中 名 为 libdemo 的 文件 来 验证 soname 符 号 链接 
的 设置 。 
# cd /usy/lib 
# ls -l libdemo* | awk '{print $1, $$9, $10, $11}' 
lrwxrwxrwx libdemo.so.1 -> libdemo.so.1.0.1 
-rwxr-xr-x libdemo.so.1.0.1 
lrwxrwxrwx libdemo.so.2 -> libdemo.so.2.0.0 
-rwxr-xr-x libdemo.so.2.0.0 


还 需要 为 链接 器 名 称 创建 符 写 链 接 ， 如 下 面 的 命令 所 示 。 
# ln -s libdemo.so.2 libdemo.so 


如 果 安 装 了 库 的 一 个 新 的 2.x 次 要 版 本 ， 那 么 由 于 链接 器 名 称 指 问 
了 最 新 的 soname， 因 此 ldconfig 还 能 取得 保持 链接 器 名 称 最 新 的 效果 ， 
如 下 面 的 例子 所 示 。 


# mv libdemo.so.2.0.1 /usr/lib 

# ldconfig -v | grep libdemo 
libdemo.so.1 -> libdemo.so.1.0.1 
libdemo.so.2 -> libdemo.so.2.0.1 (changed) 


如 果 创 建 和 使 用 的 是 一 个 私有 库 〈 即 没有 安装 在 上 述 标准 目录 中 的 
库 ) ， 那 么 可 以 通过 使 用 -n 选 项 让 ldconfig 创 建 soname 符 号 链接 。 这 个 
选项 指定 了 ldconfig 只 处 理 在 命令 行 中 列 出 的 目录 中 的 库 ， 而 无 需 更 新 
缓存 文件 。 下 面 的 例子 使 用 了 ldconfig 来 处 理 当 前 工作 目录 中 的 库 。 

















$ gcc -g -c -fPIC -Wall mod1.c mod2.c mod3.c 

$ gcc -g -shared -Wl,-soname,libdemo.so.1 -o libdemo.so.1.0.1 \ 
modi.o mod2.0 mod3.0 

$ /sbin/ldconfig -nv . 


libdemo.so.1 -> libdemo.so.1.0.1 
$ ls -1 libdemo.so* | awk ‘{print $1, $9, $10, $11}' 
lrwxrwxrwx libdemo.so.1 -> libdemo.so.1.0.1 
-rwxr-xr-x libdemo.so.1.0.1 


在 上 面 的 例子 中 ， 当 运行 dconfig 时 指定 了 完全 路 径 名 ， 因 为 使 用 
的 是 一 个 非特 权 账 号 ， 其 PATH 环境 变量 不 包含 /sbin 目 录 。 





41.8 FEA SAGA EE 


He — 





随 看 时 间 的 流逝 ， 可 能 需要 修改 共 吝 库 的 代码 。 这 种 修改 会 导致 产 
个 新 版 本 的 库 ， 这 个 新 版 本 可 以 与 之 前 的 版 本 兼容 ， 也 可 能 与 之 前 











的 版 本 不 兼容 。 如 果 是 兼容 的 话 则 意味 大 只 需要 修改 库 的 真实 名 称 的 次 
ne a a me 
主要 版 本 。 


当 满 足下 列 条 件 时 表示 修改 过 的 库 与 既 有 库 版 本 兼容 。 


库 中 所 有 公共 方法 和 变量 的 语义 保持 不 变 。 换 句 话 说 ， 每 个 函数 的 
参数 列表 不 变 并 且 对 全 局 变量 和 返回 参数 产生 的 影响 不 变 ， 同 时 返 
回 同样 的 结果 值 。 因 此 提升 性 能 或 修复 Bug 〈 导 致 更 加 行为 更 加 符 
合 规定 ) 的 变更 可 以 认为 是 兼容 的 变更 。 

没有 删除 库 的 公共 API 中 的 函数 和 变量 ， 但 向 公共 API 中 添加 新 函 
数 和 变量 不 会 影响 兼容 性 。 

在 每 个 函数 中 分 配 的 结构 以 及 每 个 函数 返回 的 结构 保持 不 变 。 类 似 
的 ， 由 库 导 出 的 公共 结构 保持 不 变 。 这 个 规则 的 一 个 例外 情况 是 在 
特定 情况 下 ， 可 能 会 向 既 有 结构 的 结尾 处 添加 新 的 字段 ， 但 当 调 用 
程序 在 分 配 这 个 结构 类 型 的 数组 时 会 产生 问题 。 有 时 候 ， 库 的 设计 
人 员 会 通过 将 导出 结构 的 大 小 定义 为 比 库 的 首 个 发 行 版 所 需 的 大 小 
大 来 解决 这 个 问题 ， 即 增加 一 些 填 充 字段 以 备 将 来 之 需 。 


如 果 所 有 这 些 条 件 都 得 到 了 满足 ， 那 么 在 更 新 新 库 名 时 就 只 需要 调 




















整 妈 有 名 称 中 的 次 要 版 本 号 了 ， 人 否则 就 需要 创建 库 的 一 个 新 主要 版 本 。 


41.9 ”升级 共享 库 


共享 库 的 优点 之 一 是 当 一 个 运行 着 的 程序 正在 使 用 共享 库 的 一 个 既 
有 版 本 时 也 能 够 安装 库 的 新 主要 版 本 或 次 要 版 本 。 在 安装 的 过 程 中 需要 
做 的 事情 包括 创建 新 的 库 版 本 、 将 其 安装 在 恰当 的 目录 中 以 及 根据 需要 
更 新 Soname 和 链接 器 名 称 符 号 链接 〈 或 通常 让 ldconfig 来 完成 这 部 分 工 
VE) 。 如 要 创建 共享 库 msrvliby/libdemo.1.0.1 的 一 个 新 次 要 版 本 ， 那 么 需 


HE 22 





$ su 

Password: 

# gcc -g -c -fPIC -Wall mod1.c mod2.c mod3.c 

# gcc -g -shared -W1,-soname,libdemo.so.1 -o libdemo.so.1.0.2 \ 
mod1.o mod2.0 mod3.0 

# mv libdemo.so.1.0.2 /usr/lib 

# ldconfig -v | grep libdemo 
libdemo.so.1 -> libdemo.so.1.0.2 (changed) 


假设 已 经 正确 地 配置 了 链接 器 名 称 《〈 即 指向 库 的 soname) ， 那 么 就 
无 需 修改 链接 器 名 称 了 。 


己 经 运行 着 的 程序 会 继续 使 用 共 至 库 的 上 一 个 次 要 版 本 ， 只 有 当 它 
们 终止 或 重 局 之 后 才 会 使 用 共享 库 的 新 次 要 版 本 。 


如 条 后 面 需要 创建 共 胖 库 的 一 个 新 主要 版 本 〈2.0.0) ， 那 么 束 需 要 


完成 











# gcc -g -c -fPIC -Wall mod1.c mod2.c mod3.c 

# gcc -g -shared -W1,-soname,libdemo.so.2 -o libdemo.so.2.0.0 \ 
mod1.0 mod2.0 mod3.0 

# mv libdemo.so.2.0.0 /usr/lib 

# ldconfig -v | grep libdemo 
libdemo.so.1 -> libdemo.so.1.0.2 
libdemo.so.2 -> libdemo.so.2.0.0 (changed) 

# cd /usr/lib 

# ln -sf libdemo.so.2 libdemo.so 


从 上 面 的 输出 可 以 看 出 ，ldconfig 自 动 为 新 主要 版 本 创建 了 一 个 
soname 符 号 链接 ， 但 从 最 后 一 条 命令 可 以 看 出 ， 必 须要 手工 更 新 链接 器 
名 称 的 符号 链接 。 


41.10 在 目标 文件 中 指定 库 搜 索 目 录 


到 目前 为 止 本 半 已 经 介绍 了 两 种 通知 动态 链接 器 共享 库 的 位 置 的 方 
式 : 使 用 LD_LIBRARY_PATH 环 境 变量 和 将 共享 库 安 装 到 其 中 一 个 标 
准 库 目 录 中 Clib、Amsrlib 或 在 /etcld.so.conf 中 列 出 的 其 中 一 个 目录 ) o 


还 存在 第 三 种 方式 : 在 静态 编辑 阶段 可 以 在 可 执行 文件 中 插入 一 个 
在 运行 时 搜索 共享 库 的 目录 列表 。 这 种 方式 对 于 库 位 于 一 个 固定 的 但 不 
属于 动态 链接 器 搜索 的 标准 位 置 的 位 置 中 时 是 非常 有 用 的 。 要 实现 这 种 
方式 需要 在 创建 可 执行 文件 时 使 用 -rpath 链 接 絮 选项 。 


$ gcc -g -Wall -W1,-rpath,/home/mtk/pdir -o prog prog.c libdemo.so 


上 面 的 命令 将 字符 串 /home/mtk/pdir 复 制 到 了 可 执行 文件 prog 的 运行 
时 库 路 径 Crpath) 列表 中 ， 因 此 当 运 行 这 个 程序 时 ， 动 态 链 接 圳 在 解析 
共享 库 引 用 时 还 会 搜索 这 个 目录 。 


如 果 有 必要 的 话 ， 可 以 多 次 指定 -rpath 选 项 ; 所 有 这 些 列 出 的 目录 
会 被 连接 成 一 个 放 到 可 执行 文件 中 的 有 序 rpath 列 表 。 或 者 ， 在 一 个 rpath 
选项 中 可 以 指定 多 个 由 分 号 分 割 开 来 的 目录 列表 。 在 运行 时 ， 动 态 链 接 
融会 按照 在 -rpath 选 项 中 指定 的 目录 顺序 来 搜索 目录 。 






































-Ipath 选 项 的 一 个 蔡 代 方案 是 LD_RUN_PATH 环 境 变 

。 可 以 将 一 个 由 分 号 分 隔 开 来 的 目录 的 字符 串 赋 给 该 变 
， 当 构建 可 执行 文件 时 可 以 将 这 个 变量 作为 rpath 列 表 来 
使 用 。 只 有 当 构 建 可 执行 文件 时 不 指定 -rpath 选 项 时 才 会 使 
用 LD_RUN_PATH 变 量 。 


mo 


在 构建 共 孚 库 时 使 用 -rpath 链 接 器 选项 
在 构建 共 诗 库 时 -rpath 选 项 也 是 有 用 的 。 假 设 有 一 个 依赖 于 男 一 个 


共 宇 库 libx2.so 的 共 吾 库 libxl1.s0， 如 图 41-4 所 示 。 另 外 再 假设 这 些 库 分 
别 位 于 非 标准 目录 d1 和 d2 中 。 下 面 介绍 构建 这 些 库 以 及 使 用 它们 的 程序 
所 需 完 成 的 步 又。 


prog d1/libx1.so d2/libx2.so 
(prog.c) (modx1.c) (modx2.c) 


main() { x1() { x2() { 
x1(); x2(); 
} } } 


图 41-4: 依赖 于 另 一 个 共享 库 的 共享 库 


首先 在 pdir/d2 目 录 中 构建 libx2.so。 (为 了 使 这 个 例子 简单 一 点 ， 这 
里 省 略 了 库 的 版 本 号 和 soname。 ) 


$ cd /home/mtk/pdir/d2 
$ gcc -g -c -fPIC -Wall modx2.c 
$ gcc -g -shared -0 libx2.so modx2.0 


接着 在 pdir/d1 目 录 中 构建 libx1.so。 由 于 libx1.so 依 赖 于 libx2.so， 并 
且 libx2.so 位 于 一 个 非 标 准 目 录 中 ， 因 此 在 指定 libx2.so 的 运行 时 位 置 时 
需要 使 用 -rpath 链 接 器 选项 。 这 个 选项 的 取 值 与 库 的 链接 时 位 置 ( 由 -L 
选项 指定 ) 可 以 不 同 ， 尽 管 在 这 个 例子 中 这 两 个 位 置 是 相同 的 。 


$ cd /home/mtk/pdir/d1 

$ gcc -g -c -Wall -fPIC modx1.c 

$ gcc -g -shared -o libx1.so modx1.o -Wl,-rpath,/home/mtk/pdir/d2 \ 
-L/home/mtk/pdir/d2 -1x2 


最 后 在 pdir 目 录 中 构建 主 程序 。 由 于 主 程序 使 用 了 libx1.so 并 且 这 个 
库 位 于 一 个 非 标 准 目 录 中 ， 因 此 还 需要 使 用 -rpath 链 接 器 选项 。 


$ cd /home/mtk/pdir 
$ gcc -g -Wall -o prog prog.c -Wl,-rpath, /home/mtk/pdir/d1 \ 
-L/home/mtk/pdir/d1 -1x1 


注意 在 链接 主 程序 时 无 需 指 定 libx2.so。 由 于 链接 器 能 够 分 析 
libx1.so 中 的 rpath 列 表 ， 因 此 它 能 够 找到 libx2.so， 同 时 在 静态 链接 阶段 
解析 出 所 有 的 符号 。 


使 用 下 面 的 命令 能 够 检查 prog 和 1libxl.so 以 便 查 看 它们 的 rpath 列 表 的 


























By 


内 容 


$ objdump -p prog | grep PATH 


RPATH /home/mtk/pdir/d1 libx1. so will be sought here at run time 
$ objdump -p d1/libx1.so | grep PATH 
RPATH /home/mtk/pdir/d2 libx2. so will be sought here at run time 


还 可 以 通过 查找 readelf - -dynamic (或 等 价 的 readelf — 
d) 命令 的 输出 来 查看 rpath 列 表 。 


使 用 ldd 命 令 能 够 列 出 prog 的 完整 的 动态 依赖 列表 。 


$ 1dd prog 
libx1.so => /home/mtk/pdir/d1/libx1.so (0x40017000) 
libc.so.6 => /lib/tls/libc.so.6 (0x40024000) 
libx2.so => /home/mtk/pdir/d2/libx2.so (0x4014c000) 
/lib/1d-linux.so.2 => /lib/ld-linux.so.2 (0x40000000) 


ELF DT_RPATH#/DT_RUNPATH% H 


fE55 —WRELFRLE HF, KA —PrpathI ll Ze He Ws we te A BAY AT OC 
或 共享 库 中 ， 它 对 应 于 ELF 文 件 中 的 DT_RPATH 标 签 。 后 续 的 ELF 规 范 
舍弃 了 DT_RPATH， 同 时 引入 了 一 种 新 标签 DT_RUNPATH 来 表示 rpath 














列表 。 这 两 种 rpath 列 表 之 间 的 差别 在 于 当 动 态 链接 器 在 运行 时 搜索 共享 
库 时 它们 相对 于 LD_LIBRARY PATH 环境 变量 的 优先 级 : DT_RPATH 


的 优先 级 更 高 ， 而 DT_RUNPATH 的 优先 级 则 更 低 (参见 41.11 节 )。 


在 默认 情况 下 ， 链 接 右 会 将 rpath 列 表 创 建 为 DT_RPATH 标 签 。 为 了 


让 链接 器 将 rpath 列 表 创 建 为 DT_RUNPATH 条 目 必须 要 额外 使 用 -一 





enable_new-dtags( 启 用 新 动态 标签 ) 链 接 器 选项 。 如 果 使 用 这 个 选项 重建 
程序 并 且 使 用 objdump 但 看 获得 的 可 执行 文件 ， 那 么 将 会 看 到 下 面 这 样 


的 输出 。 


$ gcc -g -Wall -o prog prog.c -W1,--enable-new-dtags \ 
-W1,-rpath, /home/mtk/pdir/d1 -L/home/mtk/pdir/d1 -1x1 
$ objdump -p prog | grep PATH 
RPATH /home/mtk/pdir/d1 
RUNPATH /home/mtk/pdir/d1 


从 上 面 可 以 看 出 ， 可 执行 文件 包含 了 JDT_RPATH 和 DT_RUNPATH 
标签 。 链 接 器 采用 这 种 方式 复写 了 rpath 列 表 是 为 了 让 不 理解 
DT_RUNPATH 标 签 的 老式 动态 链接 侨 能 够 正常 工作 。 Cglibe 2.2 增 加 了 
对 DT_RUNPATH 的 支持 ) 。 理 解 DT_ RUNPATH 标 签 的 链接 器 会 忽略 
DT_RPATH 标 签 〈 人 参见 41.11 节 ) 。 


在 rpath 中 使 用 $ORIGIN 


假设 需要 发 布 一 个 应 用 程序 ， 这 个 应 用 程序 使 用 了 自身 的 共享 库 ， 
但 同时 不 希望 强制 要 求 用 户 将 这 些 库 安装 在 其 中 一 个 标准 目录 中 ， 相 
反 ， 需 要 允许 用 户 将 应 用 程序 解压 到 任意 异 目录 中 ， 然 后 能 够 立即 运行 
这 个 应 用 程序 。 这 里 存在 的 问题 是 应 用 程序 无 法 确定 存放 共享 库 的 位 
置 ， 除 非 要 求 用 户 设置 LD LIBRARY _PATH 或 者 要 求 用 户 运 行 某 种 能 
和 
法 。 











为 解决 这 个 问题 ， 在 构建 链接 器 的 时 候 增 加 了 对 rpath 规 范 中 特殊 字 
符 串 $ORIGIN (或 等 价 的 $f{ORIGIN}) 的 支持 。 动 态 链接 器 将 这 个 字符 
aa 
MH FENY o 


$ gcc -Wl,-rpath,'$ORIGIN'/lib ... 


上 面 的 命令 假设 在 运行 时 应 用 程序 的 共享 库 位 于 包含 应 用 程序 的 可 
执行 文件 的 目录 的 子 目 录 lib 中 。 这 样 就 能 同 用 户 提供 一 个 简单 的 包含 应 
用 程序 及 相关 的 库 的 安装 包 ， 同 时 允许 用 户 将 这 个 包 安 装 在 任意 位 置 并 
运行 这 个 应 用 程序 了 《〈 即 所 谓 的 “turn-key 应 用 程序 ”) 。 

















41.11 在 运行 时 找 出 共享 库 


在 解析 库 依 赖 时 ， 动 态 链 接 需 首先 会 检查 各 个 依赖 字符 串 以 确定 它 
是 否 包 含 和 斜 线 (/) ， 因 为 在 链接 可 执行 文件 时 如 果 指 定 了 一 个 显 式 的 
库 路 径 名 的 话 就 会 发 生 这 种 情况 。 如 果 找 到 了 一 个 斜 线 ， 那 么 依赖 字符 
串 就 会 被 解释 成 一 个 路 径 名 〈 绝 对 路 径 名 或 相对 路 径 名 ) ， -a 
该 路 径 名 加 载 库 。 和 否则 动态 链接 器 会 使 用 下 面 的 规则 来 搜索 共享 库 


1. 如 果 可 执行 文件 的 DT_RPATH 运 行 时 库 路 径 列 表 (rpath) 中 包 
含 目 录 并 且 不 包含 DT_RUNPATH 列 表 ， 那 么 就 搜索 这 些 目 录 “〈 按 照 链 
接 程 序 时 指定 的 目录 顺序 ) 。 


2. 如 果 定 义 了 LD_LIBRARY_PATH 环 境 变 量 ， 那 么 就 会 轮流 搜索 
该 变量 值 中 以 冒号 分 隔 的 各 个 目录 。 如 果 可 执行 文件 是 一 个 set-user-ID 
或 set-group-ID 程 序 ， 那 么 就 会 忽略 LD_LIBRARY_PATH 变 量 。 这 项 安 
全 措施 是 为 了 防止 用 户 欺 骗 动态 链接 器 让 其 加 载 一 个 与 可 执行 文件 所 需 
的 库 的 名 称 一 样 的 私有 库 。 


3. 如 果 可 执行 文件 DT_RUNPATH 运 行 时 库 路 径 列 表 中 包含 目录 ， 
那么 就 会 搜索 这 些 目录 (按照 链接 程序 时 指定 的 目录 顺序 ) 。 


4. 检查 /etc/ld.so.cache 文 件 以 确认 它 是 否 包 含 了 与 库 相 关 的 条 目 
5. 搜索 /jib 和 /usrvlib 目 录 《〈 按 照 这 个 顺序 ) 。 



































41.12 ”运行 时 符号 解析 


假设 在 多 个 地 方 定 义 了 一 个 全 局 符号 〈 即 函数 或 变量 ) ， 如 在 一 个 
可 执行 文件 和 一 个 共享 库 中 或 在 多 个 共 至 库 中 。 那 么 如 何 解析 指向 这 个 
符号 的 引用 呢 ? 


假设 现在 有 一 个 主 程序 和 一 个 共享 库 ， 它 们 两 个 都 定义 了 一 个 全 局 
函数 xyz0， 并 且 共 k 享 库 中 的 另 一 个 函数 调用 了 xyz0) 如 图 41-5 所 示 。 


prog libfoo.so 








xyz(){ xyz(){ 
printf("main-xyz\n"); printf ("foo-xyz\n"); 
} 


main() { func() { 
; func(); xyZ(); 





图 41-5: 解析 全 局 符号 引用 
pe ras ea ae E eee 














$ gcc -g -c -fPIC -Wall -c foo.c 

$ gcc -g -shared -o libfoo.so foo.o 
$ gcc -g -0 prog prog.c libfoo.so 
$ LD_LIBRARY_PATH=. ./prog 
main-xyz 


从 上 面 输出 的 最 后 一 行 可 以 看 出 ， 主 程序 中 的 xyz0 定 义 履 靖 〈 优 
w) 了 共享 库 中 的 定义 。 


尽管 这 种 处 理 万 式 在 一 开始 看 起 来 有 些 令 人 慰 讶 ， 但 这 样 做 是 有 历 
史 原 因 的 。 Pe ee 
与 那些 和 同一 库 等 价 的 静态 库 进 行 链 接 的 应 用 程序 中 的 符号 解析 的 语 
完成 一 致 。 这 意味 着 下 面 的 语义 是 正确 的 。 


。 主 程序 中 全 局 符号 的 定义 履 瘟 库 中 相应 的 定义 。 
。 如 果 一 个 全 局 符号 在 多 个 库 中 进行 了 定义 ， 那 么 对 该 符号 的 引用 会 
被 绑 定 到 在 扫描 库 时 找到 的 第 一 个 定义 ， 其 中 扫描 顺序 是 按照 这 些 


























库 在 静态 链接 命令 行 中 列 出 时 从 左 至 右 的 顺序 。 


虽然 这 些 语 义 使 得 从 静态 库 到 共享 库 的 转变 变 得 相对 简单 了 ， 但 这 
种 做 法 会 导致 一 些 问题 。 其 中 最 大 的 问题 是 这 些 语义 在 使 用 共享 库 实 现 
-个 自 包 含 的 子 系统 时 会 与 共享 库 模 型 产生 矛盾 。 在 默认 情况 下 ， 共 享 
库 无 法 确保 一 个 指向 其 自身 的 某 个 全 局 符 写 的 引用 会 真正 被 绑 定 到 该 符 
写 在 库 中 的 定义 上 ， 从 而 导致 当 该 共享 库 被 集成 到 一 个 更 大 的 系统 中 时 
共享 库 的 属性 可 能 会 发 生 改变 。 这 会 导致 应 用 程序 出 现 令 人 意料 之 外 的 
行为 ， 同 时 也 使 得 分 治 调试 的 执行 变 得 更 加 困难 〈 即 尝试 使 用 更 少 或 不 
[Fi] A FRE EER SE UL I] - 

在 上 面 的 例子 中 ， 如 果 想 要 确保 在 共享 库 中 对 xyz() 的 调用 确实 调用 
了 库 中 定义 的 相应 函数 ， 那 么 在 构建 共享 库 的 时 候 就 需要 使 用 - 
Bsymbolic 链 接 器 选项 。 


$ gcc -g -c -fPIC -Wall -c foo.c 
$ gcc -g -shared -W1,-Bsymbolic -o libfoo.so foo.o 


























$ gcc -g -o prog prog.c libfoo.so 
$ LD_LIBRARY_PATH=. ./prog 
foo-xyz 


-Bsymbolic 链 接 需 选项 指定 了 共享 库 中 对 全 局 符号 的 引用 应 该 优先 


被 绑 定 到 库 中 的 相应 定义 上 【如果 存在 的 话 ) 。 【注意 不 管 是 否 使 用 了 
这 个 选项 ， 在 主 程序 中 调用 xyz0 总 是 会 调用 主 程序 中 定义 的 xyz0。) 








41.13 ”使 用 静态 库 取 代 共 享 库 


虽然 在 大 多 数 情况 下 都 应 该 使 用 共享 库 ， 但 在 某 些 场景 中 静态 库 则 
更 加 适合 。 特 别 地 ， 静 态 链接 的 应 用 程序 包含 了 它 在 运行 时 所 需 的 全 局 
代码 这 一 事实 是 非常 有 利 的 。 如 当 用 户 不 希望 或 者 无 法 在 运行 程序 的 系 
统 上 安装 共享 库 或 者 程序 在 另 一 个 无 法 使 用 共享 库 的 环境 中 运行 时 《如 
可 能 是 一 个 chroot 监 狱 〈jail) ) ， 静 态 链接 束 派 上 用 场 了 。 此 外 ， 即 使 
是 一 个 兼容 的 共享 库 升 级 也 可 能 会 在 无 意 中 引 入 一 个 Bug， 从 而 导致 应 
用 程序 无 法 正 稼 工作 。 通 过 静态 链接 应 用 程序 就 能 确保 系统 上 共享 库 的 
变动 不 会 影响 到 它 并 且 它 已 经 拥有 了 运行 所 需 的 全 局 代码 〈 付 出 的 代价 
就 是 程序 更 大 了 ， 从 而 会 需要 更 多 的 磁盘 空间 和 内 存 〉。 


在 默认 情况 下 ， 当 链接 右 能 够 选择 名 称 一 样 的 共享 库 和 静态 库 时 
(如 在 链接 时 使 用 -Lsomedir -ldemo 并 且 1libdemo.so 和 1libdemo.a 都 存在 ) 
会 优先 使 用 共享 库 。 要 强制 使 用 库 的 静态 版 本 则 可 以 完成 下 列 之 一 。 


。 在 gcc 命 令 行 中 指定 静态 库 的 路 径 名 〈 包 括 .a 扩 展 ) 。 

。 在 gcc 命 令 行 中 指定 -static 选 项 。 

e 使 用 -WlL-Bstatic 和 -WlL-Bdynamic gcc 选 项 来 显 式 地 指定 链接 器 选 
择 共享 库 还 是 静态 库 。 在 gcc 命 令 行 中 可 以 使 用 -] 选 项 来 混合 这 些 选 
项 。 链 接 器 会 按照 选项 被 指定 时 的 顺序 来 处 理 这 些 选 项 。 



































41.14 总结 


目标 库 是 一 组 编译 过 的 目标 模块 的 聚合 ， 它 可 以 用 来 与 程序 进行 链 
接 。 与 其 他 UNIX 实 现 一 样 ，Linux 提 供 了 两 种 目标 库 : 一 种 是 静态 库 ， 
在 早期 的 UNIX 系 统 中 只 存在 这 种 库 ， 还 有 一 种 是 更 加 现代 的 共享 库 。 


由 于 与 静态 库 相 比 ， 共 至 库存 在 很 多 优势 ， 因 此 在 当代 UNIX 系 统 
上 共有 至 库 用 得 最 多 。 共 享 库 的 优势 主要 源 自 这 样 一 个 事实 ， 即 当 一 个 程 
序 与 库 进 行 链接 时 ， 程 序 所 需 的 目标 模块 的 副本 不 会 被 包含 进 结果 可 执 
行文 件 中 。 相 反 ，“【〔 议 态 ) 链接 器 将 会 在 可 执行 文件 中 添加 与 程序 在 运 
行 时 所 需 的 共 孚 库 相 关 的 信息 。 当 文件 被 执行 时 ， 动 态 链 接 吉 会 使 用 这 
些 信 息 来 加 载 所 需 的 共享 库 。 在 运行 时 ， 所 有 使 用 同一 共 孚 库 的 程序 共 
圣 该 库 在 内 存 中 的 单个 副本 。 由 于 共有 圣 库 不 会 被 复制 到 可 执行 文件 中 ， 
并 且 在 运行 时 所 有 程序 都 使 用 共享 库 在 内 存 中 的 单个 副本 ， 因 此 共有 至 库 
能 够 降低 系统 所 需 的 磁盘 空间 和 内 存 。 


共享 库 soname 为 在 运行 时 接续 共享 库 引 用 提供 了 一 层 间 接 。 如 果 一 
个 共享 库 拥 有 一 个 soname， 那 么 在 由 静态 链接 器 产生 的 可 执行 文件 中 将 
会 记录 这 个 soname， 而 不 是 库 的 真实 名 称 。 根 据 共享 库 命 名 规范 ， 其 真 
实名 称 的 形式 为 libname.so.major-id.minor-id， 其 soname 的 形式 为 
libname.so.major-id。 这 种 规范 使 得 程序 能 够 自动 使 用 共享 库 的 最 新 次 要 
0 





























为 了 在 运行 时 能 够 找到 共享 库 ， 动 态 链接 器 遵循 了 一 组 标准 的 搜索 
规则 ， 其 中 包括 搜索 一 组 大 多 数 共 享 库 安装 的 目录 (如 /Nib 和 /usrlib〉。 


更 多 信息 


在 ar(1)、gcc(1)、1d(1)、ldconfig(8)、1d.so(8)、dlopen(3) 和 
objdump(1) 手 册 以 及 ld 和 readelf 的 info 文 档 中 可 以 找到 与 静态 库 和 共享 库 
相关 的 各 种 信息 。[Drepper, 2004 (b)] 介 绍 了 很 多 在 Linux 上 编写 共享 库 
的 细节 信息 。 在 David Wheeler 撰 写 的 “Program Library HOWTO” 中 可 以 
找 出 更 多 有 用 的 信息 ， 该 书 的 在 线 版 本 位 于 PDP 网 站 http:/www.tldp.org/ 
上 。GNU 共 至 库 模 型 与 Solaris 上 的 实现 存在 很 多 相似 之 处 ， 因 此 阅读 一 
下 Sun 的 “Linker and Libraries Guide”( 在 http://docs.sun.com/ 上 可 以 找 





到 ) 以 获取 更 多 信息 和 例子 是 有 必要 的 。[Levine, 2000] 对 静态 和 动态 链 
接 右 的 操作 进行 了 介绍 


在 在 线 站 点 http:/www.gnu. ee T [Vaughan et al., 
2000] 中 可 以 找到 有 关 GNU Libtool 的 信息 ， 它 是 人 隐藏 
构建 共享 库 时 倍 到 的 特定 于 实现 的 细节 WLR 


Tools Interface Standards 委 员 会 撰写 的 “Executable and Linking 
Format” 文 档 提 供 了 ELF 的 细节 ， 
在 http://refspecs.freestandards.org/elf/elf.pdf 上 能 够 找到 这 篇 文档 。 
1995] 也 提供 了 很 多 与 ELF 有 关 的 有 用 细节 。 





41.15 “习题 


41-1. 在 使 用 和 不 使 用 -static 选 项 的 情况 下 编译 一 个 程序 来 看 看 动 
态 地 与 C 库 进行 链接 的 程序 与 静态 地 与 C 库 进行 链接 的 程序 在 大 小 方面 
的 差别 。 











上 一 章 介绍 了 共享 库 的 基础 知识 ， 本 章 将 介绍 共享 库 的 几 个 高 级 特 
’ 如 下 所 示 : 


动态 地 加 载 共 至 库 ; 

控制 共享 库 定义 的 符号 的 可 见 性 ; 

使 用 链接 器 脚本 创建 版 本 化 的 符号 ; 

使 用 初始 化 和 终止 函数 在 加 载 和 凶 载 库 时 目 动 地 执行 代码 ; 
KEER, 

。 (8 AYLD_DEBUGOR tito AS E at HI ERIE o 





42.1 动态 加 载 库 


当 一 个 可 执行 文件 开始 运行 之 后 ， 动 态 链接 器 会 加 载 程序 的 动态 依 
eae aang 但 有 些 时 候 延 迟 加 载 库 是 比较 有 用 的 ， 如 只 在 

要 的 时 候 再 加 载 一 个 插件 。 动 态 链接 器 的 这 项 功能 是 通过 一 组 API 来 
实现 的 。 这 组 API 通 常 被 称 为 dlopen API， 它 源 自 Solaris， 现 在 其 中 大 部 
分 内 容 都 在 SUSv3 中 进行 了 规定 。 


dlopen API 使 得 程序 能 够 在 运行 时 打开 一 个 共 诗 库 ， 根 据 名 字 在 库 
中 搜索 一 个 函数 ， 然 后 调用 这 个 函数 。 在 运行 时 采用 这 种 方式 加 载 的 共 
蛙 库 遂 第 伞 称 为 动态 加 载 的 库 ， 它 的 创建 方式 与 其 他 共 t 享 库 的 创建 方式 


aco 


核心 dlopen API 由 下 列 函 数 〈 所 有 这 些 函 数 都 在 SUSv3 进 行 了 规 
定 ) 构成 。 


dlopen0 函 数 打开 一 个 共 圣 库 ， 返 回 一 个 供 后 续 调 用 使 用 的 句柄 。 
dlsym() 函 数 在 库 中 搜索 一 个 符号 (一 个 包含 函数 或 变量 的 字符 串 ) 
并 返回 其 地 址 。 

dlclose0 函 数 关 闭 之 前 由 dlopen0 打 开 的 库 。 
dlerror0 函 数 返 回 一 个 错误 消息 字符 串 ， 在 调用 上 述 函 数 中 的 某 个 
函数 发 生 错误 时 可 以 使 用 这 个 函数 来 获取 错误 消息 。 


glibc 实 现 还 包含 了 一 组 相关 的 函数 ， 其 中 一 些 将 会 在 后 面 予 以 介 











绍 。 


要 在 Linux 上 使 用 dlopen API 构 建 程序 必须 要 指定 -ld 选项 以 便 与 
libdl 库 链接 起 来 。 


42.1.1 打开 共享 库 : dlopen() 


dlopen0 〇 函数 将 名 为 libfilename 的 共享 库 加 载 进 调用 进程 的 虚拟 地 址 
空间 并 增加 该 库 的 打开 引用 计数 。 





#include <dlfcn.h> 


void *dlopen(const char *libfilename, int flags); 








Returns library handle on success, or NULL on error 





如 果 1libfilename 包 含 了 一 个 斜 线 (/) ， 那 么 dlopen0) 会 将 其 解释 成 
一 个 绝对 或 相对 路 径 名 ， 人 否则 动态 链接 费 会 使 用 第 41.11 节 中 介绍 的 规 
则 来 搜索 共享 库 。 


dlopen0 在 成 功 时 会 返回 一 个 句柄 ， 在 后 续 对 dlopen API 中 的 函数 的 
调用 可 以 使 用 该 句柄 来 引用 这 个 库 。 如 果 发 生 了 错误 《如 无 法 找到 
Æ) ， 那 么 dlopen0 会 返回 NULL。 


如 果 libfilename 指 定 的 共享 库 依赖 于 其 他 共享 库 ， 那 么 dlopenO) 会 自 
动 加 载 那 些 库 。 如 果 有 必要 的 话 ， 这 一 过 程 会 递归 进行 。 这 种 被 加 载 进 
来 的 库 被 称 为 这 个 库 的 依赖 树 。 


在 同一 个 库 文 件 中 可 以 多 次 调用 dlopen0， 但 将 库 加 载 进 内 存 的 操 
作 只 会 发 生 一 次 (第 一 次 调用 ) ， 所 有 的 调用 都 返回 同样 的 句柄 值 。 但 
dlopen API 会 为 每 个 库 句 柄 维护 一 个 引用 计数 ， 每 次 调用 dlopen0 时 都 会 
增加 引用 计数 ， 每 次 调用 dlclose0) 都 会 减 小 引用 计数 ， 只 有 当 计 数 为 0 时 
dlclose() 才 会 从 内 存 中 删除 这 个 库 。 


flags 参 数 是 一 个 位 掩 码 ， 它 的 取 值 是 RTLD_LAZY 和 RTLD_NOW 
中 的 一 个 ， 这 两 个 值 的 含义 分 别 如 下 。 


RILD_LAZY 


只 有 当代 码 被 执行 的 时 候 才 解析 库 中 未 定义 的 函数 符号 。 如 果 需 要 
某 个 特定 符号 的 代码 没有 被 执行 到 ， 那 么 永远 都 不 会 解析 该 符号 。 延 迟 
解析 只 适用 于 函数 引用 ， 对 变量 的 引用 会 被 立即 解析 。 指 定 
RTLD_LAZY 标 记 能 够 提供 与 在 加 载 可 执行 文件 的 动态 依赖 列表 中 的 共 
享 库 时 动态 链接 器 的 常规 操作 对 应 的 行为 。 


RILD_NOW 


在 dlopen() 结 束 之 前 并 即 加 载 库 中 所 有 的 未 定义 符 写 ， 不 管 是 人 否 需 
要 用 到 这 些 符号 ， 这 种 做 法 的 结果 是 打开 库 变 得 更 慢 了 ， 但 能 够 立即 检 
测 到 任何 潜在 的 未 定义 函数 符号 错误 ， 而 不 是 在 后 面 茶 个 时 刻 才 检测 到 


























这 种 错误 。 在 调试 应 用 程序 时 这 种 做 法 是 比较 有 用 的 ， 因 为 它 能 够 确保 
应 用 程序 在 碰 到 未 解析 的 符号 时 立即 发 生 错误 ， 而 不 是 在 执行 了 很 长 一 
段 时 间 之 后 才 发 生 错误 。 





通过 将 环境 变量 LD_BIND_NOW 设 置 为 一 个 非 空 字符 
串 能 够 强制 动态 链接 器 在 加 载 可 执行 文件 的 动态 依赖 列表 
中 的 共享 库 时 立即 解析 所 有 符号 《〈 即 类 似 于 
RTLD_NOW) 。 这 个 环境 变量 在 glibc 2.1.1 以 及 后 续 的 版 
本 中 是 有 效 的 。 设 置 LD_BIND_NOW 会 覆盖 dlopen0) 
RTLD_ LAZY 标 记 的 效果 。 








flags 也 可 以 取 其 他 的 值 ，SUSv3 规 定 了 下 列 几 种 标记 。 


RTLD_GLOBAL 


这 个 库 及 其 依赖 树 中 的 符号 在 解析 由 这 个 进程 加 载 的 其 他 库 中 的 引 
用 和 通过 dlsym() 查 找 时 可 用 。 


RILD_LOCAL 


与 RTLD_GLOBAL 相 反 ， 如 果 不 指定 任何 和 常量， 那么 束 取 这 个 默认 
它 规定 在 解析 后 续 加 载 的 库 中 的 引用 时 这 个 库 及 其 依赖 树 中 的 符号 
\ 可 用 。 


在 不 指定 RTLD_GLOBAL 或 RTLD LOCAL 时 ，SUSv3 并 没有 规定 
一 个 默认 值 。 大 多 数 UNIX 实 现 与 Linux 一 样 ， 将 RTLD _ LOCAL 作为 默 
认 值 ， 但 一 些 实现 将 RTLD_ GLOBAL 作为 默认 值 。 

Linux 还 支持 几 个 并 没有 在 SUSv3 中 进行 规定 的 标记 ， 如 下 所 示 。 


RTLD_NODELETE ( glibc 2.2 起 ) 


在 dlcloseO 调 用 中 不 要 番 载 库 ， 即 使 其 引用 计数 已 经 变 成 0 了。 这 意 


味 着 在 后 面 重新 通过 dlopen() 加 载 库 时 不 会 重新 初始 化 库 中 的 静态 变 
量 。 (对 于 由 动态 链接 器 自动 加 载 的 库 来 讲 ， 在 创建 库 时 通过 指定 gcc — 
Wl-znodelete 选 项 能 够 取得 类 似 的 效果 。 ) 


RTLD_NOLOAD ( 自 glibc 2.2 起 ) 


不 加 载 库 。 这 个 标记 有 两 个 目的 。 第 一 ， 可 以 使 用 这 个 标记 来 检查 
某 个 特定 的 库 是 否 已 经 被 加 载 到 了 进程 的 地 址 空间 中 。 如 果 已 经 加 载 
了 ， 那 么 dlopen0 会 返回 库 的 句柄 ， 如 果 没 有 加 载 ， 那 么 dlopen0O 会 返回 
NULL。 第 二 ， 可 以 使 用 这 个 标记 来 “提升 ?已 加 载 的 库 的 标记 。 如 在 对 
之 前 使 用 RTLD_LOCAL 打 开 的 库 调 用 dlopen0 时 可 以 在 flags 参 数 中 指定 
RTLD_NOLOAD | RTLD_GLOBAL. 

















RTLD_DEEPBIND ( ý glibc 2.3.4) 


在 解析 这 个 库 中 的 符号 引用 时 先 搜索 库 中 的 定义 ， 然 后 再 搜索 已 加 
载 的 库 中 的 定义 。 这 个 标记 使 得 一 个 库 能 够 实现 自 包含 ， 即 优先 使 用 自 
己 的 符号 定义 ， 而 不 是 在 已 加 载 的 其 他 库 中 定义 的 同名 全 局 符号 。 (这 
与 在 41.12 节 中 介绍 的 -Bsymbolic 链 接 器 选项 具有 类 似 的 效果 。) 


RTLD_NODELETE 和 RTLD_NOLOAD 标 记 在 Solaris dlopen API 中 
也 进行 了 实现 ， 但 提供 这 个 两 个 标记 的 UNIX 实 现 很 少 。 
RILD_DEEPBIND 标 记 是 Linux 特 有 的 。 











当 将 libfilename 指 定 为 NULL 时 dlopen0 会 返回 主 程序 的 句柄 。 
《SUSv3 将 这 种 句柄 称 为 “全 局 符号 对 象 " 的 句柄 。) 在 后 续 对 dlsym() 的 
调用 中 使 用 这 个 句柄 会 导致 首先 在 主 程序 中 搜索 符号 ， 然 后 在 程序 局 动 
时 加 载 的 共享 库 中 进行 搜索 ， 最 后 在 所 有 使 用 了 RTLD_GLOBAL 标 记 的 
动态 加 载 的 库 中 进行 搜索 。 








42.1.2 ”错误 诊断 : dlerror() 


如 果 在 dlopen() 调 用 或 dlopen API 的 其 他 函数 调用 中 得 到 了 一 个 错 
那么 可 以 使 用 dlerror(0) 来 获取 一 个 指 同 表明 错误 原因 的 字符 串 的 指 





ftinclude <dlfcn.h> 


const char *dlerror(void) ; 


Returns pointer to error-diagnostic string, or NULL if 
no error has occurred since previous call to dlerror() 











如 果 从 上 一 次 调用 dlerror() 到 现在 没有 发 生 错误 ， 那 么 dlerror() 函 数 
返回 NULL， 读 者 在 下 一 节 中 就 会 看 到 这 种 处 理 方式 带 来 的 好 处 了 。 


42.1.3 ”获取 符号 的 地 址 : dlsym() 


dlsym() 函 数 在 handle 指 同 的 库 以 及 该 库 的 依赖 树 中 的 库 中 搜索 名 为 
symbol 的 从 号 《函数 或 变量 ) 。 





#include «dlfcn.h> 


void *dlsym(void *handle, char *symbol); 


Returns address of symbol, or NULL if symbol is not found 











如 果 找 到 了 symbol， 那 么 dlsymO 会 返回 其 地 址 ， 否 则 就 返回 
NULL。handle 参 数 通 稼 是 上 一 个 dlopenO 调 用 返回 的 库 句 柄 ， 或 者 它 也 
可 以 是 下 面 介 绍 的 其 中 一 个 所 谓 的 伪 句 柄 。 


dlvsym(handle, symbol, version) 与 dsymO0 类 似 ， 但 它 能 
够 用 来 在 符号 版 本 化 的 库 中 搜索 版 本 与 在 字符 串 version 中 
指定 的 版 本 匹配 的 符号 定义 。 (第 42.3.2 节 将 会 介绍 符号 版 
本 化 。) 要 从 <dlfcn.h> 中 获取 这 个 函数 的 声明 必须 要 定义 
_GNU_SOURCE 特 性 测试 宏 。 





dlsym() 返 回 的 符号 值 可 能 会 是 NULL， 这 一 点 与 “ 找 不 到 符号 ”的 返 
回 古 无 法 区 分 的 。 为 了 错 清 楚 具 体 是 哪 种 情况 就 必须 要 先 调用 dlerror() 
(确保 之 前 的 错误 字符 串 已 经 被 清除 了 ) ， 如 末 在 调用 dlsym() 之 后 





dlerror0 返 回 了 一 个 非 NULL 值 ， 那 么 就 可 以 得 出 发 生 错误 的 结论 了 。 
如 果 symbol 是 一 个 变量 的 名 称 ， 那 么 可 以 将 dlsym0) 的 返回 值 赋 给 一 
个 合适 的 指针 类 型 ， 并 通过 反 引 用 该 指针 来 得 到 变量 的 值 。 
int *ip; 
ip = (int *) dlsym(symbol, “myvar"); 


if (ip != NULL) 
printf("Value is %d\n", *ip); 


如 果 symbol 是 一 个 函数 的 名 称 ， 那 么 可 以 使 用 dlsym0 返 回 的 指针 来 
a 可 以 将 dlsym0O 返 回 的 值 存 储 到 一 个 类 型 合适 的 指针 中 ， 如 
下 所 示 。 


int (*funcp)(int); /* Pointer to a function taking an integer 
argument and returning an integer */ 


但 不 能 简单 地 将 dlsym0) 的 结果 赋 给 此 类 指针 ， 如 下 和 面 的 例子 所 示 。 


funcp = dlsym(handle, symbol); 


其 原因 是 C99 标 准 禁 止 函 数 指针 和 void * 之 间 的 赋值 操作 。 这 个 问题 
的 解决 方案 是 使 用 下 面 这 样 的 〈 稍 微 有 些 符 拙 ) 类 型 转换 。 


*(void **) (&funcp) = dlsym(handle, symbol); 

WiwdlsymOS E FFA TAI eR ALE 8 EP Zs WO Be We a as CH EE Jz 
引用 函数 指针 来 调用 这 个 函数 了 。 
res = (*funcp)(somearg) ; 


读者 在 将 dlsym0 的 返回 值 进行 赋值 时 可 能 会 使 用 下 面 这 段 看 起 来 与 
上 述 代码 等 价 的 代码 来 取代 上 面 的 *(void **) 语 法 。 


(void *) funcp = dlsym(handle, symbol); 


但 gcc -pedantic 在 倍 到 上 面 这 段 代码 时 会 发 出 “ANSI C forbids the 
use of cast expressions as lvalues.” 的 警告 信息 。 而 使 用 *(void **) 语 言 束 不 


会 出 现 这 个 警告 信息 ， 因 为 是 在 癌 赋 值 语句 中 的 左 值 指 癌 的 地 址 赋值 。 
在 很 多 UNIX 实 现 中 可 以 使 用 下 和 面 这 样 的 类 型 转换 类 消除 C 编 译 器 的 
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funcp = (int (*) (int)) dlsym(handle, symbol); 

但 SUSv3 Technical Corrigendum Number 1 中 dlsymgO 的 规范 指出 C99 


慰 准 仍然 要 求 编译 器 允 此 闫 转换 生成 警告 信息 并 列 蔡 了 上 面 的 vvoid *) 
语法 。 


SUSv3 TC1 指 出 由 于 需要 用 到 *(void **) 语 法 ， 因 此 标 
准 的 后 续 版 本 可 能 会 定义 一 个 与 dlsym0 类 似 的 API 来 处 理 
数据 和 函数 指针 。 但 SUSv4 在 这 一 点 上 没有 发 生 任何 变 
化 。 





在 dlsym(O 中 使 用 库 伪 句柄 


disymgO 函 数 中 的 handle 参 数 除了 能 够 取 由 dlopen0) 调 用 返回 的 句柄 值 
之 外 ， 还 能 够 取 下 列 伪 句柄 值 。 


RTLD_DEFAULT 


从 主 程序 中 开始 查找 symbol， 接 着 按 序 在 所 有 已 加 载 的 共享 库 中 查 
找 ， 包 括 那些 通过 使 用 了 RTLD_GLOBAL 标 记 的 dlopen0 调 用 动态 加 载 
的 库 ， 这 个 标记 对 应 于 动态 链接 器 所 采用 的 默认 搜索 模型 。 


RTLD_NEXT 


在 调用 dlsym() 之 后 加 载 的 共享 库 中 搜索 symbol， 这 个 标记 适用 于 需 
要 创建 与 在 其 他 地 方 定义 的 函数 同名 的 包装 函数 的 情况 。 如 ， 在 主 程序 
中 可 能 会 定义 一 个 malloc()( 它 可 能 完成 内 存 分 配 的 夭 记 工作 ) ， 而 这 
个 函数 在 调用 实际 的 mallocO 之 前 首先 会 通过 调用 func = 
disym(RTLD_NEXT, “malloc”) 来 获取 其 地 址 。 


SUSv3 并 没有 要 求实 现 上 述 列 出 的 伪 句 柄 (甚至 没有 保留 这 两 个 值 
以 供 后 续 之 用 ) ， 并 且 所 有 UNIX 实 现 也 没有 定义 上 述 伪 句 柄 。 为 了 从 














<dlfcn.h> 中 获取 这 些 常量 的 定义 必须 要 定义 GNU_SOURCE 特 性 测试 
ie 


示例 程序 


程序 清单 42-1 演 示 了 dlopen API 的 使 用 。 这 个 程序 接收 两 个 命令 行 
参数 : 需 加 载 的 共 孚 库 名 称 和 需 执行 的 库 中 国 数 的 名 称 。 下 面 的 例子 演 
示 了 这 个 程序 的 使 用 。 


$ ./dynload ./libdemo.so.1 x1 


lled_mod1-x1 
“LD LIBRARY PATH=. ./dynload libdemo.so.1 x1 


Called mod1-x1 


在 上 述 命 令 的 第 一 个 命令 中 ，dlopen0) 注 意 到 库 路 径 包 含 了 一 个 斜 
线 ， 因 此 将 其 解释 成 一 个 相对 路 径 名 〈 表 示 一 个 位 于 当前 工作 目录 中 的 
E) 。 在 第 二 个 命令 中 指定 了 库 搜 索 路 径 LD_ LIBRARY PATH， 动态 
人 
KA AFR) o 




















程序 清单 42-1: 使 用 dlopen API 








shlibs/dynload.c 
#include <dlfcn.h> 


#include "tlpi_hdr.h" 
int 
main(int argc, char *argv[]) 
void *libHandle; /* Handle for shared library */ 


void (*funcp){void); /* Pointer to function with no arguments */ 
const char *err; 


if (argc != 3 || strcmp(argv[1], “--help") == 0) 
usageErr("%s lib-path func-name\n", argv[0]); 


/* Load the shared library and get a handle for later use */ 


libHandle = dlopen(argv[1], RTLD_LAZY); 
if (libHandle == NULL) 
fatal("dlopen: %s", dlerror()); 


/* Search library for symbol named in argv[2] */ 
(void) dlerror(); /* Clear dlerror() */ 
*(void **) (&funcp) = dlsym(libHandle, argv[2]); 
err = dlerror(); 
if (err != NULL) 
fatal("dlsym: %s", err); 


/* If the address returned by dlsym() is non-NULL, try calling it 
as a function that takes no arguments */ 


if (funcp == NULL) 
printf("%s is NULL\n", argv[2]); 
else 
(*funcp) (); 
diclose({libHandle) ; /* Close the library */ 


exit(EXIT SUCCESS) ; 


shlibs/dynload.c 
42.1.4 关闭 共享 库 : dlclose() 
dlclose() 函 数 关 闭 一 个 库 。 








#include <dlfcn.h> 


int dlclose(void *handle); 





Returns 0 on success, or -1 on error 





dlclose0 函 数 会 减 小 handle 所 引用 的 库 的 打开 引用 的 系统 计数 。 如 果 
这 个 引用 计数 变 成 了 0 并 且 其 他 库 已 经 不 需要 用 到 该 库 中 的 符号 了 ， 屠 
么 就 会 印 载 这 个 库 。 系 统 也 会 在 这 个 库 的 依赖 树 中 的 库 执行 〈 递 归 地 ) 
同样 的 过 程 。 当 进程 终止 时 会 隐 式 地 对 所 有 库 执行 dlclose0)。 











从 glibc 2.2.3 开 始 ， 共 至 库 中 的 函数 可 以 使 用 atexit() 
(或 on_exit()) 来 设置 一 个 在 库 被 邮 载 时 自动 调用 的 函数 。 


42.15 ”获取 与 加 载 的 符号 相关 的 信息 : dladdr() 


dladdr() 返 回 一 个 包含 地 址 addr (通常 通过 前 面 的 dlsym0 调 用 获得 ) 
的 相关 信息 的 结构 。 





#define GNU SOURCE 
ftinclude <dlfcn.h> 


int dladdr(const void *addr, Dl_info *:nfo); 


Returns nonzero value if addr was found in a shared library, otherwise 0 











info 参 数 是 一 个 指 回 由 调用 者 分 配 的 结构 的 指针 ， 其 结构 形式 如 
Pe 


typedef struct { 


const char *dli_fname; /* Pathname of shared library 
containing ‘addr’ */ 

void *dli_fbase; /* Base address at which shared 
library is loaded */ 

const char *dli_sname; /* Name of nearest run-time symbol 
with an address <= ‘addr’ */ 

void *dli_saddr; /* Actual value of the symbol 
returned in 'dli sname' */ 

} D1 info; 


Dl_info 结 构 中 的 前 两 个 字段 指定 了 包含 地 址 addr 的 共享 库 的 路 径 名 
和 运行 时 其 地 址 。 最 后 两 个 字段 返回 地 址 相关 的 信息 。 假 设 addr 指 问 共 
Se. 个 符号 的 确切 地 址 ， 那 么 dli_saddr 返 回 的 值 与 传 入 的 addr 值 一 


SUSv3 并 没有 规定 dladdr()， 所 有 UNIX 实 现 也 都 没有 提供 这 个 函 





42.1.6 ”在 主 程序 中 访问 符号 


假设 使 用 dlopen0 动 态 加 载 了 一 个 共享 库 ， 然 后 使 用 dlsym0 〇 获取 了 
共享 库 中 x() 函 数 的 地 址 ， 接 着 调用 x()。 如 果 在 x(O) 中 调用 了 函数 y()， 那 
么 通常 会 在 程序 加 载 的 其 中 一 个 共享 库 中 搜索 y()。 


有 些 时 候 需 要 让 x() 调 用 主 程序 中 的 y0 实 现 〈 类 似 于 回调 机 制 〉。 
为 了 达到 这 个 目的 束 必 须要 使 主 程序 中 的 符 写 (全 局 作用 域 〉 对 动态 链 
接 器 可 用 ， 即 在 链接 程序 时 使 用 - -export-dynamic 链 接 占 选项 。 


$ gcc -W1l,--export-dynamic main.c (plus further options and arguments) 
或 者 可 以 编写 下 面 这 个 等 价 的 命令 。 
$ gcc -export-dynamic main.c 


使 用 这 些 选 项 中 的 一 个 就 能 够 允许 动态 加 载 的 库 访问 主 程序 中 的 全 
局 符号 。 








gcc -rdynamic 选 项 和 gcc -WI -EARE A, UKR- 


42.2 ”控制 符号 的 可 见 性 


设计 良好 的 共享 库 应 该 只 公开 那些 构成 其 声明 的 应 用 程序 二 进 制 接 
O (ABI) 的 符 写 (函数 和 变量 ) ， 其 原因 如 下 。 


。 如 果 共 享 库 的 设计 人 员 不 小 心 导出 了 未 详细 说 明 的 接口 ， 那 么 使 用 
这 个 库 的 应 用 程序 的 作者 可 能 会 选择 使 用 这 些 接口 。 这 样 在 将 来 逢 
级 共享 库 时 可 能 会 带 来 兼容 性 问题 。 库 的 开发 人 员 认为 可 以 修改 或 
删除 那些 不 属于 文档 中 记录 的 ABI 中 的 接口 ， 而 库 的 用 户 则 希望 继 
续 使 用 名 称 与 他 们 当前 正在 使 用 的 接口 名 称 一 样 的 接口 (同时 语义 
村 不 变 ) 。 

在 运行 时 符号 解析 阶段 ， 由 共享 库 导出 的 所 有 符号 可 能 会 优先 于 其 
他 共享 库 提供 的 相关 定义 〈 参 见 41.12 节 ) 。 

导出 非 必需 的 符号 会 增加 在 运行 时 需 加 载 的 动态 符号 表 的 大 小 。 


当 库 的 设计 人 员 确 保 只 导出 那些 库 的 声明 的 ABI 所 需 的 符号 就 能 使 
上 述 问题 发 生 的 可 能 性 降 到 最 低 或 避免 上 述 问 题 的 发 生 。 下 列 撤 术 可 以 
用 来 控制 符号 的 导出 。 
。 在 C 程 序 中 可 以 使 用 static 关 键 词 使 得 一 个 符号 私有 于 一 个 源 代码 模 
块 ， 从 而 使 得 它 无 法 和 被 其 他 目标 文件 绑 定 。 














除了 使 一 个 符号 私有 于 源 代 码 模块 之 外 ，static 关 键 词 
还 能 达到 一 个 相反 的 效 末 。 如 果 一 个 符号 被 标记 为 static， 
那么 在 同一 源 文件 中 对 该 符号 的 所 有 引用 会 被 绑 定 到 该 符 
号 的 定义 上 ， 其 结果 是 这 些 引用 在 运行 时 不 会 被 关联 到 其 
他 共享 库 中 的 相应 定义 上 《以 41.12 节 中 描述 的 方式 ) 。 
static 关 键 词 的 这 种 效果 类 似 于 41.12 节 中 介绍 的 链接 器 选 
项 ， 但 差别 在 于 static 关 键 词 只 影响 单个 源 文 件 中 的 单个 符 
Fo 


。 GNU C 编 译 占 gcc 提 供 了 一 个 特有 的 特性 声明 ， 它 执行 与 static 关 键 
词类 似 的 任务 。 


void 
attribute ((visibility("hidden"))) 
func(void) { 
/* Code */ 
} 





static 关 键 词 将 一 个 符号 的 可 见 性 限制 在 单个 源 代码 文件 中 ， 而 
hidden 特 性 使 得 一 个 符 写 对 构成 共 译 库 的 所 有 源 代码 文件 都 可 见 ， 但 对 
库 之 外 的 文件 不 可 见 。 





与 static 关 键 词 一 样 ，hidden 特 性 也 能 达到 一 个 相反 的 
效果 ， 即 防止 在 运行 时 发 生 符 号 插入 。 


。 版 本 脚本 (参见 42.3 节 ) 可 以 用 来 精确 控制 符号 的 可 见 性 以 及 选择 
将 一 个 引用 绑 定 到 符号 的 哪个 版 本 。 

。 当 动 态 加 载 一 个 共享 库 时 (参见 42.1.1 节 ) ，dlopen0 接 收 的 
RTLD_GLOBAL 标 记 可 以 用 来 指定 这 个 库 中 定义 的 符号 应 该 用 于 后 
续 加 载 的 库 中 的 绑 定 操作 ，-- -export-dynamic 链 接 器 选项 (参见 
42.1.6 节 ) 可 以 用 来 使 主 程序 的 全 局 符号 对 动态 加 载 的 库 可 用 。 


更 多 有 关 符 号 可 见 性 方面 的 细节 信息 可 以 参见 [Drepper, 2004 (b)]。 


42.3 ”链接 器 版 本 脚本 


版 本 脚本 是 一 个 包含 链接 器 ld 执行 的 指令 的 文本 文件 。 要 使 用 版 本 
脚本 必须 要 指定 - -version-script 链 接 器 选项 。 


$ gcc -Wl,--version-script,myscriptfile.map ... 


版 本 脚本 的 后 级 通常 (但 不 统一 ) 是 .map。 
下 面 几 节 将 介绍 版 本 脚本 的 几 个 用 途 


42.3.1 ”使 用 版 本 脚本 控制 符号 的 可 见 性 


版 本 脚本 的 一 个 用 途 是 控制 那些 可 能 会 在 无 意 中 变 成 全 局 可 见 〈 即 
对 与 该 库 进 行 链接 的 应 用 程序 可 见 ) 的 符号 的 可 见 性 。 举 一 个 简单 的 例 
子 ， 假 设 需要 从 三 个 源 文 件 vis comm.c、vis_fl.c 以 及 vis_f2.c 中 构建 一 
个 共享 库 ， 这 三 个 源 文件 分 别 定义 了 函数 vis_comm()、vis_f10 以 及 
vis_f2(). vis_comm()Pi 2 Hvis_f1() 和 vis_f20) 调 用 ， 但 不 想 被 与 该 库 进 
行 链接 的 应 用 程序 直接 使 用 。 再 假设 使 用 常规 的 方式 来 构建 共享 库 。 


$ gcc -g -c -fPIC -Wall vis comm.c vis_f1.c vis f2.c 
$ gcc -g -shared -o vis.so vis_comm.o Vis_f1.0 vis_f2.0 


如 果 使 用 下 面 的 readelf 命 令 来 列 出 该 库 导 出 动态 符号 ， 那 么 就 会 看 
到 下 面 的 输出 。 


$ readelf --syms --use-dynamic vis.so | grep vis_ 
30 12: 00000790 59 FUNC GLOBAL DEFAULT 10 vis f1 
25 13: 000007d0 73 FUNC GLOBAL DEFAULT 10 vis f2 
27 16: 00000770 20 FUNC GLOBAL DEFAULT 10 vis comm 














这 个 共享 库 导 出 了 三 个 符号 : vis_comm(). 、vis_f10 以 及 vis_f20， 但 
这 里 需要 确保 这 个 库 只 生出 vis _ 伍 0 和 vis_f20 符 号 。 这 种 效果 可 以 通过 
下 面 的 版 本 脚本 来 实现 。 


$ cat vis.map 
VER_1 { 
global: 
wis 1; 
vis f2; 
local: 
本 


3 


标识 符 VER_1 是 一 种 版 本 标签 。 在 42.3.2 节 对 符号 版 本 化 的 讨论 中 
将 会 看 到 一 个 版 本 脚本 可 以 包含 多 个 版 本 节点 ， 每 个 版 本 节点 以 括号 
QHP 组 织 起 来 并 且 在 括号 前 面 设 置 一 个 唯一 的 版 本 标签 。 如 果 使 用 版 
本 脚本 只 是 为 了 控制 符号 的 可 见 性 ， 那 么 版 本 标签 是 多 余 的 ， 但 老 版 本 
的 ld 仍然 需要 用 到 这 个 标签 。1d 的 现代 版 本 允许 省 略 版 本 标签 ， 如 果 省 
略 了 版 本 标签 的 话 就 认为 版 本 节点 拥有 一 个 匿名 版 本 标签 并 且 在 这 个 脚 
本 中 不 能 存在 其 他 版 本 节点 。 


在 版 本 节点 中 ， 关 键 词 global 标 记 出 了 以 分 号 分 隔 的 对 库 之 外 的 程 
序 可 见 的 符号 列表 的 起 始 位 置 ， 关 键 词 local 标 记 出 了 以 分 号 分 隔 的 对 库 
之 外 的 程序 隐藏 的 符号 列表 的 起 始 位 置 。 上 面 的 星 号 〈*) 说 明 在 符号 
规范 中 可 以 使 用 掩 码 模式 ， 所 使 用 的 掩 码 字符 与 shell 文 件 名 匹配 中 使 用 
的 描 码 字符 是 一 样 的 一 一 如 * 和 ?。 (更 多 细节 请 参考 glob(7) 手 册 。) 在 
本 例 中 ，local 规 范 中 的 星 号 表示 除了 在 global 段 中 显 式 声明 的 符号 之 外 
的 所 有 符号 都 对 外 隐藏 。 如 果 不 这 样 声 明 ， 那 么 vis_commO 仍 然 是 可 见 
的 ， 因 为 在 默认 情况 下 C 全 局 符号 对 共有 至 库 之 外 的 程序 是 可 见 的 。 

接着 可 以 像 下 面 这 样 使 用 版 本 脚本 来 构建 共 译 库 。 
$ gcc -g -c -fPIC -Wall vis comm.c vis f1.C vis f2.c 
$ gcc -g -shared -o vis.so vis_comm.o vis f1.0 vis_f2.0 \ 


-W1,--version-script,vis.map 


再 次 使 用 readelf 可 以 看 出 vis_comm() 不 再 对 外 可 见 了 。 


$ readelf --syms --use-dynamic vis.so | grep vis_ 
25 0: 00000730 73 FUNC GLOBAL DEFAULT 11 vis f2 
29 16: 000006f0 59 FUNC GLOBAL DEFAULT 11 vis f1 


42.3.2 ”符号 版 本 化 
符号 版 本 化 允许 一 个 共享 库 提 供 同 一 个 函数 的 多 个 版 本 。 每 个 程序 


























会 使 用 它 与 共享 库 进 行 〈 静 态 ) 链接 时 函数 的 当前 版 本 。 这 种 处 理 方式 
的 结果 是 可 以 对 共享 库 进 行 不 兼容 的 改动 而 无 需 提 升 库 的 主要 版 本 号 。 
从 极端 的 角度 来 讲 ， 符 号 版 本 化 可 以 取代 传统 的 共享 库 主 要 和 次 要 版 本 
化 模型 。glibc 从 2.1 开 始 使 用 了 这 种 符号 版 本 化 技术 ， 因 此 glibc 2.0 以 及 
之 前 的 所 有 版 本 都 是 通过 单个 主要 库 版 本 Clibe.so.6) 来 支持 的 。 


下 面 通 过 一 个 简单 的 例子 来 展示 符号 版 本 化 的 用 途 。 首 先 使 用 一 个 
版 本 脚本 来 创建 共 至 库 的 第 一 个 版 本 


$ cat sv lib vi.c 
#include <stdio.h> 

















void xyz(void) { printf("v1 xyz\n"); } 
$ cat sv_v1.map 
VER 1 { 
global: xyz; 
local: *; # Hide all other symbols 


}; 
$ gcc -g -c -fPIC -Wall sv lib vi.c 
$ gcc -g -shared -o libsv.so sv_lib_v1.0 -Wl,--version-script,sv_v1.map 


在 版 本 脚本 中 ，# 开 局 了 一 上段 注 释 。 


aa ree re eg nen era 
号 。) 


在 这 个 阶段 ， 版 本 脚本 sv_v1.map 只 用 来 控制 共享 库 的 符号 的 可 见 
性 ， 即 只 导出 xyz0， 同 时 隐藏 其 他 所 有 符号 《在 这 个 简短 的 例子 中 没有 
其 他 符号 了 ) 。 接 首创 建 一 个 程序 pl 来 使 用 这 个 库 。 


$ cat sv_prog.c 
#include <stdlib.h> 


int 
main(int argc, char *argv[]) 


void xyz(void); 
xyz(); 
exit(EXIT SUCCESS); 


$ gcc -g -o p1 sv_prog.c libsv.so 


运行 这 个 程序 之 后 就 能 看 到 预期 的 结果 。 


$ LD_LIBRARY_ PATH=. ./p1 
v1 xyz 


现在 假设 需要 修改 库 中 xyz0 的 定义 ， 但 同时 仍然 需要 确保 程序 p1 继 
续 使 用 老 版 本 的 函数 。 为 完成 这 个 任务 ， 必 须要 在 库 中 定义 两 个 版 本 的 
xyz()- 


$ cat sv_lib v2.c 
#include <stdio.h> 


__asm_(".symver xyz_old,xyz@VER 1"); 
__asm__(".symver xyz new, xyZ@@VER 2"); 


void xyz_old(void) { printf("v1 xyz\n"); } 
void xyz_new(void) { printf("v2 xyz\n"); } 


void pqr(void) { printf("v2 pqr\n"); } 


这 里 两 个 版 本 的 xyz0O 是 通过 函数 xyz_old0 和 xyz_new0 来 实现 的 。 
XyZ_ol1d0) 函 数 对 应 于 原来 的 xyz0 定 义 ，p] 程 序 应 该 继续 使 用 这 个 函数 。 
XyZ_newg0 函 数 提 供 了 与 库 的 新 版 本 进行 链接 的 程序 所 使 用 的 xyz0O 的 定 
Se 


修改 过 的 版 本 脚本 《〈 稍 后 给 出 ) 中 的 两 个 .symver 汇 编 器 指令 将 这 两 
个 函数 绑 定 到 了 两 个 不 同 的 版 本 标签 上 ， 下 面 将 使 用 这 个 脚本 来 创建 共 
享 库 的 新 版 本 。 第 一 个 指令 指示 与 版 本 标签 VER_1 进 行 链 接 的 应 用 程序 
《 即 程序 pl) 所 使 用 的 xyz0 的 实现 是 xyz_old()， 与 版 本 标签 VER_2 进 行 
链接 的 应 用 程序 所 使 用 的 xyz0 的 实现 是 xyz_new()。 


第 二 个 .symver 指 令 使 用 @@“〈 不 是 @) 来 指示 当 应 用 程序 与 这 个 共 
享 库 进 行 静态 链接 时 应 该 使 用 的 xyz0 的 默认 定义 。 一 个 符号 的 .symver 
指令 中 应 该 只 有 一 个 指令 使 用 @@ 标 记 。 


下 面 是 与 修改 过 之 后 的 库 对 应 的 版 本 脚本 。 


$ cat sv_v2.map 
VER 1 { 
global: xyz; 
locals #; # Hide all other symbols 





}; 


VER 2 { 


global: pqr; 
} VER 4; 


这 个 版 本 脚本 提供 了 一 个 新 版 本 标签 VER_2， 它 依赖 于 标签 
VER_1。 这 种 依赖 关系 是 通过 下 面 这 行进 行 标记 的 。 


} VER 1; 


版 本 标记 依赖 表明 了 相 邻 两 个 库 版 本 之 间 的 关系 。 从 语义 上 来 讲 ， 
Linux 上 的 版 本 标签 依赖 的 唯一 效果 是 版 本 节点 可 以 从 它 所 依赖 的 版 本 
节点 中 继承 global 和 1local 规 范 。 


依赖 可 以 串联 起 来 ， 这 样 就 可 以 定义 男 一 个 依赖 于 VER_2 的 版 本 市 
点 VER_3 并 以 此 类 推 地 定义 其 他 版 本 节点 。 


版 本 标签 名 本 身 是 没有 任何 意义 的 ， 它 们 相互 之 间 的 关系 是 通过 制 
定 的 版 本 依赖 来 确定 的 ， 因 此 这 里 选择 名 称 VER_1 和 VER_2 仪 仅 为 了 上 暗 
示 它 们 之 间 的 关系 。 为 了 便于 维护 ， 建 议 在 版 本 标签 名 中 包含 包 名 和 一 
个 版 本 号 。 如 glibc 会 使 用 名 为 GLIBC_2.0 和 GLIBC_2.1 之 类 的 版 本 标签 
is 

















VER_2 版 本 标签 还 指定 了 将 库 中 的 pqrO 函 数 导 出 并 绑 定 到 VER_2 版 
本 标签 。 如 果 没 有 通过 这 种 方式 来 声明 pqr()， 那 么 VER_2 版 本 标签 从 
VER._1 版 本 标签 继承 而 来 的 local 规 范 将 会 使 pqr0 对 外 不 可 见 。 还 需 注 意 
的 是 如 果 省 略 了 local 规 范 ， 那 么 库 中 的 xyz_old0 和 xyz_new0O 符 号 也 会 被 
导出 (这 通常 不 是 期 望 友 生 的 事情 〉。 


现在 按照 以 往 方式 构建 库 的 新 版 本 。 











$ gcc -g -c -fPIC -Wall sv_lib v2.c 
$ gec -g -shared -o libsv.so sv_lib v2.0 -W1,--version-script,sv_v2.map 


现在 创建 一 个 新 程序 p2， 它 使 用 了 xyz0 的 新 定义 ， 同 时 程序 p1 使 用 
了 旧版 的 xyz()。 


$ gcc -g -0 p2 sv_prog.c libsv.so 
$ LD_LIBRARY_PATH=. ./p2 


V2 xyz Uses xyz@VER_2 
$ LD LIBRARY PATH=. ./p1 
vi xyz Uses xyz@VER_1 





可 执行 文件 的 版 本 标签 依赖 是 在 静态 链接 时 进行 记录 的 。 使 用 
objdump -t 可 以 打印 出 每 个 可 执行 文件 的 符 写 表 ， 从 而 能 够 显示 出 两 个 
程序 中 不 同 的 版 本 标签 依赖 。 


$ objdump -t pi | grep xyz 


08048380 F *UND* 0000002e xyZ@@VER 1 
$ objdump -t p2 | grep xyz 
080483a0 F *UND* 0000002e xyz@QVER 2 


还 可 以 使 用 readelf -s 获 取 类 似 的 信息 。 


更 多 有 关 符 号 版 本 化 的 信息 可 以 通过 使 用 命令 info Id 
scripts version 以 及 访问 
http://people.redhat.com/drepper/symbol-versioning 来 获得 。 


42.4 初始 化 和 终止 函数 


可 以 定义 一 个 或 多 个 在 共享 库 被 加 载 和 利 载 时 自动 执行 的 函数 ， 这 
样 在 使 用 共享 库 时 就 能 够 完成 一 些 初始 化 和 终止 工作 了 。 不 管 库 是 自动 
被 加 载 还 是 使 用 dlopen 接 口 (参见 42.1 节 ) 显 式 加 载 的 ， 初 始 化 函数 和 
终止 函数 都 会 被 执行 。 


初始 化 和 终止 函数 是 使 用 gcc 的 constructor 和 destructor 特 性 来 定义 
的 。 在 库 被 加 载 时 需要 执行 的 所 有 函数 都 应 该 定义 成 下 面 的 形式 。 


void _attribute ((constructor)) some_name_load(void) 








/* Initialization code */ 


} 
FH, ENE PRA SCP o 
void _ attribute ((destructor)) some_name_unload(void) 


/* Finalization code */ 


} 





读者 可 以 根据 需要 使 用 其 他 名 字 蔡 换 函 数 名 some_name_load0 和 


some_name_unload(). 





使 用 gcc 的 constructor 和 destructor 特 性 还 能 创建 主 程序 
的 初始 化 函数 和 终止 函数 。 


_init0 和 _finiO 函 数 


用 来 完成 共享 库 的 初始 化 和 终止 工作 的 一 项 较 早 的 技术 是 在 库 中 创 
建 两 个 函数 init0 和 _fini0。 当 库 首 次 被 进程 加 载 时 会 执行 void 
_init(void) 中 的 代码 ， 当 库 被 外 载 时 会 执行 void __fini(void) 函 数 中 的 代 
人 


如 果 创 建 了 _init0 和 _fini0 函 数 ， 那 么 在 构建 共享 库 时 必须 要 指定 
gcc -nostartfiles 选 项 以 防止 链接 器 加 入 这 些 函 数 的 默认 实现 。〈 如 果 需 
要 的 话 可 以 使 用 -Wl,-init 和 -Wl,-fini 链 接 器 选项 来 指定 函数 的 名 称 。) 


有 了 gcc 的 constructor 和 destructor 特 性 之 后 已 经 不 建议 使 用 _init(0) 和 
_finiO 函 数 了 ， 因 为 gcc 的 constructor 和 destructor 特 性 允许 定义 多 个 初始 
化 和 终止 函数 。 


42.5 MIRRE JE 


HF wha AA, A EHR By DAA EEA te E E A Rk 
动态 链接 器 按照 41.11 节 中 介绍 的 规则 找 出 的 函数 〈 以 及 其 他 符号 ) 。 
要 完成 这 个 任务 可 以 定义 一 个 环境 变量 LD_PRELOAD， 其 值 由 在 加 载 
其 他 共享 库 之 前 需 加 载 的 共享 库 名 称 构成 ， 其 中 共享 库 名 称 之 间 用 空格 
或 冒号 分 隔 。 由 于 首先 会 加 载 这 些 共 享 库 ， 因 此 可 执行 文件 自动 会 使 用 
这 些 库 中 定义 的 函数 ， 从 而 履 盖 那些 动态 链接 器 在 其 他 情况 下 会 搜索 的 
同名 函数 。 如 假设 有 一 个 程序 调用 了 函数 x10 和 x2()， 并 且 这 两 个 函数 
a 这 样 当 运行 这 个 程序 时 会 看 到 下 面 这 样 的 
出 Do 


$ ./prog 
Called mod1-x1 DEMO 
Called mod2-x2 DEMO 


(在 本 例 中 假设 共享 库 位 于 其 中 一 个 标准 目录 中 ， 因 此 无 需 使 用 
LD _LIBRARY_PATH 坏 境 变 量 。) 


接着 需要 和 窗 新 函数 x1()， 这 可 以 通过 创建 为 一 个 包含 了 不 同 的 x10 
定义 的 共 至 库 libalt.so 来 完成 。 在 运行 这 个 程序 时 预 加 载 这 个 库 会 得 到 下 
面 的 输出 。 
$ LD_PRELOAD=libalt.so ./prog 


Called mod1-x1 ALT 
Called mod2-x2 DEMO 


从 上 面 的 输出 可 以 看 出 程序 调用 了 libalt.so 中 定义 的 x1()， 但 libalt.so 
ol 因此 对 x20 的 调用 仍然 会 调用 libdemo.so 中 定义 的 x20) 


LD_PRELOAD 环 境 变 量 控制 着 进程 级 别 的 预 加 载 行为 。 或 者 可 以 
使 用 /etc/ld.so.preload 文 件 来 在 系统 层面 完成 同样 的 任务 ， 该 文件 列 出 了 
以 空格 分 隔 的 库 列表 。 (LD_PRELOAD 指 定 的 库 将 在 加 
载 /etc/1d.so.preload 指 定 的 库 之 前 加 载 。) 


出 于 安全 原因 ，set-user-ID 和 set-group-ID 程 序 忽 略 了 
LD_PRELOAD. 

















42.6 ”监控 动态 链接 器 : LD_DEBUG 


有 些 时 候 需 要 监控 动态 链接 器 的 操作 以 弄 清楚 它 在 搜索 哪些 库 ， 这 
可 以 通过 LD_DEBUG 环 境 变量 来 完成 。 通 过 将 这 个 变量 设置 为 一 个 
(或 多 个 ) 标准 关键 词 可 以 从 动态 链接 器 中 得 到 各 种 跟踪 信息 。 


如 果 将 help 赋 给 LD_DEBUG， 那 么 动态 链接 器 会 输出 有 关 
LD_DEBUG 的 帮助 信息 ， 而 指定 的 命令 不 会 被 执行 。 


$ LD_DEBUG=help date 
Valid options for the LD DEBUG environment variable are: 








libs display library search paths 
reloc display relocation processing 
files display progress for input file 


symbols display symbol table processing 
bindings display information about symbol binding 
versions display version dependencies 


all all previous options combined 
statistics display relocation statistics 
unused determine unused DSOs 

help display this help message and exit 


要 将 调试 信息 输出 到 一 个 文件 中 而 不 是 标准 输出 中 ， 
则 可 以 使 用 LD_DEBUG_OUTPUT 环 境 变 量 指定 一 个 文件 
ae 








当 请 求 与 跟踪 库 搜索 相关 的 信息 时 会 产生 很 多 输出 ， 下 面 的 例子 对 
输出 进行 了 删 减 。 





$ LD _DEBUG=libs date 


10687: find library=librt.so.1 [0]; searching 
10687: search cache=/etc/1d.so.cache 
10687: trying file=/lib/librt.so.1 
10687: find library=libc.so.6 [0]; searching 
10687: search cache=/etc/ld.so.cache 
10687: trying file=/lib/libc.so.6 
10687: find library=libpthread.so.o [0]; searching 
10687: search cache=/etc/ld.so.cache 
10687: trying file=/lib/libpthread.so.0 
10687: calling init: /lib/libpthread.so.0 
10687: calling init: /lib/libc.so.6 
10687: calling init: /lib/librt.so.1 
10687: initialize program: date 
10687: transferring control: date 

Tue Dec 28 17:26:56 CEST 2010 
10687: calling fini: date [0] 
10687: calling fini: /lib/librt.so.1 [0] 
10687: calling fini: /lib/libpthread.so.o [0] 
10687: calling fini: /lib/libc.so.6 [0] 


每 一 行 开 头 处 的 10687 是 指 所 跟踪 的 进程 的 进程 ID， 当 监控 多 个 进 
程 《 如 父 进程 和 子 进程 ) 时 会 用 到 这 个 值 。 


在 默认 情况 下 ，LD_DEBUG 的 输出 会 被 写 到 标准 错误 上 ， 但 可 以 
将 一 个 路 径 名 赋 给 环境 变量 LD_DEBUG_OUTPUT 来 将 输出 重 定向 到 其 
他 地 方 。 


如 果 需 要 的 话 可 以 给 LD_DEBUG 赋 多 个 选项 ， 各 个 选项 之 间 用 去 
号 分 隔 (不 能 出 现 空格 )。symbols 选 项 (跟踪 动态 链接 器 的 符号 解 
析 ) 的 输出 特别 多 。 


LD_DEBUG 对 于 由 动态 链接 器 隐 式 加 载 的 库 和 使 用 dlopen0 动 态 加 
载 的 库 都 有 效 。 


出 于 安全 的 原因 ， 在 set-user-ID 和 set-setgroup-ID 程 序 中 将 会 忽略 
LD_DEBUG ( 自 glibc 2.2.5 起 ) 。 





42.7 总结 


动态 链接 需 提 供 了 dlopen API， 它 允许 程序 在 运行 时 显 式 地 加 载 其 
他 共 孚 库 ， 这 样 程序 就 能 够 实现 插件 功能 


共享 库 设 计 的 一 个 重要 方面 是 控制 符号 的 可 见 性 ， 这 样 库 就 能 够 只 
导出 那些 与 该 库 进 行 链接 的 程序 需要 用 到 的 符号 了 。 本 章 介 绍 了 几 项 用 
ee te raceme eee 
粒度 最 细 。 


本 章 还 介绍 了 如 何 使 用 版 本 脚本 来 实现 一 个 共 理 库 导 出 同一 符号 的 
多 个 定义 以 供与 该 库 进 行 链接 的 不 同 应 用 程序 使 用 的 模型 。《〈 各 个 应 用 
程序 使 用 它 与 库 进行 链接 链接 时 符号 的 当前 定义 。) 这 项 技术 为 传统 的 
在 共 至 库 真实 名 称 中 使 用 主要 和 次 要 版 本 与 来 继续 版 本 化 定理 的 方式 所 
供 了 一 个 丛 代 方案 。 


0 0 A 
一 段 代码 。 


使 用 LD_PRELOAD 环 境 变量 能 够 预 加 载 共 享 库 。 使 用 这 种 机 制 就 
能 够 有 选择 地 有 履 盖 那些 动态 链接 器 在 正常 情况 下 会 在 其 他 共享 库 中 找到 
的 函数 和 符号 。 


ip 可 以 将 各 种 值 赋 给 LD_DEBUG 环 境 变量 以 监控 动态 链接 器 的 操 












































更 多 信息 
更 多 信息 请 参考 在 41.14 节 中 列 出 的 信息 源 。 


42.8 “习题 


42-1. 编写 一 个 程序 来 验证 当 使 用 dlclose0 关 闭 一 个 库 时 如 果 其 中 
的 符号 还 在 被 其 他 库 使 用 的 话 将 不 会 卸载 这 个 库 。 


42-2. 在 程序 清单 42-1 中 的 程序 (dynload.c〉 中 添加 一 个 dladdrO 调 
用 以 获取 与 dlsymO 返 回 的 地 址 有 关 的 信息 。 打 印 出 返回 的 DL_info 结 构 
中 各 个 字段 的 值 并 验证 这 些 值 是 否 与 预期 的 值 一 样 。 





第 43 章 ”进程 间 通 信 简 介 


本 章 将 对 进程 和 线程 之 间 用 来 相互 通信 和 同步 操作 的 工具 进行 一 个 
简要 的 介绍 ， 下 面 的 章节 将 会 深入 介绍 这 些 工 具 的 细节 信息 。 


— 


43.1 IPC 工 具 分 类 


图 43-1 总 结 了 UNIX 系 统 上 各 种 通信 和 同步 工具 ， 并 根据 功能 将 它 


们 分 成 了 三 类 。 
。 通信 : 这 些 工具 关注 进程 之 间 的 数据 交换 。 
。 同步 : 这 些 进程 关注 进程 和 线程 操作 之 间 的 同步 。 
。 信号 : 尽管 信号 的 主要 作用 并 不 在 此 ， 但 在 特定 场景 下 仍然 可 以 将 


通常 


以 会 














它 作 为 一 种 同步 技术 。 更 罕见 的 是 信号 还 可 以 作为 一 种 通信 技术 : 
信号 编号 本 身 是 一 种 形式 的 信息 ， 并 且 可 以 在 实时 信号 上 绑 定 数据 
一 个 整数 或 指针 ) 。 第 20 章 到 第 22 章 对 信号 进行 了 介绍 。 


尽管 其 中 一 些 工具 关注 的 是 同步 ， 但 通用 术语 进程 间 通 信 (IPC) 
指 代 所 有 这 些 工 具 。 


从 图 43-1 中 可 以 看 出 ， 通 常 几 个 工具 会 提供 类 似 的 IPC 功 能 ， 之 所 
这 样 是 出 于 下 列 原因 。 


不 同 的 工具 在 不 同 的 UNIX 实 现 上 各 自 进行 演化 ， 随 后 被 移植 到 了 
其 他 UNIX 系 统 上 。 如 FIFO 首 先是 在 System V 上 实现 的 ， 而 “〈 流 ) 

socket 是 首先 是 在 BSD 上 实现 的 。 

新 工具 被 开发 出 来 用 于 弥补 之 前 类 似 的 工具 存在 的 不 足 。 如 POSIX 
IPC 工 具 《〈 消 息 队 列 、 信 和 号 量 以 及 共享 内 存 ) 是 对 较 早 的 System V 
IPC 工 具 的 改进 。 


图 43-1 中 被 分 成 一 组 的 工具 在 一 些 场景 中 会 提供 完全 不 同 的 功能 。 


























如 流 socket 可 以 用 来 在 网 络 上 通信 ， 而 FIFO 则 只 能 用 来 在 同一 机 器 上 的 
进程 间 进 行 通信 。 
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图 43-1: UNIX IPC 工 具 分 类 








43.2 ”通信 工具 


图 43-1 中 列 出 的 各 种 通信 工具 允许 进程 间 相 互 交 换 数据 。【〈 这 些 工 





具 还 可 以 用 来 在 同一 个 进程 中 不 同 线程 之 间 交 换 数 据 ， 但 很 少 需要 这 样 


做 ， 








因为 线程 之 间 可 以 通过 共 译 全 局 变量 来 交换 信息 。) 
可 以 将 通信 工具 分 成 两 类 。 


数据 传输 工具 : 区 分 这 些 工具 的 关键 因素 是 写 入 和 读 取 的 概 仿 。 为 
了 进行 通信 ， 一 个 进程 将 数据 写 入 到 IPC 工 具 中 ， 男 一 个 进程 从 中 
读 取 数据 。 这 些 工具 要 求 在 用 户 内 存 和 内 核 内 存 之 间 进 行 两 次 数据 
传输 : 一 次 传输 是 在 写 入 的 时 候 从 用 尸 内 存 到 内 核 内 存 ， 为 一 次 传 
输 是 在 读 取 的 时 候 从 内 核 内 存 到 用 户 内 存 。〔 图 43-2 展 示 了 管道 在 
这 一 场景 中 的 用 法 。) 








管道 
缓冲 区 
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图 43-2: 使 用 管道 在 两 个 进程 间 交 换 数据 


FEA FE: 共享 内 存 允 许 进 程 通 过 将 数据 放 到 由 进程 间 共 至 的 一 块 
内 存 中 以 完成 信息 的 交换 。 (内 核 通过 将 每 个 进程 中 的 页 表 条 目 指 
器 同一 个 RAM 分 页 来 实现 这 一 功能 ， 如 图 49-2 所 示 。) 一 个 进程 可 
以 通过 将 数据 放 到 共 至 内 存 块 中 使 得 其 他 进程 读 取 这 些 数 据 。 由 于 
通信 无 需 系 统 调用 以 及 用 户 内 存 和 内 核 内 存 之 间 的 数据 传输 ， 因 此 
共 至 内 存 的 速度 非常 快 。 

















数据 传输 


可 以 进一步 将 数据 传输 工具 分 成 下 列 类 别 。 


。 字 市 流 : 通过 管道 、FIFO 以 及 数据 报 socket 交 换 的 数据 是 一 个 无 分 
阳 符 的 字 节 流 。 每 个 读 取 操作 可 能 会 从 IPC 工 具 中 读 取 任意 数量 的 
字 节 ， 不 管 写 者 写 入 的 块 的 大 小 是 什么 。 这 个 模型 参考 了 传统 的 
UNIX“ 文 件 是 一 个 字 节 序列 ”模型 。 

。 消息 : 通过 System V 消 息 队 列 、POSIX 消 息 队 列 以 及 数据 报 socket 
交换 的 数据 是 以 分 隔 符 分 隔 的 消息 。 每 个 读 取 操作 读 取 由 写 者 写 入 
的 一 整 条 消息 ， 无 法 只 读 取 部 分 消息 ， 而 把 剩余 部 分 留 在 IPC 工 具 
中 ， 也 无 法 在 一 个 读 取 操 作 中 读 取 多 条 消息 。 

。 Wim: 伪 终 端 是 一 种 在 特殊 情况 下 使 用 的 通信 工具 ， 在 64 章 将 会 
介绍 有 关 伪 终端 的 详细 信息 。 


数据 传输 工具 和 共享 内 存 之 间 的 差别 包括 以 下 儿 个 方面 。 
。 尽管 一 个 数据 传输 工具 可 能 会 有 多 个 读 取 者 ， 但 读 取 操作 是 上 共有 破 
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在 socket 中 可 以 使 用 MSG_PEEK 标 记 来 执行 非 破坏 性 
读 取 【参见 61.3 节 ) 。UDP (Internet domain datagram) 
socket 人 允许 将 一 条 消息 广播 或 组 播 到 多 个 接收 者 处 〈 人 参见 
Gi aa 








。 读 取 者 和 写 者 进程 之 间 的 同步 是 原子 的 。 如 果 一 个 读 取 者 试图 从 一 
个 当前 不 包含 数据 的 数据 传输 工具 中 读 取 数据 ， 那 么 在 默认 情况 下 
读 取 操 作 会 被 阻塞 直至 一 些 进程 向 该 工具 写 入 了 数据 。 


FLEA FF 
大 多 数 现代 UNIX 系 统 提供 了 三 种 形式 的 共 译 内 存 : System VIE 


内 存 、POSIX 共 享 内 存 以 及 内 存 映 射 。 在 后 面 介 绍 这 些 工 具 的 章节 中 将 
会 描述 它们 之 间 的 差别 (特别 是 在 54.5 节 中 〉。 
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。 尽管 共享 内 存 的 通信 速度 更 快 ， 但 速度 上 的 优势 是 用 来 弥补 需要 对 
在 共享 内 存 上 发 生 的 操作 进行 同步 的 不 足 的 。 如 当 一 个 进程 正在 更 
新 共 孚 内 存 中 的 一 个 数据 结构 时 ， 另 一 个 进程 就 不 应 该 试图 读 取 这 
个 数据 结构 。 在 共 孚 内 存 中 ， 信 和 号 量 通 币 用 来 作为 同步 方法 。 

。 放 入 共有 至 内 存 中 的 数据 对 所 有 共有 至 这 块 内 存 的 进程 可 见 。 (这 与 上 
面 数据 传输 工具 中 介绍 的 破坏 性 读 取 语义 不 同 。) 











43.3 ”同步 工具 


通过 图 43-1 中 的 同步 工具 可 以 协调 进程 的 操作 。 通 过 同步 可 以 防止 








进程 执行 诸如 同时 更 新 一 块 共享 内 存 或 同时 更 新 文件 的 同一 个 数据 块 之 
类 的 操作 。 如 宋 没有 同步 ， 那 么 这 种 同时 更 新 的 操作 可 能 会 导致 应 用 程 
序 产 生 错 误 的 结果 。 


UNIX 系 统 提 供 了 下 列 同 步 工 具 。 


信号 量 : 一 个 信号 量 是 一 个 由 内 核 维护 的 整数 ， 其 值 永 远 不 会 小 于 
0。 一 个 进程 可 以 增加 或 减 小 一 个 信号 量 的 值 。 如 果 一 个 进程 试图 
将 信号 量 的 值 减 小 到 小 于 0， 那 么 内 核 会 阻塞 该 操作 直至 信号 量 的 
值 增长 到 允许 执行 该 操作 的 程度 。 (或 者 进程 可 以 要 求 执行 一 个 非 
阻塞 操作 ， 那 么 就 不 会 发 生 阻 守 ， 内 核 会 让 该 操作 立即 返回 并 返回 
一 个 标示 无 法 立即 执行 该 操作 的 错误 。) 信号 量 的 含义 是 由 应 用 程 
序 来 确定 的 。 一 个 进程 减 小 一 个 信号 量 〈 如 从 1 到 0) 是 为 了 预约 对 
某 些 共享 资源 的 独占 访问 ， 在 完成 了 资源 的 使 用 之 后 可 以 增加 信和 号 
量 来 释放 共享 资源 以 供 其 他 进程 使 用 。 最 稼 用 的 信和 号 量 是 二 元 信和 号 
量 一 一 一 个 值 只 能 是 0 或 1 的 信号 量 ， 但 人 处理 一 类 共享 资源 拥有 多 个 
实例 的 应 用 程序 需要 使 用 最 大 值 等 于 共享 资源 数量 的 信号 量 。 
Linux 既 提供 了 System V 信 号 量 ， 又 提供 了 POSIX 信 号 量 ， 它 们 的 功 
能 是 类 似 的 。 

文件 锁 : 文件 锁 是 设计 用 来 协调 操作 同一 文件 的 多 个 进程 的 动作 的 
一 种 同步 方法 。 它 也 可 以 用 来 协调 对 其 他 共享 资源 的 访问 。 文 件 锁 
分 为 两 类 : 读 〈 共 享 ) BAS CHR) Mt. FER DERE aD a WEA [Al 
一 文件 《或 一 个 文件 的 某 段 区 域 ) 的 读 锁 ， 但 当 一 个 进程 持 有 了 一 
个 文件 《或 文件 区 域 ) 的 写 锁 之 后 ， 其 他 进程 将 无 法 获取 该 文件 
(或 文件 区 域 ) 上 的 读 锁 和 写 锁 。Linux 通 过 flock0 和 fcntl0 系 统 调 
用 来 提供 文件 加 锁 工 具 。flock0O 系 统 调 用 提供 了 一 种 简单 的 加 锁 机 
制 ， 人 允许 进程 将 一 个 共享 或 互 斥 锁 加 到 整个 文件 上 。 由 于 功能 
限 ， 现 在 已 经 很 少 使 用 flockO 这 个 加 锁 工 具 了 。fcntl0 系 统 调用 提 
ane 允许 进程 在 同一 文件 的 不 同 区域 上 加 上 多 个 读 锁 和 
EV 

ALR ARIA: 这 些 同 步 工 具 通 常用 于 POSIX 线 程 ， 第 30 章 对 
IH SST ZE 
































一 些 UNIX 实 现 ， 包 括 安装 了 能 提供 NPTL 线 程 实现 的 
glibc 的 Linux 系 统 ， 允 许 在 进程 间 共享 互 斥 体 和 条 件 变 量 。 
SUSv3 人 允许 但 并 不 要 求实 现 支持 进程 间 共 享 的 互 斥 体 和 条 
件 变量 。 所 有 UNIX 系 统 都 没有 提供 这 个 功能 ， 因 此 很 少 使 
用 它们 来 进行 进程 同步 。 











在 执行 进程 间 同 步 时 通 币 需要 根据 功能 需求 来 选择 工具 。 当 协调 对 
文件 的 访问 时 文件 记录 加 锁 通 癌 是 最 佳 的 选择 ， 而 对 于 协调 对 其 他 共 圣 
资源 的 访问 来 讲 ， 信 写 量 通常 是 更 佳 的 选择 。 

通信 工具 也 可 以 用 来 进行 同步 。 如 在 44.3 节 中 使 用 了 一 个 管道 来 同 
父 进程 与 子 进程 的 动作 。 一 般 来 讲 ， 所 有 数据 传输 工具 都 可 以 用 来 同 
， 只 是 同步 操作 是 通过 在 工具 中 交换 消息 来 完成 的 。 











Sir Si 


自 内 核 2.6.22 起 ，Linux 通 过 eventfd() 系 统 调用 额外 提供 
了 一 种 非 标 准 的 同步 机 制 。 这 个 系统 调用 创建 了 一 个 
eventfd 对 象 ， 该 对 象 拥 有 一 个 相关 的 由 内 核 维 护 的 8 字 市 无 
符号 整数 ， 它 返回 一 个 指 同 该 对 象 的 文件 描述 符 。 辐 这 个 
文件 描述 符 中 写 入 一 个 整数 将 会 把 该 整数 加 a 到 对 象 值 上 。 
当 对 象 值 为 0 时 对 该 文件 摘 述 符 的 read0 操 作 将 会 被 阻塞 。 
如 果 对 象 的 值 非 零 ， 那 么 read0 会 返回 该 值 并 将 对 象 值 重 置 
为 0。 此 外 ， 可 以 使 用 polO、selectO 以 及 epoll 来 测试 对 象 值 
是 否 为 非 零 ， 如 果 是 非 堆 的话 就 表示 文件 摘 述 符 可 恋 。 使 
用 eventfd 对 象 进行 同步 的 应 用 程序 必须 要 首先 使 用 eventfd0) 
创建 该 对 象 ， 然 后 调用 forkO 创 建 继承 指 向 该 对 象 的 文件 描 
述 符 的 相关 进程 。 更 多 细节 信息 可 参考 eventfd(2) 手 册 。 











43.4 IPC 工 具 比 较 


在 需要 使 用 IPC 时 会 发 现 有 很 多 选择 ， 读 者 在 一 开始 可 能 会 对 这 些 
选择 感到 迷惑 。 在 后 面 介绍 各 个 IPC 工 具 的 章节 中 将 会 把 每 个 工具 与 其 
他 类 似 的 工具 进行 比较 。 下 面 介绍 在 确定 选择 何 种 IPC 工 具 时 通常 需要 
考虑 的 事项 。 


IPC 对 象 标识 和 打开 对 象 的 句柄 

要 访问 一 个 IPC 对 象 ， 进 程 必须 要 通过 某 种 方式 来 标识 出 该 对 象 ， 
一 旦 将 对 象 *“ 打 开 ” 之 后 ， 进 程 必须 要 使 用 某 种 句柄 来 引用 该 打开 着 的 对 
象 。 表 43-1 对 各 种 类 型 的 IPC 工 具 的 属性 进行 了 总 结 。 


表 43-1: 各 种 IPC 工 具 的 标识 符 和 句柄 


用 于 识别 对 象 的 名 称 | 用 于 在 程序 中 引用 对 象 的 句柄 


路 径 名 
IP 地 址 + 端口 号 


















































文件 描述 符 
文件 描述 符 


UNIX domain socket 
Internet domain socket 


System V 消 息 队 列 System V IPC 键 System V IPC 标 识 符 


System V IPC 标 识 符 





System V 信 和 号 量 System V IPC 键 














System V 共 享 内 存 





POSIX 消 息 队 列 
POSIX 命 名 信号 量 
POSIX 无 名 信号 量 
POSIX 共 享 内 存 


匿名 映射 
内 存 映 射 文件 





System V IPC 键 


POSIX IPC 路 径 名 
POSIX IPC 路 径 名 
没有 名 称 

POSIX IPC 路 径 名 














System V IPC 标 识 符 























sem_t * ( 


文件 描述 符 





flock(O 文 件 锁 路 径 名 文件 描述 符 
fcnt10 文 件 锁 路 径 名 文件 描述 符 





各 种 IPC 工 具 在 功能 上 是 存在 差异 的 ， 因 此 在 确定 使 用 何 种 工具 时 


下 面 首先 对 数据 传输 工具 盒 共 享 内 存 之 间 的 差异 进 
TZ 


数据 传输 工具 提供 了 读 取 和 写 入 操作 ， 传 输 的 数据 只 供 一 个 读者 进 
程 消耗 。 内 核 会 自动 处 理 读 者 和 写 者 之 间 的 流 控 以 及 同步 (这 样 当 
读者 试图 从 当前 为 空 的 工具 中 读 取 数据 时 将 会 阻 罕 〉。 在 很 多 应 用 
程序 设计 中 ， 这 个 模型 都 表现 得 很 好 。 

其 他 应 用 程序 设计 则 更 适合 采用 共享 内 存 的 方式 。 一 个 进程 通过 共 
译 内 存 能 够 使 数据 对 共 o Ghia eee aes 通信 “ 操 
VE” re LCBO Tl FF 空间 中 的 内 
存 那样 访问 共 bs Fe I M. 另 一 个 方面 同步 处 理 《 可 能 还 全 
AWI) 会 增加 共享 内 存 设计 的 复杂 性 。 在 需要 维护 共享 状态 《如 
FEB aM) 的 应 用 程序 中 ， 这 个 模型 表现 得 很 好 。 


关于 各 种 数据 传输 工具 ， 下 面 儿 点 是 值得 注意 的 。 


一 些 数据 传输 工具 以 字 节 流 的 形式 传输 数据 (管道 、FIFO 以 及 流 
socket) ， 另 一 些 则 是 面 回 消息 的 〈 消 息 队 列 和 数据 报 socket) 。 到 
底 选 择 何 种 方法 则 需 要 依赖 于 应 用 程序 。〈 应 用 程序 也 可 以 在 一 个 
字 节 流 工 具 上 应 用 面向 消息 的 模型 ， 这 可 以 通过 使 用 分 隔 字 符 、 固 
定 长 度 的 消息 ， 或 对 整 条 消息 长 度 进行 编 码 的 消息 头 来 实现 ， 有 具体 
可 参考 44.8 节 ) 。 

与 其 他 数据 传输 工具 相 比 ，System V 和 POSIX 消 息 队 列 特有 的 一 个 
特性 是 它们 能 够 给 消息 赋 一 个 数值 类 型 或 优先 级 ， 这 样 递送 消息 的 
顺序 就 可 以 与 发 送 消息 的 顺序 不 同 了 。 

管道 、FIFO 以 及 socket 是 使 用 文件 描述 符 来 实现 的 。 这 些 IPC 工 具 
都 文 持 第 63 章 中 介绍 的 一 组 IO 模型 : IO 多 路 复 用 〈select0 和 poll0) 
系统 调用 ) 、 信号 驱动 的 JO、 以 及 Linux 特 有 的 epoll AP[， 这 些 技 
术 的 主要 优势 在 于 它们 允许 应 用 程序 同时 监控 多 个 文件 描述 符 守 以 判 
Wri ee e System 
V 消 息 队 列 没 有 使 用 文件 描述 符 ， 因 此 并 不 文 持 这 些 技术 。 




















在 Linux 上，POSIX 消 息 队 列 也 是 使 用 文件 描述 符 来 实 
现 的 ， 因 此 也 支持 上 面 介 绍 的 各 种 IO 技术 。 但 SUSv3 并 没 
有 规定 这 种 行为 ， 因 此 在 大 多 数 实现 上 并 不 文 持 这 些 技 








。 POSIX 消 轧 队 列 提 供 了 一 个 通知 工具 ， 当 一 条 消息 进入 了 一 个 之 前 
为 空 的 队列 中 时 可 以 使 用 它 来 回 进 程 发 送信 号 或 实例 化 一 个 新 线 
程 


e UNIX domain socket 提 供 了 一 个 特性 允许 在 进程 间 传 递 文件 描述 
符 。 这 样 一 个 进程 就 能 够 打开 一 个 文件 并 使 之 对 男 一 个 本 来 无 法 访 
问 该 文件 的 进程 可 用 ， 在 61.13.3 节 中 将 会 对 此 特性 进行 简要 介绍 。 

e UDP (Internet domain datagram) socket 人 允许 一 个 发 送 者 辐 多 个 接收 
播 或 组 播 一 条 消息 ， 在 61.12 节 中 将 会 对 此 特性 进行 简要 介 
cH o 











关于 进程 同步 工具 ， 下 面 几 点 是 值得 注意 的 。 


使 用 fcntO 加 上 的 记录 锁 由 加 锁 的 进程 拥有 。 内 核 使 用 这 种 所 有 权 
属性 来 检测 死 锁 〈 两 个 或 多 个 进程 持 有 的 锁 会 阻塞 对 方 后 续 的 加 锁 
请 求 的 场景 )。 如 宁 发 生 了 和 死 锁 ， 那 么 内 核 会 拒绝 其 中 一 个 进程 的 
加 锁 请 求 ， 因 此 会 在 fcntO 调 用 中 返回 一 个 错误 标示 出 死 锁 的 发 
生 。System V 和 POSIX 信 和 号 量 并 没有 所 有 权 属 性 ， 因 此 内 核 不 会 为 
信号 量 进行 死 锁 检测 。 

当 使 用 fcnt10 获 得 记录 锁 的 进程 终止 之 后 会 自动 释放 该 记录 锁 。 
System V 信 号 量 提 供 了 一 个 类 似 的 特性 ， 即 “撤销 ?特性 ， 但 这 个 特 
性 仅 在 部 分 场景 中 可 靠 (参见 47.8 节 ) 。POSIX 信 号 量 并 没有 提供 
类 似 的 特性 。 


网 络 通 信 
在 图 43-1 中 给 出 所 有 IPC 方 法 中 ， 只 有 socket 允 许 进程 通过 网 络 来 通 


信 。socket 一 般 用 于 两 个 域 中 ， 一 个 是 UNIX domain， 它 允许 位 于 同一 
系统 上 的 进程 进行 通信 ; 男 一 个 是 Internet domain， 它 允许 位 于 通过 











TCP/IP 网 络 进行 连接 的 不 同 主机 上 的 进程 进行 通信 。 通 常 ， 将 一 个 使 用 
UNIX domain socket 进 行 通信 的 程序 转换 成 一 个 使 用 Internet domain 
socket 进 行 通信 的 程序 只 需要 做 出 微小 的 改动 ， 这 样 只 需要 对 使 用 UNIX 
domain socket 的 应 用 程序 做 较 小 的 改动 就 可 以 将 它 应 用 于 网 络 场景 。 


可 移植 性 


现代 UNIX 实 现 支 持 图 43-1 中 的 大 部 分 IPC 工 具 ， 但 POSIX IPC 工 具 
(消息 队列 、 信 号 量 以 及 共享 内 存 〉 的 普及 程度 远 远 不 如 System V 
IPC， 特 别 是 在 较 早 的 UNIX 系 统 上 。 (只 有 版 本 为 2.6.x 的 Linux 内 核 系 
列 才 提 供 了 一 个 POSIX 消 息 队 列 的 实现 以 及 对 POSIX 信 号 量 的 完全 文 
持 。) 因此 ， 从 可 移植 性 的 角度 来 看 ，System V IPC 要 优 于 POSIX 
IPC. 








System V IPC% tt [A] 


System V IPC 工 具 被 设计 成 独立 于 传统 的 UNIX VO 模型 ， 其 结果 是 
其 中 一 些 特性 使 得 它 的 编程 接口 的 用 法 更 加 复杂 。 相 应 的 POSIX IPC 工 
具 被 设计 用 来 解决 这 些 问 题 ， 特 别 是 下 面 几 点 需要 注意 。 


e System V IPC 工 具 是 无 连接 的 ， 它 们 没有 提供 引用 一 个 打开 的 IPC 
对 象 的 句柄 〈 类 似 于 文件 描述 符 ) 的 概念 。 在 后 面 的 章节 中 有 时 候 
会 将 “打开 ”一 个 System V IPPC 对象， 但 这 仅仅 是 描述 进程 获取 一 个 
引用 该 对 象 的 句柄 的 简便 方式 。 内 核 不 会 记录 进程 已 经 “打开 ”了 该 
对 象 ( 与 其 他 IPC 对 象 不 同 ) 。 这 意味 着 内 核 无 法 维护 当前 使 用 该 
对 象 的 进程 的 引用 计数 ， 其 结果 是 应 用 程序 需要 使 用 额外 的 代码 来 
知道 何 时 可 以 安全 地 删除 一 个 对 象 。 

System V IPC 工 具 的 编程 接口 与 传统 的 UNIX IO 模型 是 不 一 致 的 
(它们 使 用 整数 键 值 和 IPC 标 识 符 ， 而 不 是 路 径 名 和 文件 描述 

符 ) ， 并 且 这 个 编程 接口 也 过 于 复杂 了 。 这 一 点 在 System V 信 号 量 
上 表现 得 特别 明显 〈 人 参见 47.11 节 和 53.5 节 ) 。 

相反 ， 内 核 会 为 POSIX IPC 对 象 记录 打开 的 引用 数 ， 这 样 就 简化 了 
何 时 删除 对 象 的 决策 。 此 外 ，POSIX IPC 提 供 的 接口 更 加 简单 并 且 与 传 
统 的 UNIX 模 型 也 更 加 一 致 。 


可 访问 性 























表 43-2 中 的 第 二 列 总 结 了 各 种 IPC 工 具 的 一 个 重要 特性 : 权限 模型 


控制 着 哪些 进程 能 够 访问 对 象 。 下 面 介 绍 各 种 模型 的 细 市 信息 。 





对 于 一 些 IPC 工 具 (如 FIFO 和 socket) ， 对 象 名 位 于 文件 系统 中 ， 
可 访问 性 是 根据 相关 的 文件 权限 掩 码 (指定 了 所 有 者 、 组 和 其 他 用 
户 的 权限 ) 来 确定 的 (参见 15.4 节 ) 。 虽 然 System V IPC 对 象 并 不 
位 于 文件 系统 中 ， 但 每 个 对 象 拥有 一 个 相关 的 权限 掩 码 ， 其 BMS 
文件 的 权限 掩 码 类 似 。 

一 些 IPC 工 具 〈 管 道 、 匿 名 内 存 映 射 ) 被 标记 成 只 允许 相关 进程 访 
问 。 这 里 “相关 ” 指 通过 fork() 关 联 的 。 为 了 使 两 个 进程 能 够 访问 同 
一 个 对 象 ， 其 中 一 个 必须 要 创建 该 对 象 ， 然 后 调用 fork()。 而 fork0 
调用 的 结果 就 是 子 进程 会 继承 引用 该 对 象 的 一 个 句柄 ， 这 样 两 个 进 
程 就 能 够 共享 对 象 了 。 

POSIX 的 未 命名 信号 量 的 可 访问 性 是 通 含 该 信号 量 的 共享 内 存 
区 域 的 可 访问 性 来 确定 的 。 

为 了 给 一 个 文件 加 锁 ， 进 程 必须 要 拥有 一 个 引用 该 文件 的 文件 描述 
符 〈 即 在 实践 中 它 必 须要 拥有 打开 文件 的 权限 ) 。 

对 Internet domain socket 的 访问 〔 即 连接 或 发 送 数据 报 ) 没有 限制 。 
如 果 有 需要 的 话 ， 必 须要 在 应 用 程序 中 实现 访问 控制 。 












































表 43-2: 各 种 IPC 工 具 的 可 访问 性 和 持久 性 


仅 允 许 相关 进程 进 
权限 掩 码 j 

















UNIX domain socket 权限 掩 码 
Internet domain socket 任意 进程 





System V 消 息 队 列 
System V 信 号 量 
System V 共 享 内 存 




















POSIX 消 息 队 列 权限 掩 码 内 核 
POSIX 命 名 信号 量 ABR HEA 内 核 


POSIX 无 名 信号 量 相应 内 存 的 权限 依 情况 而 定 





POSIX 共 享 内 存 AL BR HEA 内 核 


匿名 映射 仅 允 许 相关 进程 
内 存 映射 文件 权限 掩 码 


flock() 文 件 锁 文件 的 open0 操 作 
fcntl0) 文 件 锁 文件 的 open0 操 作 
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列 。 


术语 持久 性 是 指 一 个 IPC 工 具 的 生命 周期 。 (参见 表 43-2 中 的 第 三 
) 持久 性 有 三 种 。 


进程 持久 性 : 只 要 存在 一 个 进程 持 有 进程 持久 的 IPC 对 象 ， 那 么 该 
对 象 的 生命 周期 束 不 会 终止 。 如 果 所 有 进程 都 关闭 了 对 象 ， 那 么 与 
该 对 象 的 所 有 内 核资 源 都 会 被 释放 ， 所 有 未 读 取 的 数据 会 被 销毁 。 
管道 、FIFO 以 及 socket 是 进程 持久 的 IPC 工 具 。 


FIFO 的 数据 持久 性 与 其 名 称 的 持久 性 是 不 同 的 。FIFO 
在 文件 系统 中 拥有 一 个 名 称 ， 当 所 有 引用 FIFO 的 文件 描述 
符 都 被 关闭 之 后 该 名 称 也 是 持久 的 。 


内 核 持 久 性 : 只 有 当 显 式 地 删除 内 核 持 久 的 IPC 对 象 或 系统 关闭 

时 ， 该 对 象 才 会 销毁 。 这 种 对 象 的 生命 周期 与 是 否 有 进程 打开 该 对 
象 无 关 。 这 意味 着 一 个 进程 可 以 创建 一 个 对 象 ， 向 其 中 写 入 数据 ， 
然后 关闭 该 对 象 〈 或 终止 ) 。 在 后 面 某 个 时 刻 ， 另 一 个 进程 可 以 打 
开 该 对 象 ， 然 后 从 中 读 取 数据 。 有 具备 内 核 持 久 性 的 工具 包括 System 
V IPC 和 POSIX IPC。 在 后 面 章 节 中 用 来 描述 这 些 工 具 的 示例 程序 
中 将 会 使 用 这 个 属性 ;对 于 每 种 工具 都 实现 一 个 单独 的 程序 ， 在 程 
序 中 创建 一 个 对 象 ， 然 后 删除 该 对 象 ， 并 执行 通信 或 同步 操作 。 








© 文件 系统 持久 性 : 具备 文件 系统 持久 性 的 IPC 对 象 会 在 系统 重启 的 


时 候 保持 其 中 的 信息 ， 这 种 对 象 一 直 存 在 直至 被 显 式 地 删除 。 唯 一 
nnn KIPCI Bt ee FAY FRAT SCPE EA 
Fo 


性 能 


在 一 些 场景 中 ， 不 同 IPC 工 具 的 性 能 可 能 存在 显著 的 差异 。 但 在 后 
面 的 章节 中 一 般 不 会 对 它们 的 性 能 进行 比较 ， 其 原因 如 下 。 


。 在 应 用 程序 的 整体 性 能 中 ，IPC 工 具 的 性 能 的 影响 因素 可 能 不 是 很 
大 ， 并 且 确 定 选择 何 种 IPC 工 具 可 能 并 不 仅仅 需要 考虑 其 性 能 因 


各 种 IPC 工 具 在 不 同 UNIX 实 现 或 Linux 的 不 同 内 核 中 的 性 能 可 能 是 
不 同 的 。 

最 重要 的 是 ，IPC 工 具 的 性 能 可 能 会 受到 使 用 方式 和 环境 的 影响 。 
相关 的 因素 包括 每 个 IPC 操 作 交 换 的 数据 单元 的 大 小 、IPC 工 具 中 未 
读数 据 量 可 能 很 大 、 每 个 数据 单元 的 交换 是 否 需 要 进行 进程 上 下 文 
切换 、 以 及 系统 上 的 其 他 负载 。 

如 果 IPC 性 能 是 至 关 紧 要 的 ， 并 且 不 存在 应 用 程序 在 与 目标 系统 匹 
配 的 环境 中 运行 的 性 能 基准 ， 那 么 最 好 编写 一 个 抽象 软件 层 来 向 应 用 程 
序 隐 藏 IPC 工 具 的 细节 ， 然 后 在 抽象 层 下 使 用 不 同 的 IPC 工 具 来 测试 性 
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43.5 总结 

本 章 概述 了 进程 〈 以 及 线程 ) 可 用 来 相互 通信 和 同步 动作 的 各 种 工 

Linux 提 供 的 通信 工具 包括 管道 、FIFO、socket、 消 息 队 列 以 及 共享 
内 存 。Linux 提 供 的 同步 工具 包括 信号 量 和 文件 锁 。 

在 很 多 情况 下 在 执行 一 个 给 定 的 任务 时 存在 多 种 技术 可 用 于 通信 和 

。 本 章 以 多 种 方式 对 不 同 的 技术 进行 了 比较 ， 其 目标 是 突出 可 能 对 
Deke eee ee 

在 后 面 的 章节 中 将 会 深入 介绍 各 种 通信 和 同步 工具 。 








43.6 “习题 


43-1. 编写 一 个 程序 来 测量 管道 的 带宽 。 在 命令 行 参 数 中 ， 程 序 应 
该 接收 需 发 送 的 数据 块 数目 以 及 每 个 数据 块 的 大 小 。 在 创建 一 个 管道 之 
后 ， 程 序 将 分 成 两 个 进程 : 一 个 子 进程 以 尽 可 能 快 的 速度 癌 管 道 写 入 数 
据 块 ， 父 进程 读 取 数 据 块 。 在 所 有 数据 部 被 读 取 之 后 ， 父 进程 应 该 打印 
出 所 消耗 的 时 间 和 带宽 (每 秒 传输 的 字 节 数 ) 。 为 不 同 的 数据 块 大 小 测 
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43-2. 使 用 System V 消 息 队 列 、POSIX 消 息 队 列 、UNIX domaini 
socket 以 及 UNIX domain 数 据 报 socket 来 重 做 上 面 的 练习 。 使 用 这 些 程序 
来 比较 各 种 IPC 工 具 在 Linux 上 的 相对 性 能 。 读 者 如 果 能 够 使 用 其 他 
UNIX 实 现 ， 那 么 在 那些 系统 上 执行 同样 的 比较 。 


第 44 革 管道 和 FIFO 


本 章 介 绍 管道 和 FIFO。 管 道 是 UNIX 系 统 上 最 古老 的 IPC 方 法 ， 它 
在 20 世 纪 70 年 代 早 期 UNIX 的 第 三 个 版 本 上 就 出 现 了 。 管 道 为 一 个 常见 
需求 提供 了 一 个 优雅 的 解决 方案 : 给 定 两 个 运行 不 同 程序 (命令) 的 进 
程 ， 在 shell 中 如 何 让 一 个 进程 的 输出 作为 另 一 个 进程 的 输入 呢 ? 管道 可 
以 用 来 在 相关 进程 之 间 传 递 数 据 〈 读 者 阅读 完 后 面 的 几 页 之 后 就 能 够 理 
解 “ 相 关 ” 的 含义 了 〉。FIFO 是 管道 概念 的 一 个 变 体 ， 它 们 之 间 的 一 个 重 
要 差别 在 于 FIFO 可 以 用 于 任意 进程 间 的 通信 。 











44.1 概述 

每 个 shel 用户 都 对 在 命令 中 使 用 管道 比较 熟悉 ， 如 下 面 这 个 统计 一 
个 目录 中 文件 的 数目 的 命令 所 示 。 
$ 1s | we -1 

为 执行 上 面 的 命令 ，shell 创 建 了 两 个 进程 来 分 别 执行 和 wc。 (这 
是 通过 使 用 fork0 和 exec0 来 完成 的 ， 第 24 章 和 第 27 章 分 别 对 这 两 个 函数 
进行 了 介绍 。) 图 44-1 展 示 了 这 两 个 进程 是 如 何 使 用 管道 的 。 
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图 44-1: 使 用 管道 连接 两 个 进程 














除了 说 明 管 道 的 用 法 之 外 ， 图 44-1 的 另外 一 个 目的 是 阐明 管道 这 个 
和 
[ab ees 


在 图 44-1 中 有 一 点 值得 注意 的 是 两 个 进程 都 连接 到 了 管道 上， 这 样 
写 入 进程 Us) 就 将 其 标准 输出 (文件 描述 符 为 1) 连接 到 了 管道 的 写 入 
端 ， 读 取 进 程 (wc) 就 将 其 标准 输入 文件 描述 符 为 9) 连接 到 管道 的 
读 取 端 。 实 际 上 ， 这 两 个 进程 并 不 知道 管道 的 存在 ， 它 们 只 是 从 标准 文 
件 描述 符 中 读 取 数据 和 写 入 数据 。shell 必 须要 完成 相关 的 工作 ， 在 44.4 
节 中 将 会 介绍 shell 是 如 何 完成 这 些 工作 的 。 


下 面 儿 个 段落 将 会 介绍 管道 的 几 个 重要 特征 。 
个 管道 是 一 个 字 市 流 
当 讲 到 管道 是 一 个 字 节 流 时 意味 痢 在 使 用 管道 时 是 不 存在 消息 或 消 


奶 边 界 的 概念 的 。 从 管道 中 读 取 数 据 的 进程 可 以 读 取 任意 大 小 的 数据 
块 ， 而 不 定 写 入 进程 写 入 管道 的 数据 块 的 大 小 是 什么 。 此 外 ， 通 过 管道 





























传递 的 数据 是 顺序 的 一 一 从 管道 中 读 取出 来 的 字 节 的 顺序 与 它们 被 写 入 
— 的 顺序 是 完全 一 样 的 。 在 管道 中 无 法 使 用 lseek0 来 随机 地 访问 数 
iii o 


OUR is 22 TEE PSS BCE Ss, ABA EENH BE 
中 完成 这 些 工 作 。 虽 然 这 是 可 行 的 《参见 44.8 节 ) ， 但 如 果 碰 到 这 种 需 
求 的 话 最 好 使 用 其 他 IPC 机 制 ， 如 消 奶 队列 和 数据 报 socket， 本 书 在 后 面 


几 个 章节 中 就 会 介绍 它们 。 
从 管道 中 读 取 数据 


试图 从 一 个 当前 为 空 的 管道 中 读 取 数据 将 会 被 阻 罕 直到 人 至少 有 一 个 
字 节 被 写 入 到 管道 中 为 止 。 如 果 管 道 的 号 入 端 被 天 闭 了 ， 那 么 从 管道 中 
该 取 数 据 的 进程 在 读 完 管 道中 剩余 的 所 有 数据 之 后 将 会 看 到 文件 结 
《 即 read0 返 回 0) 。 


管道 是 单 问 的 


在 管道 中 数据 的 传递 方向 是 单 癌 的 。 管 道 的 一 段 用 于 写 入 ， 另 一 端 
则 用 于 读 取 。 


在 其 他 一 些 UNIX 实 现 上 特别 是 那些 从 System V Release 4 演化 
而 来 的 系统 一 一 管道 是 双 回 的 〈 所 谓 的 流 管 道 ) 。 双 回 管 道 并 没有 在 任 
何 UNIX 标 准 中 进行 规定 ， 因 此 即使 在 提供 了 双 回 管道 的 实现 上 最 好 也 
避免 依赖 这 种 语义 。 作 为 蔡 代 方案 ， 可 以 使 用 UNIX domain 流 socket 对 
(通过 使 用 57.5 节 中 介绍 的 socketpairO 系 统 调用 来 创建 ) ， 它 提供 了 一 
种 标准 的 双 回 通信 机 制 ， 并 且 其 语义 与 流 管道 是 等 价 的 。 


可 以 确保 写 入 不 超过 PIPE_BUF 字 节 的 操作 是 原子 的 


如 果 多 个 进程 写 入 同一 个 管道 ， 那 么 如 果 它 们 在 一 个 时 刻写 入 的 数 
eae ， 那 么 就 可 以 确保 写 入 的 数据 不 会 发 生 相 互 
混合 的 情况 。 


SUSV3 要 求 PIPE_BUF 至 少 为 POSIX_PIPE_BUF (512) 。 一 个 实 
现 应 该 定义 PIPE_BUF (在 <limits.h> 中 ) 并 /或 允许 调用 
fpathconf(fd，PC_PIPE_BUF) 来 返回 原子 写 入 操作 的 实际 上 限 。 不 同 
UNIX 实 现 上 的 PIPE_BUF 不 同 ， 如 在 FreeBSD 6.0 其 值 为 512 字 节 ， 在 























Tru64 5.1 上 其 值 为 4096 字 节 ， 在 Solaris 8 上 其 值 为 5120 字 节 。 在 Linux 
上 ，PIPE_BUF 的 值 为 4096。 


当 写 入 管道 的 数据 块 的 大 小 超过 了 PIPE_BUF 字 节 ， 那 么 内 核 可 能 
会 将 数据 分 割 成 几 个 较 小 的 片段 来 传输 ， 在 读者 从 管道 中 消耗 数据 时 再 
附加 上 后 续 的 数据 。 (writeO 调 用 会 阻塞 直到 所 有 数据 被 写 入 到 管道 为 
止 。) 当 只 有 一 个 进程 向 管道 号 入 数据 时 〈 通 第 的 情况 ) ，PIPE_BUF 
的 取 值 就 没有 关系 了 。 但 如 果 有 多 个 写 入 进程 ， 那 么 大 数据 块 的 写 入 可 
能 会 被 分 解 成 任意 大 小 的 段 〈 可 能 会 小 于 PIPE_BUFE 字 节 ) ， 并 且 可 能 
会 出 现 与 其 他 进程 写 入 的 数据 交叉 的 现象 。 


只 有 在 数据 被 传输 到 管道 的 时 候 PIPE_BUF 限 制 才 会 起 作用 。 当 写 
入 的 数据 达到 PIPE_BUF 字 节 时 ，write0 会 在 必要 的 时 候 阻 塞 直到 管道 
中 的 可 用 空间 足以 原子 地 完成 操作 。 如 果 写 入 的 数据 大 于 PIPE_BUF 字 
节 ， 那 么 write0 会 尽 可 能 地 多 传输 数据 以 充满 整个 管道 ， 然 后 阻塞 直到 
一 些 读 取 进程 从 管道 中 移 除 了 数据 。 如 果 此 类 阻塞 的 write0 被 一 个 信和 号 
处 理 嚣 中断 了 ， 那 么 这 个 调用 会 被 解除 阻塞 并 返回 成 功 传输 到 管道 中 的 
字 节 数 ， 这 个 字 节 数 会 少 于 请 求 瑟 入 的 字 节 数 〈 所 谓 的 部 分 写 入 ) 。 





在 Linux 2.2 上 ， 向 管道 写 入 任意 数量 的 数据 都 是 原子 
的 ， 除 非 写 入 操作 被 一 个 信号 处 理 器 中 断 了 。 在 Linux 2.4 
以 及 后 续 的 版 本 上 ， 写 入 数据 量 大 于 PIPE_BUF 字 市 的 所 有 
操作 都 可 能 会 与 其 他 进程 的 号 入 操作 发 生 交 叉 。 【在 版 本 
号 为 2.2 和 2.4 的 内 核 中 ， 实 现 管道 的 内 核 代 码 存在 很 大 的 差 





[ 实 是 一 个 在 内 核 内 存 中 维护 的 缓冲 莫 ， 这 个 缓冲 器 的 存储 能 
力 是 有 限 的 。 一 旦 管道 被 填 满 之 后 ， 后 续 回 该 管道 的 写 入 操作 就 会 被 阻 
塞 直到 读者 从 管道 中 移 除 了 一 些 数据 为 目 。 








SUSv3 并 没有 规定 管道 的 存储 能 力 。 在 早 于 2.6.11 的 Linux 内 核 中 ， 
管道 的 存储 能 力 与 系统 页 面 的 大 小 是 一 致 的 《如 在 x86-32 上 是 4096 字 
W) ， 而 从 Linux 2.6.11 起 ， 管 道 的 存储 能 力 是 65,536 字 节 。 其 他 UNIX 
实现 上 的 管道 的 存储 能 力 可 能 是 不 同 的 。 


- 般 来 讲 ， 一 个 应 用 程序 无 需 知道 省 道 的 实际 存储 能 力 。 如 果 需 要 
防止 写 者 进程 阻 蛙 ， 那 么 从 管道 中 读 取 数 据 的 进程 应 该 被 设计 成 以 尽 可 
能 快 的 速度 从 管道 中 读 取 数据 。 








从 理论 上 来 讲 ， 没 有 任何 理由 可 以 支持 存储 能 力 较 小 
的 管道 无 法 正常 工作 这 个 结论 ， 哪 怕 管 道 的 存储 能 力 只 有 
一 个 字 节 。 使 用 较 大 的 缓冲 器 的 原因 是 效率 : 每 当 写 者 充 
满 管道 时 ， 内 核 必须 要 执行 一 个 上 下 文 切换 以 允许 读者 被 
调度 来 消耗 管道 中 的 一 些 数据 。 使 用 较 大 的 缓冲 句 意 味 大 
需 执 行 的 上 下 文 切换 次 数 更 少 。 








从 Linux 2.6.35 开 始 就 可 以 修改 一 个 管道 的 存储 能 

了 。Linux 特 有 的 fcntl(fd, F_SETPIPE_SZ, size) 调 用 会 将 fd 引 
用 的 管道 的 存储 能 力 修 改 为 至 少 size 字 节 。 非 特权 进程 可 以 
将 管道 的 存储 能 力 修 改 为 范围 在 系统 的 页 面 大 小 
到 /proc/sys/fs/pipe-max-size 中 规定 的 值 之 内 的 任何 一 个 值 。 
pipe-max-size 的 默认 值 是 1048576 字 节 。 特 权 

(CAP_SYS_RESOURCE) 进程 可 以 覆盖 这 个 限制 。 在 为 
管道 分 配 空间 时 ， 内 核 可 能 会 将 size 提 升 为 对 实现 来 讲 更 加 
便捷 的 某 个 值 。fcntl(fd, F_GETPIPE_SZ) 调 用 返回 为 管道 分 
配 的 实际 大 小 。 








44.2 创建 和 使 用 管道 
pipeO 系 统 调用 创建 一 个 新 管道 。 





#include <unistd.h> 


int pipe(int ftledes[2]); 








Returns 0 on success, or -1 on error 





成 功 的 pipeO 调 用 会 在 数组 filedes 中 返回 两 个 打开 的 文件 描述 符 : 一 
个 表示 管道 的 读 取 端 〈fiedes[0]) ， 另 一 个 表示 管道 的 写 入 端 
(filedes[1]) 。 


与 所 有 文件 描述 符 一 样 ， 可 以 使 用 read0 和 write0) 系 统 调用 来 在 管道 
上 执行 WO。 一 旦 同 管道 的 写 入 端 写 入 数据 之 后 立即 就 能 从 管道 的 读 取 
端 读 取 数据 。 管 道上 的 read0 调 用 会 读 取 的 数据 量 为 所 请 求 的 字 节 数 与 
管道 中 当前 存在 的 字 节 数 两 者 之 间 较 小 的 那个 〈 但 当 管 道 为 空 时 阻 
塞 ) 。 

也 可 以 在 管道 上 使 用 stdio 函 数 〈printfO0、scanfO0 等 ) ， 只 需要 首先 
使 用 fdopen0 获 取 一 个 与 fledes 中 的 某 个 摘 述 符 对 应 的 文件 流 即 可 《参见 


13.7 节 ) 。 但 在 这 样 做 的 时 候 需 要 清楚 在 44.6 节 中 介绍 的 stdio 绥 冲 问 
题 。 

















ioctl(fd, FIONREAD, &cnb 调 用 返回 文件 描述 符 fq 所 引 
用 的 管道 或 FIFO 中 未 读 取 的 字 节 数 。 其 他 一 些 实现 也 提供 
了 这 个 特性 ， 但 SUSv3 并 没有 对 此 进行 规定 。 





图 44-2 给 出 了 使 用 pipeO 创 建 完 管道 之 后 的 情况 ， 其 中 调用 进程 通 
过 文件 描述 符 引 用 了 管道 的 两 端 。 








调用 进程 
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图 44-2: 在 创建 完 管道 之 后 处 理 文件 描述 符 


在 单个 进程 中 管道 的 用 途 不 多 (在 63.5.2 节 中 将 会 介绍 一 种 用 
R) 。 一 般 来 讲 都 是 使 用 管道 让 两 个 进程 进行 通信 。 为 了 让 两 个 进程 通 
过 管道 进行 连接 ， 在 调用 完 pipe0 之 后 可 以 调用 fork0。 在 forkO 期 间 ， 子 
进程 会 继承 父 进 程 的 文件 描述 符 的 副本 《参见 24.2.1 节 ) ， 这 样 就 会 出 
现 图 44-3 中 左边 那样 的 情形 。 





filedes{ 1] 


父 进程 
filedes[1]  filedes[0] 


filedes[O] 
子 进程 


filedes[1}  filedesj0] 
子 进程 
a) 调用 fork0 之 后 b) 关闭 未 使 用 的 描述 符 之 后 





图 44-3: 设置 管道 来 将 数据 从 父 进程 传输 到 子 进程 


虽然 父 进程 和 子 进 程 都 可 以 从 管道 中 读 取 和 写 入 数据 ， 但 这 种 做 法 
并 不 常见 。 因 此， 在 fork() 调 用 之 后 ， 其 中 一 个 进程 应 该 立即 关闭 管道 
的 写 入 端的 描述 符 ， 另 一 个 则 应 该 关闭 读 取 端 的 描述 符 。 如 ， 如 果 父 进 
程 需要 向 子 进程 传输 数据 ， 那 么 它 就 会 关闭 管道 的 读 取 端 的 描述 符 
filedes[0]， 而 子 进 程 就 会 关闭 管道 的 写 入 端的 描述 符 filedes[1， 这 样 就 
人 
CAG, 



























































程序 清单 44-1: 使 用 管道 将 数据 从 父 进程 传输 到 子 进程 所 需 的 步骤 








int filedes[2]; 


if (pipe(filedes) == -1) /* Create the pipe */ 
errExit("pipe"); 

switch (fork()) { /* Create a child process */ 

case -1: 


errExit ("fork"); 


case 0: /* Child */ 
if (close(filedes[1]) == -1) /* Close unused write end */ 
errExit("close"); 


/* Child now reads from pipe */ 
break; 


default: /* Parent */ 
if (close(filedes[o]) == -1) /* Close unused read end */ 
errExit("close"); 


/* Parent now writes to pipe */ 
break; 


} 





让 父 进程 和 子 进程 都 能 够 从 同一 个 管道 中 读 取 和 写 入 数据 这 种 做 法 
并 不 种 见 的 一 个 原因 是 如 果 两 个 进程 同时 试图 从 管道 中 读 取 数据 ， 那 么 
就 无 法 确定 哪个 进程 会 首先 读 取 成 功 一 一 两 个 进程 竞争 数据 了 。 要 防止 
这 种 苋 搜 情况 的 出 现 束 需要 使 用 杀 种 同步 机 制 。 但 如 果 需 要 双向 通信 则 
可 以 使 用 一 种 更 加 简单 的 方法 : 创建 两 个 管道 ， 在 两 个 进程 之 间 发 送 数 
据 的 两 个 方向 上 各 使 用 一 个 。《 如 宁 使 用 这 种 技术 ， 那 么 就 需要 考 碟 死 
锁 的 问题 了 ， 因 为 如 果 两 个 进程 都 试图 从 空 管道 中 读 取 数据 或 尝试 同 已 
满 的 管道 中 写 入 数据 束 可 能 会 及 生死 锁 。) 


虽然 可 以 有 多 个 进程 向 单个 管道 中 写 入 数据 ， 但 通常 只 存在 一 个 写 
者 。【〔 在 44.3 市 中 将 会 给 出 一 个 使 用 多 个 写 者 同一 个 管道 写 入 数据 的 例 
子 。) 相反 ， 在 有 些 情况 下 让 FIFO 拥 有 多 个 写 者 是 比较 有 用 的 ， 在 44.8 
节 中 将 会 给 出 一 个 这 样 的 例子 。 














从 2.6.27 内 核 开始 ，Linux 支 持 一 个 全 新 的 非 标准 系统 
调用 pipe2()。 这 个 系统 调用 执行 的 任务 与 pipe() 一 样 ， 但 支 


持 额 外 的 参数 flags， 这 个 参数 可 以 用 来 修改 系统 调用 的 行 
为 。 这 个 系统 调用 支持 两 个 标记 ， 一 个 是 O_CLOEXEC， 
它 会 导致 内 核 为 两 个 新 的 文件 描述 符 局 用 close-on-exec 标 记 
(FD_CLOEXEC) 。 这 个 标记 之 所 以 有 用 的 原因 与 在 4.3.1 
节 中 介绍 的 open() O_CLOEXEC 标 记 有 用 的 原因 一 样 。 另 一 
个 是 O NONBLOCK 标 记 ， 它 会 导致 内 核 将 底层 的 打开 的 
文件 描述 符 标 记 为 非 阻塞 ， 这 样 后 续 的 IO 操作 会 是 非 阻塞 
的 。 这 样 就 能 够 在 不 调用 fcntl0 的 情况 下 达到 同样 的 效果 
Te 


管道 允许 相关 进程 间 的 通信 


目前 为 止 本 章 已 经 介绍 了 如 何 使 用 管道 来 让 父 进程 和 子 进 程 之 间 进 
行 通 信 ， 其 实 管道 可 以 用 于 任意 两 个 〈 或 更 多 ) 相关 进程 之 间 的 通信 ， 
只 要 在 创建 子 进程 的 系列 forkO 调 用 之 前 通过 一 个 共同 的 祖先 进程 创建 
管道 即 可 。《〈 这 就 是 本 章 开头 部 分 所 讲 的 “相关 进程 的 含义 。) 如 管道 
可 用 于 一 个 进程 和 其 孙子 进程 之 间 的 通信 。 第 一 个 进程 创建 管道 ， 然 后 
创建 子 进程 ， 接 着 子 进程 再 创建 第 一 个 进程 的 孙子 进程 。 管 道 通 闻 用 于 
两 个 兄 第 进程 之 间 的 通信 一 一 它们 的 父 进 程 创 建 了 管道 ， 然 后 创建 两 个 
子 进 程 。 这 就 是 在 构建 管道 线 时 shell 所 做 的 工作 。 


























管道 只 能 用 于 相关 进程 之 间 的 通信 这 个 说 法 存在 一 种 
例外 情况 。 通 过 UNIX domain socket (在 61.13.3 节 中 将 会 简 
要 介绍 的 一 项 技术 ) 传递 一 个 文件 描述 符 使 得 将 管道 的 一 
个 文件 摘 述 符 传 递 给 一 个 非 相 关 进 程 成 为 可 能 。 








关闭 未 使 用 管道 文件 描述 符 





关闭 未 使 用 管 着 文件 描述 符 不 仅仅 是 为 了 确保 进程 不 会 耗 尽 其 文件 
描述 符 的 限制 一 一 这 对 于 正确 使 用 管道 是 非常 重要 的 。 下 面 介 绍 为 何必 
须要 关闭 管道 的 读 取 端 和 写 入 问 的 未 使 用 文件 描述 符 。 


从 管道 中 读 取 数 据 的 进程 会 关闭 其 持 有 的 管道 的 写 入 描述 符 ， 这 样 
当 其 他 进程 完成 输出 并 关闭 其 写 入 描述 符 之 后 ， 读 者 就 能 够 看 到 文件 结 
束 〈 在 读 完 管道 中 的 数据 之 后 〉。 


如 果 读 取 进程 没有 关闭 管道 的 写 入 端 ， 那 么 在 其 他 进程 关闭 了 写 入 
描述 符 之 后 ， 污 者 也 不 会 看 到 文件 结束 ， 即 使 它 读 完了 管道 中 的 所 有 数 
据 。 相 反 ，read0 将 会 阻塞 以 等 待 数 据 ， 这 是 因为 内 核 知道 至 少 还 存在 
个 管道 的 写 入 描述 符 打开 着 ， 即 读 取 进 程 自己 打开 了 这 个 描述 符 。 从 
理论 上 来 讲 ， 这 个 进程 仍然 可 以 向 管道 写 入 数据 ， 即 使 它 已 经 被 读 取 操 
作 阻 塞 了 。 如 readO 可 能 hiu 被 一 个 向 管道 号 入 数据 的 信号 处 理 器 中 断 。 
(这 是 现实 世界 中 的 一 种 场景 ， 读 者 在 63.5.2 节 中 将 会 看 到 。) 


写 入 进程 关闭 其 持 有 的 管道 的 读 取 描述 符 是 出 于 不 同 的 原因 。 当 一 
个 进程 试图 向 一 个 管道 中 写 入 数据 但 没有 任何 进程 拥有 该 管道 的 打开 着 
的 读 取 摘 述 符 时 ， 内 核 会 同 写 入 进程 发 送 一 个 SIGPIPE 信 和 号。 在 默认 情 
况 下 ， 这 个 信号 会 杀 死 一 个 进程 。 但 进程 可 以 捕获 或 忽略 该 信号 ， 这 样 
就 会 导致 管道 上 的 write0 操 作 因 EPIPE 错 误 (已 损坏 的 管道 ) 而 失败 。 
收 到 SIGPIPE 信 号 或 得 到 EPIPE 错 误 对 于 标示 出 管道 的 状态 是 有 用 的 ， 
这 就 是 为 何 需 要 关闭 管道 的 未 使 用 读 取 描述 符 的 原因 。 



































JER: 对 被 SIGPIPE 处 理 嚣 中断 的 write() 的 处 理 是 特殊 
的 。 通 常 ， 当 write0) 〈 或 其 他 “ 慢 ” 系 统 调用 ) 被 一 个 信号 处 
理 器 中断 时 ， 这 个 调用 会 根据 是 否 使 用 sigaction() 
SA_RESTART 标 记 安 装 了 处 理 器 而 上 自动 重启 或 因 EINTR 错 
误 而 失败 (参见 21.5 节 )〉 。 对 SIGPIPE 的 处 理 不 同 是 因为 自 
动 重启 write0) 或 简单 标示 出 write0) 被 一 个 处 理 器 中 断 了 是 毫 
无 意义 的 (意味 着 需要 手工 重启 write())。 不管 是 何 种 处 
理 方式 ， 后 续 的 write() 都 不 会 成 功 ， 因 为 管道 仍然 处 于 被 
损坏 的 状态 。 








如 果 写 入 进程 没有 关闭 管道 的 读 取 端 ， 那 么 即使 在 其 他 进程 已 经 关 
闭 了 省 道 的 读 取 端 之 后 写 入 进程 仍然 能 够 癌 管 道 写 入 数据 ， 最 后 写 入 进 
程 会 将 数据 充满 整个 管道 ， 后 续 的 写 入 请 求 会 被 永远 阻 疆 。 

关闭 未 使 用 文件 描述 符 的 最 后 一 个 原因 是 只 有 当 所 有 进程 中 所 有 引 
用 一 个 管道 的 文件 描述 符 被 关闭 之 后 才 会 销毁 该 管道 以 及 释放 该 管 让 占 
人 











示例 程序 


程序 清单 44-2 中 的 程序 演示 了 如 何 将 管道 用 于 父 进程 和 子 进程 之 间 
的 通信 。 这 个 例子 演示 了 前 面 提 及 的 管道 的 字 贡 流 特性 一 一 父 进 程 在 一 
个 操作 中 写 入 数据 ， 子 进程 一 小 块 一 小 块 地 从 管道 中 读 取 数 据 。 


主 程序 调用 pipe0 创 建 管道 由 ， 然 后 调用 fork0O 创 建 一 个 子 进程 @。 
在 forkO 调 用 之 后 ， 父 进程 关闭 了 其 持 有 的 管道 的 读 取 问 的 文件 描述 符 
(并 将 通过 程序 的 命令 行 参数 传递 进来 的 字符 串 写 到 管道 的 写 入 端 @)。 
父 进程 接着 关闭 管道 的 读 取 端 四 并 调用 wait0 等 待 子 进 程 终 止 由 。 在 关 
闭 了 所 持 有 的 管道 的 写 入 端的 文件 描述 人 符 @) 之 后 ， 子 进程 进入 了 一 个 循 
环 ， 在 这 个 循环 中 从 管道 读 取 也 数据 块 并 将 它们 写 到 @ 标 准 输出 中 。 当 
子 进程 磁 到 管道 的 文件 结束 时 名 就 退出 循环 四， 并 写 入 一 个 结尾 换行 字 
符 以 及 关闭 所 持 有 的 管道 的 读 取 端 的 描述 符 ， 最 后 终止 。 

下 面 是 运行 程序 清单 44-2 中 的 程序 时 可 能 看 到 的 输出 。 
$ ./simple pipe 'It was a bright cold day in April, '\ 


‘and the clocks were striking thirteen. ' 
It was a bright cold day in April, and the clocks were striking thirteen. 










































































程序 清单 44-2: 在 父 进程 和 子 进 程 间 使 用 管道 通信 

















pipes/simple pipe.c 


#include <sys/wait.h> 
#include "tlpi hdr.h" 


#define BUF SIZE 10 


int 


main(int argc, char *argv[]) 


int pfd[2]; /* Pipe file descriptors */ 
char buf[BUF_SIZE]; 
ssize t numRead; 


if (argc != 2 || stremp{argv[1], "--help") == 0) 
usageErr("%s string\n", argv[0]); 


if (pipe(pfd) == -1) /* Create the pipe */ 
errExit("pipe"); 


switch (fork()) { 
case -1: 
errExit("fork"); 


case 0: /* Child - reads from pipe */ 
if (close(pfd[1]) == -1) /* Write end is unused */ 
errExit("close - child"); 
for (33) { /* Read data from pipe, echo on stdout */ 
numRead = read(pfd[o], buf, BUF SIZE); 
if (numRead == -1) 


errExit ("read"); 
if (numRead == 0) 
break; /* End-of-file */ 
if (write(STDOUT_FILENO, buf, numRead) != numRead) 
fatal("child - partial/failed write"); 
} 


write(STDOUT FILENO, "\n", 1); 

if (close(pfd[0]) == -1) 
errExit ("close"); 

_exit (EXIT_SUCCESS); 


default: /* Parent - writes to pipe */ 
if (close(pfd[o]) == -1) /* Read end is unused */ 
errExit("close - parent"); 


if (write(pfd[1], argv[1], strlen(argv[1])) != strlen(argv[1])) 
fatal("parent - partial/failed write"); 


if (close(pfd[1]) == -1) /* Child will see EOF */ 
errExit("close"); 
wait(NULL); /* Wait for child to finish */ 


exit (EXIT_SUCCESS); 


pipes/simple pipe.c 





44.3 ”将 管道 作为 一 种 进程 同步 的 方法 


在 24.5 节 中 介绍 了 如 何 使 用 信号 来 同步 父 进程 和 子 进程 的 动作 以 防 
止 出 现 竞 争 条 件 。 也 可 以 使 用 管道 来 取得 类 似 的 结果 ， 如 程序 清单 44-3 
中 给 出 的 骨架 程序 所 示 。 这 个 程序 创建 了 多 个 子 进程 〈 每 个 命令 行 参数 
对 应 一 个 子 进程 》， 每 个 子 进程 都 完成 条 个 动作 ， 在 本 例 中 则 是 睡眠 一 
段 时 间 。 父 进程 等 每 直到 所 有 子 进程 完成 了 自己 的 动作 为 止 。 


为 了 执行 同步 ， 父 进程 在 创建 子 进 程 @ 之 前 构建 了 一 个 管道 OO。 每 
个 子 进程 会 继承 管道 的 写 入 端的 文件 描述 符 并 在 完成 动作 之 后 关闭 这 些 
描述 符 @。 当 所 有 子 进程 都 关闭 了 管道 的 写 入 端的 文件 描述 符 之 后 ， 父 
进程 在 管道 上 的 read0@ 就 会 结束 并 返回 文件 结束 (0) 。 这 时 ， 父 进程 
就 能 够 做 其 他 工作 了 。 (注意 在 父 进程 中 关闭 管道 的 未 使 用 写 入 端 @ 对 
于 这 项 技术 的 正常 运转 是 至 关 重 要 的 ， 和 否则 父 进程 在 试图 从 管道 中 读 取 
数据 时 会 被 永远 阻塞 。) 


下 面 是 使 用 程序 清单 44-3 中 的 程序 创建 三 个 分 别 睡眠 4、2 和 6 秒 的 
子 进程 时 所 看 到 的 输出 。 


$ ./pipe_sync 4 2 6 

08:22:16 Parent started 

08:22:18 Child 2 (PID=2445) closing pipe 
08:22:20 Child 1 (PID=2444) closing pipe 
08:22:22 Child 3 (PID=2446) closing pipe 
08:22:22 Parent ready to go 














程序 清单 44-3: 使 用 管道 同步 多 个 进程 











pipes/pipe sync.c 
#include “curr time.h” /* Declaration of currTime() */ 
#include "tlpi_hdr.h" 


int 

main(int argc, char *argv[]) 

{ 
int pfd[2]; /* Process synchronization pipe */ 
int j, dummy; 


© 


if (argc < 2 || strcmp(argv[1]，"--help") == 0) 
usageErr("%s sleep-time...\n", argv[0]); 


setbuf(stdout, NULL); /* Make stdout unbuffered, since we 
terminate child with exit() */ 
printf("%s Parent started\n", currTime("%T")); 


if (pipe(pfd) == -1) 
errExit("pipe"); 


for (j = 1; j < argc; j++) { 
switch (fork()) { 


case -1: 
errExit("fork %d", j); 


case 0: /* Child */ 
if (close(pfd[0]) == -1) /* Read end is unused */ 
errExit("close"); 
/* Child does some work, and lets parent know it's done */ 
sleep(getInt(argv[j], GN NONNEG, "sleep-time")); 
/* Simulate processing */ 
printf("%s Child %d (PID=%ld) closing pipe\n", 
currTime("4T"), j, (long) getpid()); 
if (close(pfd[1]) == -1) 
errExit("close"); 
/* Child now carries on to do other things... */ 


_exit(EXIT_SUCCESS); 


default: /* Parent loops to create next child */ 
break; 
} 


} 
/* Parent cones here; close write end of pipe so we can see EOF */ 


if (close(pfd[1]) == -1) /* Write end is unused */ 
errExit("close"); 


/* Parent may do other work, then synchronizes with children */ 
if (read(pfd[0], &dummy, 1) != 0) 

fatal("parent didn't get EOF"); 
printf("%s Parent ready to go\n", currTime("%T")); 


/* Parent can now carry on to do other things... */ 


exit(EXIT_ SUCCESS); 


pipes/pipe_sync.c 





与 前 面 使 用 信和 号 来 同步 相 比 ， 使 用 管道 同步 具备 一 个 优势 : 它 可 以 
同 来 协调 一 个 进程 的 动作 使 之 与 多 个 其 他 《相关 ) 进程 匹配 。 而 多 个 
标准) 信号 无 法 排队 的 事实 使 得 信和 号 不 适用 于 这 种 情形 。《 相 反 ， 信 
号 的 优势 是 它 可 以 被 一 个 进程 广播 到 进程 组 中 的 所 有 成 员 处 。 ) 


其 他 同步 结构 也 是 可 行 的 〈 如 使 用 多 个 管道 ) 。 此 外 ， 还 可 以 对 这 
项 技术 进行 扩展 ， 即 不 关闭 管道 ， 每 个 子 进程 问 管 道 写 入 一 条 包含 其 进 
程 ID 和 一 些 状态 信息 的 消息 。 或 者 每 个 子 进程 可 以 向 省 道 写 入 一 个 字 
节 。 父 进程 可 以 计数 和 分 析 这 些 消 筷 。 这 种 方法 考虑 到 了 子 进 程 意外 终 
止 而 不 是 显 式 地 关闭 管道 的 情形 。 

















44.4 EHE EERIE t 


当 管 道 被 创建 之 后 ， 为 管道 的 两 端 分 配 的 文件 描述 符 是 可 用 描述 符 
中 数值 最 小 的 两 个 。 由 于 在 通常 情况 下 ， 进 程 己 经 使 用 了 描述 符 0、1 和 
2， 因 此 会 为 管道 分 配 一 些 数 值 更 大 的 描述 符 。 那 么 如 何 形 成 图 44-1 中 
给 出 的 情形 呢 ， 使 用 管道 连接 两 个 过 涯 器 《〈 即 从 stdin 读 取 和 写 入 到 
stdout 的 程序 使 得 一 个 程序 的 标准 输出 被 定向 到 管道 中 ， 而 男 一 个 程 
序 的 标准 输入 则 从 省 道中 读 取 ? 特别 是 如 何在 不 修改 过 滤器 本 里 的 代码 
的 情况 下 完成 这 项 工作 呢 ? 


这 个 问题 的 答案 是 使 用 在 5.5 节 中 介绍 的 技术 ， 即 复制 文件 描述 
人 符 。 一 般 来 讲 会 使 用 下 面 的 系列 调用 来 获得 预期 的 结 


int pfd[2]; 








pipe(pfd); /* Allocates (say) file descriptors 3 and 4 for pipe */ 
/* Other steps here, e.g., fork() */ 


close(STDOUT_FILENO); /* Free file descriptor 1 */ 
dup(pfd[1]); /* Duplication uses lowest free file 
descriptor, i.e., fd 1 */ 


上 面 这些 调 用 的 最 终结 果 是 进程 的 标准 输出 被 绑 定 到 了 管道 的 写 入 
端 。 而 对 应 的 一 组 调用 可 以 用 来 将 进程 的 标准 输入 绑 定 到 管道 的 读 取 端 
Eg 


注意 ， 上 面 这 些 调用 假设 已 经 为 进程 打开 了 文件 描述 符 0、1 和 2。 
Cshel] 通 种 能 够 确保 为 它 执行 的 每 个 程序 都 打开 了 这 三 个 描述 符 。) 如 
果 在 执行 上 面 的 调用 之 前 文件 描述 符 0 已 经 被 关 团 了 ， 那 么 就 会 错误 地 
将 进程 的 标准 输入 绑 定 到 管道 的 写 入 端 上 。 为 避免 这 种 情况 的 发 生 ， 可 
以 使 用 dup20 调 用 来 取代 对 close0 和 dupgO 的 调用 ， 因 为 通过 这 个 函数 可 
以 显 式 地 指定 被 绑 定 到 管道 一 端的 描述 符 。 
dup2(pfd[1], STDOUT FILENO); /* Close descriptor 1, and reopen bound 

to write end of pipe */ 


在 复制 完 pfd[1] 之 后 就 拥有 两 个 引用 管道 的 写 入 端的 文件 描述 符 
J: 描述 符 1 和 pfd[1]。 由 于 未 使 用 的 管道 文件 描述 符 应 该 被 天 财 ， 因 此 











在 dup20 调 用 之 后 需要 关闭 多 余 的 描述 符 。 
close(pfd[1]); 


前 面 给 出 的 代码 依赖 于 标准 输出 在 之 前 已 经 被 打开 这 个 事实 。 假 设 
在 pipeO 调 用 之 前 ， 标 准 输入 和 标准 输出 都 被 关闭 了 。 那 么 在 这 种 情况 
下 ，pipe0O 就 会 给 管道 分 配 这 两 个 描述 符 ， 即 pfd[0] 的 值 可 能 为 0，pfd[H] 
的 值 可 能 为 1。 其 结果 是 前 面 的 dup20 和 closeO 调 用 将 下 面 的 代码 等 价 。 


dup2(1, 1); /* Does nothing */ 
close(1); /* Closes sole descriptor for write end of pipe */ 


因此 按照 防御 性 编程 实践 的 要 求 最 好 将 这 些 调用 放 在 一 个 这 语句 
中 ， 如 下 所 示 。 
if (pfd[1] != STDOUT FILENO) { 


dup2(pfd[1], STDOUT FILENO); 
close(pfd[1]); 





示例 程序 


程序 清单 44-4 使 用 本 市 介 绍 的 技术 实现 了 图 44-1 中 给 出 的 结构 。 在 
构建 完 一 个 管道 之 后 ， 这 个 程序 创建 了 两 个 子 进程 。 第 一 个 子 进程 将 其 
标准 输出 绑 定 到 管道 的 写 入 端 ， 然 后 执行 ls。 第 二 个 子 进 程 将 其 标准 输 
入 绑 定 到 管道 的 写 入 端 ， 然 后 执行 wc。 

















程序 清单 44-4: 使 用 管道 连接 ls 和 wc 








pipes/pipe ls wc.c 


#include <sys/wait.h> 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int ptd[2]; /* Pipe file descriptors */ 


if (pipe(pfd) == -1) /* Create pipe */ 
errExit("pipe"); 


switch (fork{)) { 
case -1: 
errExit("fork"); 


case 0: /* First child: exec 'ls' to write to pipe */ 
if {close(pfd[0]) == -1) /* Read end is unused */ 
errExit("close 1"); 


/* Duplicate stdout on write end of pipe; close duplicated descriptor */ 


if (pfd[1] != STDOUT_FILENO) { /* Defensive check */ 
if (dup2(pfd[1], STDOUT FILENO) == -1) 
errExit("dup2 1"); 
if (close(pfd[1]) == -1) 
errExit("close 2"); 


} 
execlp("Is", "Is", (char *} NULL); /* Writes to pipe */ 
errExit("execlp 1s"); 

default: /* Parent falls through to create next child */ 
break; 

} 

switch (fork()) { 

case -1: 


errExit("fork"); 


case 0: /* Second child: exec ‘wc’ to read from pipe */ 
if (close(pfd[1]) == -1) /* Write end is unused */ 
errExit("close 3"); 


/* Duplicate stdin on read end of pipe; close duplicated descriptor */ 


if (pfd[o] != STDIN FILENO) { /* Defensive check */ 
if (dup2(pfd[o], STDIN FILENO) == -1) 
errExit("dup2 2"); 
if (close(pfd[o]) == -1) 
errExit("close 4"); 


} 


execlp("we", "wc", "-1", (char *) NULL); /* Reads from pipe */ 
errExit({"execlp we"); 


default: /* Parent falls through */ 
break; 
} 


/* Parent closes unused file descriptors for pipe, and waits for children */ 


if (close(pfd[0]) == -1) 
errExit("close 5"); 
if (close(pfd[1]) == -1) 
errExit("close 6"); 
if (wait(NULL) == -1) 
errExit("wait 1"); 
if (wait(NULL) == -1) 
errExit("wait 2"); 


exit(EXIT_SUCCESS); 


pipes/pipe ls wc.c 


当 执 行程 序 清单 44-4 中 的 程序 时 会 看 到 下 面 的 输出 。 
$ ./pipe ls wc 


$ ls | we -1 Verify the results using shell commands 


44.5 ”通过 管道 与 shel 命 令 进 行 通 信 : popen() 


管道 的 一 个 常见 用 途 是 执行 shell 命 令 并 读 取 其 输出 或 向 其 发 送 一 些 
输入 。popen0 和 pclose0) 函 数 简化 了 这 个 任务 。 





#include <stdio.h> 


FILE *popen(const char *command, const char *mode); 


Returns file stream, or NULL on error 
int pclose(FILE *stream); 








Returns termination status of child process, or -1 on crror 





popen() 函 数 创建 了 一 个 管道 ， 然 后 创建 了 一 个 子 进程 来 执行 shell， 
而 shell 义 创建 了 一 个 子 进程 来 执行 command 字 符 串 。mode 参 数 是 一 个 字 
符 串 ， 它 确定 调用 进程 是 从 管道 中 读 取 数据 (mode 是 r) 还 是 将 数据 写 
入 到 管道 中 (mode 是 w) 。【〔 由 于 管道 是 单 同 的 ， 因 此 无 法 在 执行 的 
command 中 进行 双 问 通信 。) mode 的 取 值 确定 了 所 执行 的 命令 的 标准 输 
a tp eee 如 图 
44-4 所 示 。 


fork fork fort for 
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图 44-4: 进程 关系 是 popen0 中 管道 的 使 用 概述 


popeng0 在 成 功 时 会 返回 可 供 stdio 库 函数 使 用 的 文件 流 指 针 。 当 发 生 
错误 时 《如 mode 不 是 r 或 w， 创 建 管道 失败 ， 或 通过 forkO 创 建 子 进 程 失 
败 ) ，popen0 会 返回 NULL 并 设置 errno 以 标示 出 发 生 错 误 的 原因 。 


在 popen() 调 用 之 后 ， 调 用 进程 使 用 管道 来 读 取 command 的 输出 或 使 
用 管道 癌 其 及 送 输入 。 与 使 用 pipeO 创 建 的 管道 一 样 ， 当 从 管道 中 读 取 

















数据 时 ， 调 用 进程 在 command 关 闭 管道 的 写 入 端 之 后 会 看 到 文件 结 
当 向 管道 写 入 数据 时 ， 如 果 command 已 经 关闭 了 管道 的 读 取 端 ， 那 么 调 
用 进程 会 收 到 SIGPIPE 信 和 号 并 得 到 EPIPE 错 误 。 


一 旦 IO 结束 之 后 可 以 使 用 pclose0O 函 数 关闭 管道 并 等 待 子 进程 中 的 
shell 终 止 。〔 不 应 该 使 用 fclose() 函 数 ， 因 为 它 不 会 等 待 子 进程 。) 
pdlose() 在 成 功 时 会 返回 子 进程 中 shell 的 终止 状态 (参见 26.1.3 节 ) CE 
shell 所 执行 的 最 后 一 条 命令 的 终止 状态 ， 除 非 shell 是 被 信号 杀 死 的 )。 
Esystem() 〈 参 见 27.6 节 ) 一 样 ， 如 果 无 法 执行 shell， 那 么 pclose() 会 返 
回 一 个 值 束 像 是 子 进程 中 的 shell 通 过 调用 _exit(127) 来 终止 一 样 。 如 果 发 
生 了 其 他 错误 ， 那 么 pclose0 返 回 -1。 其 中 可 能 发 生 的 一 个 错误 是 无 法 
取得 终止 状态 ， 本 章 稍 后 就 会 介绍 可 能 会 发 生 这 种 情况 的 原因 。 


当 执 行 等 待 以 获取 子 进程 中 shell 的 状态 时 ，SUSvV3 要 求 pclose() 与 
systemg0 一 样 ， 即 在 内 部 的 waitpid0O 调 用 被 一 个 信号 处 理 器 中 断 之 后 目 动 
重启 该 调用 。 


一 般 来 讲 ， 在 27.6 市 中 摘 述 的 有 关 system0 的 规范 同样 适用 于 
popen(O。 使 用 popen0 更 加 方便 一 些 ， 它 会 构建 管道 、 执 行 描述 符 复 
制 、 关 闭 未 使 用 的 描述 符 并 帮助 开发 人 员 处 理 fork0 和 execO 的 所 有 细 
节 。 此 外 ，shell 处 理 针 对 的 是 命令 。 这 种 便捷 性 所 牺牲 的 是 效率 ， 因 为 
至 少 需要 创建 两 个 额外 的 进程 : 一 种 用 于 shell， 一 个 或 多 个 用 于 shell 执 
行 的 命令 。 与 system() 一 样 ， 在 特权 进程 中 永远 都 不 应 该 使 用 popen()。 


虽然 system(0 和 popenO 以 及 pclose0 之 间 存 在 很 多 相似 之 处 ， 但 也 存 
在 显著 的 差异 。 这 些 差异 源 自 这 样 一 个 事实 ， 即 使 用 system() 时 shell 命 
令 的 执行 是 被 封装 在 单个 函数 调用 中 的 ， 而 使 用 popen0 时 ， 调 用 进程 是 
与 shell 命 令 并 行 运行 的 ， 然 后 会 调用 pclose()。 具 体 的 差异 包括 以 下 两 个 
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。 由 于 调用 进程 与 被 执行 的 命令 是 并 行 运行 的 ， 因 此 SUSv3 要 求 
popen(0 不 忽略 SIGINT 和 SIGQUIT 信 号 。 如 果 这 些 信 号 是 从 键盘 产 
生 的 ， 那 么 它们 会 被 发 送 到 调用 进程 和 被 执行 的 命令 中 。 之 所 以 这 
样 是 因为 两 个 进程 位 于 同一 个 进程 组 中 ， 而 由 终端 产生 的 信号 是 会 
像 34.5 节 中 描述 的 那样 被 发 送 到 前台) 进程 组 中 的 所 有 成 员 的 。 

。 由 于 调用 进程 在 执行 popen() 和 执行 pclose() 之 间 可 能 会 创建 其 他 子 
进程 ， 因 此 SUSv3 要 求 popen(0) 不 能 阻塞 SIGCHLD 信 和 号。 这 意味 着 
如 果 调 用 进程 在 pclose0 调 用 之 前 执行 了 一 个 等 待 操作 ， 那 么 它 就 























能 够 取得 由 popen0O) 创 建 的 子 进程 的 状态 。 这 样 当 后 面 调 用 popen0) 
时 ， 它 就 会 返回 -1， 同 时 将 errno 设 置 为 ECHILD， 表 示 pclose() 无 法 
取得 子 进程 的 状态 。 


示例 程序 


程序 清单 44-5 演 示 了 popen0 和 pclose0O 的 用 法 。 这 个 程序 重复 读 取 一 
个 文件 名 通配符 模式 @， 然 后 使 用 popen0 获 取 将 这 个 模式 传 入 ls 命令 之 
NRO. (在 较 早 的 UNIX 实 现 上 会 使 用 类 似 的 技术 执行 文件 名 生 
成 任务 ， 这 种 技术 也 被 称 为 通 配 globbing， 它 在 引入 glob0 库 函数 之 前 就 
CARES. ) 








程序 清单 44-5: 使 用 popen(O) 通 配 文件 名 模式 








中 


pipes/popen_glob.c 
#include <ctype.h> 
#include <limits.h> 
#include "print wait status.h" /* For printWaitStatus() */ 
#include "tlpi hdr.h" 


#define POPEN FMT "/bin/ls -d %s 2> /dev/null" 
fidefine PAT_SIZE 50 
#define PCMD BUF SIZE (sizeof(POPEN FMT) + PAT SIZE) 


int 
main(int argc, char *argv[]) 


char pat[PAT SIZE]; /* Pattern for globbing */ 

char popenCnd[PCMD BUF SIZE]; 

FILE *fp; /* File stream returned by popen() */ 
Boolean badPattern; /* Invalid characters in 'pat'? */ 


int len, status, fileCnt, j; 
char pathname[PATH_MAX]; 


for (33) -{ /* Read pattern, display results of globbing */ 
printf("pattern: "); 
fflush(stdout) ; 
if (fgets(pat, PAT_SIZE, stdin) == NULL) 
break; /*® EOF */ 
len = strlen(pat); 
if (len <= 1) /* Empty line */ 
continue; 
if (pat[len - 1] == '\n') /* Strip trailing newline */ 


pat[len - 1] = '\o'; 


/* Ensure that the pattern contains only valid characters, 
i.e., letters, digits, underscore, dot, and the shell 
globbing characters. (Our definition of valid is more 
restrictive than the shell, which permits other characters 
to be included in a filename if they are quoted.) */ 


for (j = 0, badPattern = FALSE; j < len && !badPattern; j++) 
if (!isalnum((unsigned char) pat[j]) 8&& 
strchr("_*?[*-].", pat[j]) == NULL) 
badPattern = TRUE; 


if (badPattern) { 
printf("Bad pattern character: %c\n", pat[j - 1]); 
continue; 


} 


/* Build and execute command to glob ‘pat’ */ 


snprintf(popenCmd, PCMD BUF_SIZE, POPEN FMT, pat); 
popenCmd[PCMD BUF SIZE - 1] = '\0'; /* Ensure string is 
null-terminated */ 


© fp = popen(popenCmd, "r"); 
if (fp == NULL) { 
printf("popen() failed\n"); 
continue; 


} 
/* Read resulting list of pathnames until EOF */ 


fileCnt = 0; 

while (fgets(pathname, PATH MAX, fp) != NULL) { 
printf("%s", pathname); 
fileCnt++; 

} 


/* Close pipe, fetch and display termination status */ 


status = pclose(fp); 
printf(" %d matching file%s\n", fileCnt, (fileCnt != 1) ? "s": ""); 
printf(" pclose() status == %#x\n", (unsigned int) status); 
if (status != -1) 
printWaitStatus("\t", status); 
} 


exit (EXIT SUCCESS); 


pipes/popen_glob.c 


下 面 的 shell 会 话 演示 了 程序 清单 44-5 中 给 出 的 程序 的 用 法 。 在 本 例 
中 首先 提供 了 一 个 匹配 两 个 文件 名 的 模式 ， 然 后 又 给 出 了 一 个 与 任何 文 
件 名 都 不 匹配 的 模式 。 


$ ./popen_glob 
pattern: popen_glob* Matches tivo filenames 
popen_glob 
popen_glob.c 
2 matching files 
pclose() status = 0 
child exited, status=0 





pattern: x* Matches no filename 
0 matching files 
pclose() status = 0x100 Is( 1) exits with status 1 
child exited, status=1 
pattern: “D$ Type Controt-D to terminale 


这 里 需要 对 程序 清单 44-5 中 通 配 命令 的 构建 中 和 稍微 解释 一 下 。 真 
正 执行 模式 匹配 的 是 shell。1s 命 令 仅 仅 用 来 列 出 匹配 的 文件 名 ， 每 一 个 
行列 出 一 个 。 读 者 可 以 尝试 使 用 echo 命 令 ， 但 当 模 式 与 所 有 文件 名 都 不 
匹配 时 这 种 做 法 会 出 现 非 预期 的 结果 ， 然 后 shell 就 会 保持 模式 不 变 ， 而 


echo 会 简单 地 打印 出 模式 。 相 反 ， 如 有 果 传 递 给 ls 的 文件 名 不 存在 ， 那 么 
它 就 会 在 stderr 〈 通 过 将 stderr 重 定 癌 到 /devnul 来 丢 痉 写 入 这 个 描述 符 中 
的 数据 ) 上 打印 出 一 条 错误 消 轧 ， 而 不 会 在 stdout 上 打印 出 任何 消 妃 ， 
并 且 最 后 的 退出 状态 为 1。 


还 需要 注意 程序 清单 44-5 中 程序 所 做 的 输入 检测 @)。 之 所 以 这 样 做 
古 为 了 防止 非法 输入 引起 popen0O 执 行 一 个 预期 之 外 的 shell 命 令 。 假 设 名 
略 了 这 些 检测 ， 并 且 用 户 输入 了 下 面 的 输入 。 


pattern: ; rm * 

程序 会 将 下 面 的 命令 传递 给 popen0， 其 结果 是 损失 惨重 。 
/bin/ls -d ; rm * 2> /dev/null 

在 使 用 popen()( 或 system()) 执行 根据 用 户 输入 构建 的 shell 命 令 的 
程序 中 永远 都 需要 做 输入 检测 。 《应 用 程序 可 以 选择 另 一 种 方法 ， 即 将 


那些 无 需 检测 的 字符 放 在 引号 中 ， 这 样 shell 束 不 会 对 那些 字符 进行 特殊 
处 理 了 。) 








44.6 ”管道 和 stdio 绥 冲 


由 于 popenO 调 用 返回 的 文件 流 指针 没有 引用 一 个 终端 ， 因 此 stdio 库 
会 对 这 种 文件 流 应 用 块 缓冲 (参见 13.2 节 ) 。 这 意味 着 当 将 mode 的 值 设 
置 为 w 来 调用 popenO) 时 ， 在 默认 情况 下 只 有 当 stdio 绥 冲 器 被 充满 或 使 用 
pclose0 关 闭 了 管道 之 后 输出 才 会 被 发 送 到 管道 另 一 端的 子 进 程 。 在 很 
多 情况 下 ， 这 种 处 理 方式 是 不 存在 问题 的 。 但 如 果 需 要 确保 子 进程 能 够 
立即 从 管道 中 接收 数据 ， 那 么 束 需 要 定期 调用 fflush() 或 使 用 setbuf(fp， 
NULL) 调 用 禁用 stdio 绥 冲 。 当 使 用 pipeO 系 统 调用 创建 管道 ， 然 后 使 用 
ree 个 与 管道 的 写 入 端 对 应 的 stdio 流 时 也 可 以 使 用 这 项 技 














如 果 调 用 popen() 的 进程 正在 从 管道 中 读 取 数据 ( 即 mode 是 r) , Als 
么 事情 就 不 是 那么 简单 了 。 在 这 样 情况 下 如 果子 进程 正在 使 用 stdio 库 ， 
那么 除非 它 显 式 地 调用 了 fflush() 或 setbuf() 其 输出 只 有 在 子 进程 
填 满 stdio 绥 冲 器 或 调用 了 fclose() 之 后 才 会 对 调用 进程 可 用 。【〔 如 果 正 在 
从 使 用 pipe0 创 建 的 管道 中 读 取 数据 并 且 癌 另 一 问 写 入 数据 的 进程 正在 
使 用 stdio 库 ， 那 么 同样 的 规则 也 是 适用 的 。) 如 果 这 是 一 个 问题 ， 那 么 
能 采取 的 措施 就 比较 有 限 的 ， 除 非 能 够 修改 在 子 进程 中 运行 的 程序 的 源 
代码 使 之 包含 对 setbuf0 或 flushO 调 用 。 


如 果 无 法 修改 源 代码 ， 那 么 可 以 使 用 伪 终 端 来 蔡 换 管道 。 一 个 伪 终 
端 是 一 个 IPC 通 道 ， 对 进程 来 讲 它 就 像 是 一 个 终端 。 其 结果 是 stdio 库 会 
逐 行 输 出 缓冲 器 中 的 数据 。 第 64 章 将 会 介绍 伪 终 端 。 














44.7 FIFO 


Mie SERGE, FIFOS IBA, “ENTS Z Tele KI Ae al EF 
FIFO 在 文件 系统 中 拥有 一 个 名 称 ， 并 且 其 打开 方式 与 打开 一 个 普通 文件 
aG 这 样 就 能 够 将 FIFO 用 于 非 相 关 进 程 之 间 的 通信 《如 客户 端 和 
IRA a) 。 


一 旦 打开 了 FIFO， 就 能 在 它 上 面 使 用 与 操作 省 道 和 其 他 文件 的 系统 
调用 一 样 的 MO 系 统 调 用 了 〈 如 read0、write0 和 close0)) 。 与 管道 一 样 ， 
FIFO 也 有 一 个 写 入 端 和 读 取 端 ， 并 且 从 管道 中 读 取 数据 的 顺序 与 写 入 的 
顺序 是 一 样 的 。FIFO 的 名 称 也 由 此 而 来 : 先入 移出 。FIFO 有 时 候 也 被 
称 为 命名 管道 。 


与 管道 一 样 ， 当 所 有 引用 FIFO 的 描述 符 都 被 关闭 之 后 ， 所 有 未 被 读 
取 的 数据 会 被 丢弃 。 
使 用 mkfifo 命 令 可 以 在 shell 中 创建 一 个 FIFO。 


$ mkfifo [ -m mode ] pathname 


pathname 是 创建 的 FIFO 的 名 称 ，-mm 选 项 用 来 指定 权限 mode， 其 工 
作 方 式 与 chmod 命 令 一 样 。 


当 在 FIFO (或 管道 ) 上 调用 fstat0 和 stat0 函 数 时 它们 会 在 stat 结 构 的 
st_mode 字 段 中 返回 一 个 类 型 为 S IFIFO 的 文件 〈 参 见 15.1 节 ) 。 当 使 用 
ls 一列 出 文件 时 ，FIFO 文 件 在 第 一 列 的 类 型 为 p，1ls -FE 会 在 FIFO 路 径 名 
后 面 附加 上 一 个 管道 符 (|) 。 


mkfifo() 函 数 创建 一 个 名 为 pathname 的 全 新 的 FIFO。 








ftinclude <sys/stat.h> 


int mkfifo(const char *pathname, mode_t mode); 








Returns 0 on success, or -1 on error 





mode 人 参数 指定 了 新 FIFO 的 权限 。 这 些 权限 是 通过 将 表 15-4 中 的 常 
量 取 OR 来 指定 的 。 与 往常 一 样 ， 这 些 权 限 会 按照 进程 的 umask 值 (参见 





15.4.6 节 ) 来 取 掩 码 。 


以 前 创建 FIFO 使 用 的 是 mknod(pathname,S_IFIFO, 0) 系 
统 调 用 。POSIX.1-1990 规 定 了 mkfifo0， 它 更 加 简单 ， 并 且 
消除 了 mknod0O 有 具备 的 通用 性 ， 这 种 通用 性 允许 创建 各 种 类 
型 的 文件 ， 包 括 设备 文件 。 (SUSv3 规 定 了 mknod0， 但 并 
没有 详细 规定 ， 它 只 定义 了 这 个 函数 的 用 途 是 创建 
FIFO. ) 大 多 数 UNIX 实 现 提供 了 mkfifo()， 它 是 构建 于 
mknod0 之 上 的 一 个 库 函 数 。 


一 旦 FIFO 被 创建 ， 任 何 进程 都 能 够 打开 它 ， 只 要 它 能 够 通过 常规 的 
文件 权限 检测 (参见 15.4.3 节 )。 


打开 一 个 FIFO 具 备 一 些 不 寻常 的 语义 。 一 般 来 讲 ， 使 用 FIFO 时 唯 
一 明智 的 做 法 是 在 两 端 分 别 设置 一 个 读 取 进 程 和 一 个 写 入 进程 。 这 样 在 
默认 情况 下 ， 打 开 一 个 FIFO 以 便 读 取 数 据 (open() O_RDONLY 标 记 ) 
将 会 阻塞 直到 另 一 个 进程 打开 FIFO 以 写 入 数据 (open() O_WRONLY 标 
WwW) 为 止 。 相 应 地 ， 打 开 一 个 FIFO 以 写 入 数据 将 会 阻塞 直到 另 一 个 进程 
打开 FIFO 以 读 取 数 据 为 止 。 换 句 话说 ， 打 开 一 个 FIFO 会 同步 读 取 进程 
和 写 入 进程 。 如 果 一 个 FIFO 的 另 一 端 已 经 打开 (可 能 是 因为 一 对 进程 已 
经 打开 了 FIFO 的 两 端 ) ， 那 么 open0O 调 用 会 立即 成 功 。 


在 大 多 数 UNIX 实 现 (包括 Linux) 上 ， 当 打开 一 个 FIFO 时 可 以 通过 
间 定 O_RDWR 标 记 来 绕 过 打开 FIFO 时 的 阻塞 行为 。 这 样 ，open0 就 会 立 
即 返回 ， 但 无 法 使 用 返回 的 文件 描述 符 在 FIFO 上 读 取 和 写 入 数据 。 这 种 
做 法 破坏 了 FIFO 的 IO 模型 ，SUSv3 明 确 指出 以 O_RDWR 标 记 打 开 一 个 
FIFO 的 结果 是 未 知 的 ， 因 此 出 于 可 移植 性 的 原因 ， 开 发 人 员 不 应 该 使 用 
这 项 技术 。 对 于 那些 需要 避免 在 打开 FIFO 时 发 生 阻塞 的 需求 ，open() 的 
O_NONBLOCK 标 记 提 供 了 一 种 标准 化 的 方法 来 完成 这 个 任务 (参见 
44.973) 。 











在 打开 一 个 FIFO 时 避免 使 用 O_RDWR 标记 还 有 男 外 一 
个 原因 。 当 采用 那 种 方式 调用 open0 之 后 ， 调 用 进程 在 从 返 
回 的 文件 描述 符 中 读 取 数据 时 永远 都 不 会 看 到 文件 结 
因为 永远 都 至 少 存在 一 个 文件 描述 符 被 打开 着 以 等 待 数据 
被 写 入 FIFO， 即 进程 从 中 读 取 数据 的 那个 描述 符 。 


使 用 FIFO 和 tee(1) 创 建 双重 管道 线 


shell 管 道 线 的 其 中 一 个 特征 是 它们 是 线性 的 ， 管 道 线 中 的 每 个 进程 
都 读 取 前 一 个 进程 产生 的 数据 并 将 数据 发 送 到 其 后 一 个 进程 中 。 使 用 
FIFO 就 能 够 在 管道 线 中 创建 子 进程 ， 这 样 除了 将 一 个 进程 的 输出 发 送 给 
管道 线 中 的 后 面 一 个 进程 之 外 ， 还 可 以 复制 进程 的 输出 并 将 数据 发 送 到 
为 一 个 进程 中 。 要 完成 这 个 任务 需要 使 用 tee 命 令 ， 它 将 其 从 标准 输入 中 
读 取 到 的 数据 复制 两 份 并 输出 : 一 份 写 入 到 标准 输出 ， 为 一 份 写 入 到 通 
过 命令 行 参数 指定 的 文件 中 。 


将 传 给 tee 命 名 的 fle 参 数 设 置 为 一 个 FIFO 可 以 让 两 个 进程 同时 读 取 
tee 产 生 的 两 份 数据 。 下 面 的 shell 会 话 演示 了 这 种 用 法 ， 它 创建 了 一 个 名 
为 myfifo 的 FIFO， 然 后 在 后 台 启 动 一 个 wc 命令 ， 该 命令 会 打开 FIFO 以 
读 取 数据 (这 个 操作 会 阻 鹤 直到 有 进程 打开 FIFO 写 入 数据 为 止 》， 接 看 
执行 一 条 管道 线 将 ls 的 输出 发 送 给 tee，tee 会 将 输出 传递 给 管道 线 中 的 下 
一 个 命令 sort， 同 时 还 会 将 输出 发 送 给 名 为 myfifo 的 FIFO。 〈sort 的 -k5n 
选项 会 导致 ks 的 输出 按照 第 五 个 以 空格 分 隔 的 字段 的 数值 升序 排序 。) 
$ mkfifo myfifo 
$ wc -1 < myfifo & 
$ ls -1 | tee myfifo | sort -k5n 
(Resulting output not shown) 


从 图 表 上 来 看 ， 上 面 的 命令 创建 了 图 44-5 中 给 出 的 情形 。 


























图 44-5: 使 用 FIFO 和 tee(1) 创 建 双重 管道 线 








tee 程 序 之 所 以 这 样 命名 是 因为 其 外 形 。 可 以 将 tee 看 成 
是 功能 与 管道 类 似 的 一 个 实体 ， 但 它 存 在 一 个 额外 的 分 支 
发 送 一 份 输出 的 副本 。 从 图 表 上 来 看 ， 其 形状 像 是 一 个 大 
写字 母 T (参见 图 44-5)〉 。 除 了 上 面 描述 的 用 途 之 外 ，tee 对 
于 管道 线 调 试 和 保存 复杂 管道 线 中 茶 些 中 间 节 点 的 输出 结 
朵 也 是 非常 有 用 的 。 











44.8 使 用 管道 实现 一 个 客户 端 / 服 务 器 应 用 程序 


本 节 将 介绍 一 个 简单 的 使 用 FIFO 进 行 IPC 的 客户 端 /服务 器 应 用 程 
序 。 服 务 器 提供 的 〈 人 简单) 服务 是 问 每 个 友 送 请 求 的 客 尸 端 赋 一 个 唯一 
的 顺序 数字 。 在 对 这 个 应 用 程序 进行 讨论 的 过 程 中 将 会 介绍 与 服务 器 设 
计 有 关 的 一 些 概念 和 技术 。 


应 用 程序 概述 


在 这 个 示例 应 用 程序 中 ， 所 有 客户 站 使 用 一 个 服务 器 FIFO 来 癌 服 务 

器 发 送 请 求 。 头 文件 〈 程 序 清单 44-6) 定义 了 众所周知 的 名 称 

(/tmp/seqnum_sv) ， 服 务 器 的 FIFO 将 使 用 这 个 名 称 。 这 个 名 称 是 固定 
的 ， 因 此 所 有 客户 端 知道 如 何 联系 到 服务 器 。《 在 这 个 示例 应 用 程序 中 
将 会 在 /tmp 目 录 中 创建 FIFO， 这 样 在 大 多 数 系统 上 都 能 够 在 不 修改 程序 
的 情况 下 方便 地 运行 这 个 程序 。 但 正如 在 38.7 节 中 指出 的 那样 ， 在 一 个 
像 /tmp 这 样 的 公共 可 写 的 目录 中 创建 文件 可 能 会 导致 各 种 安全 隐患， 
此 现实 世界 中 的 应 用 程序 不 应 该 使 用 这 种 目录 。) 





在 客户 端 -服务 器 应 用 程序 中 将 会 不 断 地 碰 到 一 个 概 

念 ， 即 服务 器 用 来 使 服务 对 客户 端 可 见 的 众所周知 的 地 址 
或 名 称 。 对 于 客户 器 如 何 知道 在 何 处 联系 服务 器 这 个 问题 
来 讲 ， 使 用 众所周知 的 地 址 是 一 种 解决 方案 。 为 一 种 可 能 
的 解决 方案 是 提供 茶 种 名 称 服 务 器 ， 服 务 器 可 以 将 它们 的 
服务 的 名 称 注 册 到 名 称 服 务 器 上 。 人 然后 每 个 客户 端 联系 名 
称 服务 器 以 获取 服务 的 位 置 。 这 个 解决 方案 允许 灵活 地 配 
置 服务 需 的 位 置 ， 而 付出 的 代价 则 是 需要 进行 额外 的 编 
程 。 当 然 ， 客 户 问 和 服务 需 需 要 知道 到 何 处 联系 名 称 服 务 
项 ， 筷 位 于 一 个 众所周知 的 地 址 。 








无 法 使 用 单个 FIFO 回 所 有 客户 端 发 送 响应 ， 因 为 多 个 客户 端 在 从 
FIFO 中 读 取 数据 时 会 相互 竞争 ， 这 样 就 可 能 会 出 现 各 个 客户 端 读 取 到 了 
其 他 客户 端的 响应 消息 ， 而 不 是 自己 的 响应 消息 。 因 此 每 个 客户 端 需要 
创建 一 个 唯一 的 FIFO， 服 务 器 使 用 这 个 FIFO 来 癌 该 客户 端 递送 啊 应 ， 
并 且 服 务 器 需要 知道 如 何 找 出 各 个 客户 端的 FIFO。 解 决 这 个 问题 的 一 种 
方式 是 让 客户 端 生 成 自己 的 FIFO 路 径 名 ， 然 后 将 路 径 名 作为 请 求 消息 的 
一 部 分 传递 给 服务 器 。 或 者 客户 端 和 服务 器 可 以 约定 一 个 构建 客户 端 
FIFO 路 径 名 的 规则 ， 然 后 客户 端 可 以 将 构建 自己 的 路 径 名 所 需 的 相关 信 
息 作 为 请 求 的 一 部 分 发 送 给 服务 器 。 本 例 中 将 会 使 用 后 面 一 种 解决 方 
案 。 每 个 客户 端的 FIFO 是 从 一 个 由 包含 客户 端的 进程 ID 的 路 径 名 构成 
的 模板 “CLIENT_FIFO_TEMPLATE) 中 构建 而 来 的 。 在 生成 过 程 中 包 
含 进程 ID 可 以 很 容易 地 产生 一 个 对 各 个 客户 端 唯一 的 名 称 。 


图 44-6 展 示 了 这 个 应 用 程序 如 何 使 用 FIFO 来 完成 客户 并 和 服务 器 进 
程 之 间 的 通信 。 














客户 端 A FIFO 





客户 端 A 
(PID=6514) 


(PID=6523) 


/tmp/seqnum_cl.6523 

















图 44-6: 在 单 服务 器 、 多 客户 端 应 用 程序 中 使 用 FIFO 


头 文件 《程序 清单 44-6) 定义 了 客户 跨 发 送 给 服务 露 的 请 求 消 妃 的 
格式 和 服务 器 发 送 给 客户 端的 啊 应 消息 的 格式 。 

记 住 管道 和 FIFO 中 的 数据 是 字 节 流 ， 消 息 之 间 是 没有 边界 的 。 这 意 
味 独 当 多 条 消息 被 递送 到 一 个 进程 中 时 ， 如 本 例 中 的 服务 器 ， 发 送 者 和 
接收 者 必须 要 约定 东 种 规则 来 分 隔 消 息 。 这 可 以 使 用 多 种 方法 。 


。 每 条 消息 使 用 诸如 换行 符 之 类 的 分 隔 字 符 结 束 。 【使 用 这 项 技术 的 
一 个 例子 是 程序 清单 59-1 中 的 readLine0) 函 数 。) 这 样 就 必须 要 保证 

















分 隔 字 符 不 会 出 现在 消息 中 或 者 当 它 出 现在 消息 中 时 必须 要 采用 某 
种 规则 进行 转 义 。 例 如 ， 如 果 使 用 换行 符 作为 分 隔 符 ， 那 么 字符 

\ 加 上 换行 可 以 用 来 表示 消息 中 一 个 真实 的 换行 符 ， 而 \ 则 可 以 用 来 
表示 一 个 真实 的 。 这 种 方法 的 一 个 不 足 之 处 是 读 取 消息 的 进程 在 

从 FIFO 中 扫描 数据 时 必须 要 逐个 字 节 地 分 析 直 到 找到 分 隔 符 为 止 。 
在 每 条 消息 中 包含 一 个 大 小 固定 的 头 ， 头 中 包含 一 个 表示 消息 长 度 
的 字段 ， 该 字段 指定 了 消息 中 剩余 部 分 的 长 度 。 这 样 读 取 进 程 就 需 
要 首先 从 FIFO 中 读 取 头 ， 然 后 使 用 头 中 的 长 度 字 段 来 确定 需 读 取 的 
消息 中 剩余 部 分 的 字 节 数 。 这 种 方法 能 够 高 效 地 读 取 任意 大 小 的 消 
息 ， 但 一 旦 不 合 规则 (如 错误 的 length 字 段 〉 的 消息 被 写 入 到 管道 
中 之 后 问题 就 出 来 了 。 

使 用 固定 长 度 的 消息 并 让 服务 器 总 是 读 取 这 个 大 小 固定 的 消息 。 这 
种 方法 的 优势 在 于 简单 性 。 但 它 对 消息 的 大 小 设置 了 一 个 上 限 ， 意 
味 着 会 浪费 一 些 通 道 容量 (因为 需要 对 较 短 的 消 奶 进行 填充 以 满足 
固定 长 度 ) 。 此 外 ， 如 果 其 中 一 个 客户 端 意外 地 或 故意 发 送 了 一 条 
长 度 不 对 的 消息 ， 那 么 所 有 后 续 的 消息 都 会 出 现 步调 不 一 致 的 情 

况 ， 并 且 在 这 种 情况 下 服务 器 是 难以 恢复 的 。 


图 44-7 展 示 了 这 三 种 技术 。 注 意 不 管 使 用 这 三 种 技术 中 的 哪 种 ， 每 
条 消息 的 总 长 度 必须 要 小 于 PIPE_BUF 字 节 以 防止 内 核对 消息 进行 拆 


























分 ， 从 而 造成 与 其 他 写 者 发 送 的 消息 错乱 的 情况 的 发 生 。 
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息 都 会 被 放 在 一 个 通道 (FIFO) 中 。 另 一 种 方法 是 为 每 条 
消息 使 用 一 个 连接 。 发 送 者 打开 通信 通道 ， 发 送 消息 ， 然 
后 关闭 通道 。 读 取 进 程 在 磁 到 文件 结束 时 就 知道 达到 消 乱 
结尾 了 。 如 果 多 个 写 者 都 打开 了 一 个 FIFO， 那 么 这 种 方法 
就 不 可 行 了 ， 因 为 读 取 在 其 中 一 个 写 者 关闭 FIFO 之 后 不 会 
看 到 文件 结束 。 但 当 使 用 流 socket 时 这 种 方法 就 变 得 可 行 
了 ， 因 为 服务 器 进程 会 为 每 个 进入 的 客户 端 连接 创建 一 个 
唯一 的 通信 通道 。 














在 本 章 的 示例 应 用 程序 中 将 使 用 上 面 介 绍 的 第 三 种 技术 ， 即 每 个 客 
户 端 问 服务 器 发 送 的 消 轧 的 长 度 是 固定 的 。 程 序 清单 44-6 中 的 request 绪 
构 定义 了 消 轧 。 每 个 用 送 给 服务 器 的 请 求 都 包含 了 客户 端的 进程 ID， 这 
样 服务 器 就 能 够 构建 客户 端 用 来 接收 啊 应 的 FIFO 的 名 称 了。 请 求 中 还 包 
含 了 一 个 seqdLen 字 段 ， 它 指定 了 应 该 为 这 个 客户 问 分 配 的 序号 的 数量 。 
服务 器 加 客户 问 发 送 的 啊 应 消息 由 一 个 字段 sqdNum 构 成 ， 它 是 为 这 个 
客户 端 分 配 的 一 组 序号 的 起 始 值 。 


` 


























程序 清 





44-6: fifo_seqnum_server.c 和 fifo_seqnum_client.c 的 头 文 件 











pipes/fifo_seqnum.h 
#include <sys/types.h> 
#include <sys/stat.h> 
#include <fcntl.h> 
#include "tlpi_hdr.h" 


#define SERVER FIFO "/tmp/seqnum sv" 
/* Well-known name for server's FIFO */ 
#define CLIENT FIFO TEMPLATE "/tmp/seqnum cl.%1d" 
/* Template for building client FIFO name */ 
#define CLIENT FIFO NAME LEN (sizeof(CLIENT FIFO TEMPLATE) + 20) 
/* Space required for client FIFO pathname 
{+20 as a generous allowance for the PID) */ 


struct request { /* Request (client --> server) */ 
pid_t pid; /* PID of client */ 
int seqLen; /* Length of desired sequence */ 


}; 


struct response { /* Response (server --> client) */ 
int seqNum; /* Start of sequence */ 


}; 


pipes/fifo_seqnum.h 


服务 器 程序 


作 。 


程序 清单 44-7 是 服务 器 的 代码 。 这 个 服务 器 按 序 完成 了 下 面 的 工 


创建 服务 器 的 众所周知 的 FIFOQ) 并 打开 FIFO 以 便 读 取信。 服务 器 
必须 要 在 客户 端 之 前 运行 ， 这 样 服务 器 FIFO 在 客户 端 试图 打开 它 之 
前 就 已 经 存在 了 。 服 务 器 的 open0 调 用 将 会 阻塞 直到 第 一 个 客户 端 
打开 了 服务 器 的 FIFO 的 另 一 端 以 写 入 数据 为 止 。 

再 次 打开 服务 器 的 FIFO@B)， 这 次 是 为 了 写 入 数据 。 这 个 调用 永远 不 
会 被 阻塞 ， 因 为 之 前 已 经 因 需 读 取 而 打开 FIFO 了 。 第 二 个 打开 操作 
o a 
文件 结束 。 

忽略 SIGPIPE 信 号 由 ， 这 样 如 果 服 务 器 试图 同一 个 没有 读者 的 客户 
端 FIFO 写 入 数据 时 不 会 收 到 SIGPIPE 信 号 〈 默 认 会 杀 死 进程 ) ， 而 
是 会 从 write() 系 统 调用 中 收 到 一 个 EPIPE 错 误 。 

进入 一 个 循环 从 每 个 进入 的 客户 端 请 求 中 读 取 数据 并 响应 @。 要 发 
T uC 
FIFO). 

如 果 服 务 器 在 打开 客户 端 FIFO 时 发 生 了 错误 ， 那 么 就 丢弃 那个 客户 
端的 请 求 @)。 


这 是 一 种 碗 代 式 服务 促 ， 这 种 服务 占 会 在 读 取 和 处 理 完 当 前 客户 站 


之 后 才 会 去 处 理 下 一 个 客户 端 。 当 每 个 客户 端 请 求 的 处 理 和 啊 应 都 能 够 
快速 完成 时 采用 这 种 迭代 式 服务 器 设计 是 合理 的 ， 因 为 不 会 对 其 他 客户 
端 请 求 的 处 理 产 生 延 迟 。 另 一 种 设计 方法 是 并 发 式 服务 器 ， 在 这 种 设计 
中 主 服务 器 进程 使 用 单独 的 子 进 程 〈 或 线程 ) 来 处 理 各 个 客户 端的 请 


ay 
~ 
[e] 


第 60 章 将 会 深入 介绍 服务 器 设计 。 


























程序 清单 44-7: 使 用 FIFO 的 迭代 式 服 务 器 




















pipes/fifo_seqnum_server.c 


#include <signal.h> 
#include "fifo_seqnum.h" 


int 
main(int argc, char *argv[]) 


int serverFd, dummyFd, clientFd; 

char clientFifo[CLIENT FIFO NAME_LEN]; 

struct request req; 

struct response resp; 

int seqNum = 0; /* This is our "service" */ 


© 


/* Create well-known FIFO, and open it for reading */ 


umask(0); /* So we get the permissions we want */ 
if (mkfifo(SERVER_FIFO, S_IRUSR | S_IWUSR | S_IWGRP) == -1 
&& errno != EEXIST) 
errExit("mkfifo %s", SERVER FIFO); 
serverFd = open(SERVER_FIFO, O_RDONLY); 
if (serverFd == -1) 
errExit("open %s", SERVER FIFO); 


/* Open an extra write descriptor, so that we never see EOF */ 


dummyFd = open(SERVER_FIFO, O WRONLY); 
if (dummyFd == -1) 
errExit("open %s", SERVER_FIFO); 


if (signal(SIGPIPE, SIG IGN) == SIG ERR) 
errExit("signal"); 


for (33) { /* Read requests and send responses */ 
if (read(serverFd, &req, sizeof(struct request) ) 
l= sizeof(struct request)) { 
fprintf(stderr, "Error reading request; discarding\n"); 
continue; /* Either partial read or error */ 


} 


/* Open client FIFO (previously created by client) */ 


snprintf(clientFifo, CLIENT_FIFO NAME LEN, CLIENT_FIFO_ TEMPLATE, 
(long) req.pid); 
clientFd = open{clientFifo, O WRONLY); 


if (clientFd == -1) { /* Open failed, give up on client */ 
errMsg("open %s", clientFifo); 
continue; 

} 


/* Send response and close FIFO */ 


resp.seqNum = seqNum; 
if (write(clientFd, &resp, sizeof(struct response)) 
l= sizeof(struct response) ) 
fprintf(stderr, "Error writing to FIFO %s\n", clientFifo); 
if (close(clientFd) == -1) 
errMsg("close"); 


seqNum += req.segLen; /* Update our sequence number */ 


pipes/fifo_seqnum_server.c 


sig RE FF 
程序 清单 44-8 是 客户 端的 代码 。 客 户 问 按 序 完成 了 下 面 的 工作 。 


。 创建 一 个 FIFO 以 从 服务 器 接收 响应 @。 这 项 工作 是 在 发 送 请 求 之 前 
完成 的 ， 这 样 才 能 确保 FIFO 在 服务 器 试图 打开 和 它 并 同 其 发 送 啊 应 消 
息 之 前 就 已 经 存在 了 。 

。 构建 一 条 发 给 服务 器 的 消息 ， 消 息 中 包含 了 客户 端的 进程 ID 和 一 个 
指定 了 客户 端 希望 服务 器 赋 给 它 的 序号 长 度 的 数字 〈 从 可 选 的 命令 
DE aaa 
Re we1. ) 

。 打开 服 务 器 FIFOG 并 将 消息 发 送 给 服务 器 @@)。 

。 打开 客户 端 FIFOGCO， 然 后 读 取 和 打印 服务 器 的 响应 @@)。 


另 一 个 需要 注意 的 地 方 是 通过 atexit0G@) 建 立 的 退出 处 理 器 个， 它 确 
保 了 当 进 程 退出 之 后 客户 端的 FIFO 会 被 删除 。 或 者 可 以 在 客户 端 FIFO 
的 open0 调 用 之 后 立即 调用 unlinkO0。 在 那个 时 刻 这 种 做 法 是 能 够 正常 工 
作 的 ， 因 为 它们 都 执行 了 阻塞 的 open0 调 用 ， 服 务 器 和 客户 端 各 自持 有 
了 FIFO 的 打开 着 的 文件 摘 述 符 ， 而 从 文件 系统 中 删除 FIFO 名 称 不 会 对 
这 些 描述 符 以 及 它们 所 引用 的 打开 着 的 文件 描述 符 产 生 影 啊 。 


下 面 是 运行 这 个 客户 端 和 服务 器 程序 时 看 到 的 输出 。 


$ ./fifo_seqnum_server & 








[1] 5066 

$ ./fifo_seqnum_client 3 Request a sequence of three numbers 
0 Assigned sequence begins al 0 

$ ./fifo_seqnum_client 2 Request a sequence of two numbers 
3 Assigned sequence begins at 3 

$ ./fifo_seqnum_client Request a single number 


5 
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pipes/fifo_seqnum_client.c 
#include "fifo_seqnum.h" 


static char clientFifo[CLIENT FIFO NAME LEN]; 


static void /* Invoked on exit to delete client FIFO */ 
D removeFifo(void) 


unlink(clientFifo); 
} 


int 
main(int argc, char *argv[]) 
int serverFd, clientFd; 


struct request req; 
struct response resp; 


if (argc > 1 && strcmp(argv[1], "--help") == 0) 
usageErr("%s [seq-len...]\n", argv[0]); 


/* Create our FIFO (before sending request, to avoid a race) */ 


umask (0); /* So we get the permissions we want */ 
snprintf(clientFifo, CLIENT FIFO NAME LEN, CLIENT FIFO TEMPLATE, 
(long) getpid()); 
if (mkfifo(clientFifo, S$ IRUSR | S IWUSR | S_IWGRP) == -1 
&& errno != EEXIST) 
errExit("mkfifo %s", clientFifo); 


if (atexit(removeFifo) != 0) 
errExit("atexit"); 


/* Construct request message, open server FIFO, and send request */ 


req.pid = getpid(); 
req.seqlLen = (argc > 1) ? getInt(argv[1], GN 0T 0, "seq-len") : 1; 


serverFd = open(SERVER FIFO, 0 WRONLY); 
if (serverFd == -1) 
errExit("open %s", SERVER FIFO); 


if (write(serverFd, &req, sizeof{struct request)) != 
sizeof(struct request)) 
fatal("Can't write to server"); 


/* Open our FIFO, read and display response */ 


clientFd = open(clientFifo, O_RDONLY); 
if (clientFd == -1) 
errExit("open %s", clientFifo); 


if (read(clientFd, &resp, sizeof(struct response)) 
l= sizeof(struct response) ) 
fatal("Can't read response from server"); 


printf("4%d\n", resp.seqNum) ; 
exit (EXIT SUCCESS); 


pipes/fifo_seqnum_client.c 


44.9 +ESASEV/O 


前 面 曾经 提 过 当 一 个 进程 打开 一 个 FIFO 的 一 端 时 ， 如 果 FIFO 的 男 
一 端 还 没有 被 打开 ， 那 么 该 进程 会 被 阻塞 。 但 有 些 时 候 阻 塞 并 不 是 期 望 
的 行为 ， 而 这 可 以 通过 在 调用 open0 时 指定 O_NONBLOCK 标 记 来 实 
现 。 


fd = open("fifopath", O RDONLY | O _NONBLOCK); 
if (fd == -1) 
errExit("open"); 


如 果 FIFO 的 另 一 端 已 经 被 打开 ， 那 么 O_NONBLOCK 对 open0 调 用 
不 会 产生 任何 影响 它 会 像 往 稼 一 样 立即 成 功 地 打开 FIFO。 只 有 当 
FIFO 的 另 一 端 还 没有 被 打开 的 时 候 O_NONBLOCK 标 记 才 会 起 作用 ， 而 
具体 产生 的 影响 则 依赖 于 打开 FIFO 是 用 于 读 取 还 是 用 于 写 入 的 。 


e 如 果 打 开 FIFO 是 为 了 读 取 ， 并 且 FIFO 的 写 入 端 当前 已 经 被 打开 ， 
ee (就 像 FIFO 的 另 一 端 已 经 被 打开 一 
$) 


。 如 果 打开 FIFO 是 为 了 写 入 ， 并 且 还 没有 打开 FIFO 的 另 一 端 来 读 取 
数据 ， 那 么 open0 调 用 会 失败 ， 并 将 ermo 设 置 为 ENXIO。 


为 读 取 而 打开 FIFO 和 为 写 入 而 打开 FIFO 时 O_NONBLOCK 标 记 所 起 
的 作用 不 同 是 有 原因 的 。 当 FIFO 的 另 一 个 端 没 有 写 者 时 打开 一 个 FIFO 
以 便 读 取 数 据 是 没有 问题 的 ， 因 为 任何 试图 从 FIFO 读 取 数 据 的 操作 都 不 
会 返回 任何 数据 。 但 当 试 图 向 没有 读者 的 FIFO 中 写 入 数据 时 将 会 导致 
SIGPIPE 信 号 的 产生 以 及 write() 返 回 EPIPE 错 误 。 


表 44-1 对 打开 FIFO 的 语义 进行 了 总 结 ， 包 括 上 面 介绍 的 
O_NONBLOCK 标 记 的 作用 。 








表 44-1: 在 FIFO 上 调用 open0 的 语义 


open() 类 型 open() 的 结果 
打开 的 目的 | 额外 标记 FIFO 男 一 端的 打开 操作 ”|FIFO 男 一 端的 关闭 操作 
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在 打开 一 个 FIFO 时 使 用 O_NONBLOCK 标 记 存 在 两 个 目的 。 


它 人 允许 单个 进程 打开 一 个 FIFO 的 两 端 。 这 个 进程 首先 会 在 打开 
aoe 定 O_NONBLOCK 标 记 以 便 读 取 数据 ， 接 着 打开 FIFO 以 便 
写 入 数据 。 

它 防 止 打开 两 个 FIFO 的 进程 之 间 产 生死 锁 。 


当 两 个 或 多 个 进程 中 每 个 进程 都 因 等 待 对 方 完 成 某 个 动作 而 阻塞 时 
会 产生 死 锁 。 图 44-8 给 出 了 两 个 进程 发 生死 锁 的 情形 。 各 个 进程 都 因 等 
待 打开 一 个 FIFO 以 便 读 取 数 据 而 阻塞 。 如 果 各 个 进 策划 那个 都 可 以 执行 
其 第 二 个 步骤 〈 打 开 另 一 个 FIFO 以 便 写 入 数据 ) 的 话 就 不 会 发 生 阻 塞 。 
这 个 特定 的 死 锁 问题 是 通过 颠 倒 进程 Y 中 的 步骤 1 和 步骤 2 并 保持 进程 X 
中 两 个 步骤 的 顺序 不 变 来 解决 ， 反 之 亦 然 。 但 在 一 些 应 用 程序 中 进行 这 
样 的 调整 可 能 并 不 容易 。 相 反 ， 可 以 通过 在 为 读 取 而 打开 FIFO 时 让 其 中 
一 个 进程 或 两 个 进程 都 指定 O_NONBLOCK 标 记 来 解决 这 个 问题 。 








进程 X 进程 Y 
1. 打开 FIFO A 准备 读 取 块 1. 打开 FIFO B 准备 读 取 块 
2. FIF FIFO B 准备 写 入 2. 打开 FIFO A 准备 写 入 


图 44-8: 打开 两 个 FIFO 的 进程 之 间 的 死 锁 





非 阻塞 read0 和 write() 





O_NONBLOCK 标 记 不 仅 会 影响 open0 的 语义 ， 而 且 还 会 影响 
因为 在 打开 的 文件 描述 中 这 个 标记 仍然 被 设置 着 后 续 的 read0 和 
write() 调 用 的 语义 。 下 一 节 将 会 对 这 些 影响 进行 描述 。 


有 些 时 候 需 要 修改 一 个 已 经 打开 的 FIFO (或 男 一 种 类 型 的 文件 ) 的 
O_NONBLOCK 标 记 的 状态 ， 具 体 存在 这 个 需求 的 场景 包括 以 下 几 种 。 


。 使 用 O_NONBLOCK 打 开 了 一 个 FIFO 但 需要 让 后 续 的 read() 和 write() 
调用 在 阻塞 模式 下 运作 。 
。 需要 局 用 从 pipe0 返 回 的 一 个 文件 摘 述 符 的 非 阻塞 模式 。 更 一 般 














地 ， 可 能 需要 更 改 从 除 open0) 调 用 之 外 的 其 他 调用 中 一 一 如 每 个 由 
shell 运 行 的 新 程序 中 上 自动 被 打开 的 三 个 标准 描述 符 的 其 中 一 个 或 
socket0 返 回 的 文件 描述 符 一 一 取得 的 任意 文件 揪 述 符 的 非 阻塞 状 


。 出 于 一 些 应 用 程序 的 特殊 需求 ， 需 要 切换 一 个 文件 描述 符 的 
O_NONBLOCK 设 置 的 开启 和 关闭 状态 。 


当 碰 到 上 面 的 需求 时 可 以 使 用 fcntO 启 用 或 禁用 打开 着 的 文件 的 
O_NONBLOCK 状 态 标 记 。 通 过 下 面 的 代码 (忽略 的 错误 检查 〉 可 以 局 
用 这 个 标记 。 








int flags; 

flags = fcntl{fd, F_GETFL); /* Fetch open files status flags */ 
flags |= O_NONBLOCK; /* Enable O_NONBLOCK bit */ 
fentl(fd, F_SETFL, flags); /* Update open files status flags */ 


通过 下 面 的 代码 可 以 禁用 这 个 标记 。 


flags = fentl(fd, F_GETFL); 
flags &= ~O NONBLOCK; /* Disable O NONBLOCK bit */ 
fcntl(fd, F SETFL, flags); 


44.10 ”管道 和 FIFO 中 read0 和 write0) 的 语义 


表 44-2 对 管道 和 FIFO 上 的 read0 操 作 进行 了 总 结 ， 包 括 
O_NONBLOC 标 记 的 作用 。 


表 44-2: 从 一 个 包含 p 字 节 的 管道 或 FIFO 中 读 取 mn 字 节 的 语 
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图 失败 i a 


只 有 当 没 有 数据 并 且 写 入 端 没 有 被 打开 时 阻塞 和 非 阻塞 读 取 之 间 才 
存在 差别 。 在 这 种 情况 下 ， 普 通 的 read0 会 被 阻塞 ， 而 非 阻塞 read0 会 失 
败 并 返回 EAGAIN 错 误 。 


当 O_NONBLOCK 标 记 与 PIPE_BUF 限 制 共 同 起 作用 时 
O_NONBLOCK 标 记 对 象 管道 或 FIFO 写 入 数据 内 影响 会 变 得 复杂 。 表 
44-3 对 write() 的 行为 进行 了 总 结 。 


表 44-3: 向 一 个 管道 或 FIFO 写 入 n 字 节 的 语 


否 启 用 读 取 端 打 开 读 取 端 
O _NONBLOCK n <= PIPE_BUF n> PIPE_BUF 关闭 


原子 地 写 入 n 字 写 入 n 字 节 ; 可 能 阻塞 ， 直 到 足够 
可 能 阻塞 ， sae 的 数据 被 读 取 以 便 结束 write(); 数 
MERRER 以 便 继 | 据 可 能 会 与 其 他 进程 写 入 的 数据 






































续 执行 cas REXX 





5 | 如 果 空 间 足 以 写 入 一 些 字 节 ， 翌 
么 写 入 的 字 节 数 在 1 到 n 之 间 〈 可 
能 会 与 其 他 进程 写 入 的 数据 发 生 
Th; 否则 就 失败 交叉 ) ; 否则 write0 会 失败 
(EAGAIN) (EAGAIN) 








当 数 据 无 法 立即 被 传输 时 O_NONBLOCK 标 记 会 导致 在 一 个 管道 或 


FIFO 上 的 write0 失 败 〈 错 误 是 EAGAIN) 。 这 意味 着 当 写 入 了 

PIPE_BUF 字 节 之 后 ， 如 果 在 管道 或 FIFO 中 没有 足够 的 空间 了 ， 那 么 

write0) 会 失败 ， 因 为 内 核 无 法 立即 完成 这 个 操作 并 且 无 法 执行 部 分 写 
， 否 则 就 会 破坏 不 超过 PIPE_BUF 字 节 的 写 入 操作 的 原子 性 的 要 求 。 


当 一 次 写 入 的 数据 量 超过 PIPE_BUF 字 节 时 ， 该 写 入 操作 无 需 是 原 
子 的 。 因 此 ，write0) 会 尽 可 能 多 地 传输 字 节 《部 分 写 ) 以 充满 管道 或 
FIFO。 在 这 种 情况 下 ， 从 write0 返 回 的 值 是 实际 传输 的 字 节 数 ， 并 且 调 
用 者 随后 必须 要 进行 重 试 以 写 入 剩余 的 字 节 。 但 如 果 管 道 或 FIFO 已 经 满 
了 ， 从 而 导致 哪怕 连 一 个 字 节 都 无 法 传输 了 ， 那 么 write0) 会 失败 并 返回 
EAGAIN 错 误 。 


44.11 总 结 


管道 是 UNIX 系 统 上 出 现 的 第 一 种 IPC 方 法 ，shell 以 及 其 他 应 用 程序 
经 常会 使 用 管道 。 管 道 是 一 个 单项 、 容 量 有 限 的 字 节 流 ， 它 可 以 用 于 相 
关 进 程 之 间 的 通信 。 尽 管 写 入 管道 的 数据 块 的 大 小 可 以 是 任意 的 ， 但 只 
有 那些 写 入 的 数据 量 不 超过 PIPE_BUF 字 节 的 写 入 操作 才 被 确保 是 原子 
的 。 除 了 是 一 种 IPC 方 法 之 外 ， 管 道 还 可 以 用 于 进程 同步 。 


在 使 用 管道 时 必须 要 小 心地 关闭 未 使 用 的 描述 符 以 确保 读 取 进程 能 
够 检测 到 文件 结束 和 写 入 进程 能 够 收 到 SIGPIPE 信 号 或 EPIPE 错 误 。 
(通常 ， 最 简单 的 做 法 是 让 向 管道 写 入 数据 的 应 用 程序 忽略 SIGPIPE 并 
通过 EPIPE 错 误 检 测 管道 是 否 * 坏 了 ”。 ) 


popen0 和 pcloseO 函 数 人 允许 一 个 程序 同一 个 标准 shell 命 令 传输 数据 
或 从 中 读 取 数据 ， 而 无 需 处 理 创 建 管道 、 执 行 shell 以 及 关闭 未 使 用 的 文 
件 描述 符 的 细节 。 


FIFO 除 了 mkfifo() 创 建 和 在 文件 系统 中 存在 一 个 名 称 以 及 可 以 被 拥 
有 合适 的 权限 的 任意 进程 打开 之 外 ， 其 运作 方式 与 管道 完全 一 样 。 在 默 
认 情 况 下 ， 为 读 取 数 据 而 打开 一 个 FIFO 会 被 阻塞 直到 另 一 个 进程 为 写 入 
数据 而 打开 了 该 FIFO， 反 之 亦 然 。 


本 章 讨 论 了 几 个 相关 的 主题 。 首 移 介 绍 了 如 何 复 制 文件 描述 符 使 得 
一 个 过 滤器 的 标准 输入 或 输出 可 以 被 绑 定 到 一 个 窒 道 上 。 在 介绍 使 用 
FIFO 构 建 一 个 客户 并 -服务 占 的 例子 中 介绍 了 几 个 与 客户 端 -服务 器 设计 
相关 的 主题 ， 包 括 为 服务 器 使 用 一 个 众所周知 的 地 址 以 及 达 代 式 服 务 器 
设计 和 并 发 服务 器 设计 之 间 的 对 比 。 在 开发 示例 FIFO 应 用 程序 时 提 到 尽 
管 通过 管道 传输 的 数据 是 一 个 字 节 流 ， 但 有 时 候 将 数据 打包 成 消 轧 对 于 
通信 来 讲 也 是 有 用 的 ， 并 且 介 绍 了 儿 种 将 数据 打包 成 消 恕 的 方法 。 


最 后 介绍 了 在 打开 一 个 FIFO 并 执行 WO 时 O_NONBLOCK 标 记 〈 非 
阻塞 TO) 的 影响 。O_NONBLOCK 标 记 对 于 在 打开 FIFO 时 不 希望 阻塞 
来 讲 是 有 用 的 ， 同 时 对 读 取 操作 在 没有 数据 可 用 时 不 阻塞 或 在 写 入 操作 
在 管道 或 FIFO 没 有 足够 的 空间 时 不 阻塞 也 是 有 用 的 。 


更 多 信息 




















[Bach, 1986] 和 [Bovet & Cesati, 2005] 讨 论 了 管道 的 实现 。 有 关 管 道 
和 FIFO 的 有 用 细节 还 可 以 在 [Vahalia, 1996] 中 找到 。 


44.12 “习题 


44-1. 编写 一 个 程序 使 之 使 用 两 个 管道 来 局 用 父 进程 和 子 进程 之 间 
的 双 疝 通信 。 父 进程 应 该 循环 从 标准 输入 中 读 取 一 个 文本 块 并 使 用 其 中 
一 个 管道 将 文本 发 送 给 子 进程 ， 子 进程 将 文本 转换 成 大 写 并 通过 力 一 个 
管道 将 其 传 回 给 父 进程 。 父 进程 读 取 从 子 进程 过 来 的 数据 并 在 继续 下 一 
个 循环 之 前 将 其 反馈 到 标准 输出 上 。 


44-2. 实现 popen0 和 pclose0。 尽 管 这 些 函 数 因 无 需 完成 在 system0) 
实现 (参见 27.7 节 ) 中 的 信号 处 理 而 得 到 了 简化 ， 但 需要 小 心地 将 管道 
两 端正 确 绑 定 到 各 个 进程 的 文件 流 上 并 确保 关闭 所 有 引用 管道 两 端的 未 
使 用 的 描述 符 。 由 于 通过 多 个 popen0 调 用 创建 的 子 进程 可 能 会 同时 运 
行 ， 因 此 需要 需要 维护 一 个 将 popen0) 分 配 的 文件 流 与 相应 的 子 进 程 ID 关 
联 起 来 的 数据 结构 。《〈 如 果 使 用 数组 ， 那 么 可 以 将 fleno0 函 数 的 返回 值 
作为 数组 的 下 标 ， 这 个 函数 能 够 取得 与 一 个 文件 流 对 应 的 文件 描述 
符 。) 从 这 个 结构 中 取得 正确 的 进程 ID 使 得 pclose0) 能 够 选择 需 等 待 的 
子 进 程 。 这 个 结构 还 满足 了 SUSv3 的 要 求 ， 即 在 新 的 子 进程 中 必须 要 关 
闭 所 有 通过 之 前 的 popen0 调 用 仍然 打开 着 的 文件 流 。 


44-3. 程序 清单 44-7 中 的 服务 器 (fifo_seqnum_server.c) 每 次 在 局 
动 时 都 会 从 序号 0 开始 赋 序 号 值 。 修 改 程序 使 它 使 用 一 个 在 每 次 由 序号 
时 都 会 更 新 的 备份 文件 。〔 在 4.3.1 市 中 介绍 的 open() O_SYNC 标 记 可 能 
会 有 用 。) 在 启动 时 ， 程 序 应 该 检查 这 个 文件 是 否 存 在 ， 如 果 存 在 的 话 
就 使 用 其 中 包含 的 值 来 初始 化 序号 。 如 果 在 启动 时 没有 找到 备份 文件 ， 
那么 程序 应 该 创建 一 个 新 文件 并 从 0 开始 赋 序 写 。( 男 一 种 方法 是 使 用 
在 49 半 中 介绍 的 内 存 映射 文件 。) 


44-4. 在 程序 清单 44-7 中 的 服务 器 (fifo_seqnum_server.c〉 中 添加 
代码 使 它 在 收 到 SIGINT 或 SIGTERM 信 号 时 删除 服务 器 FIFO 并 终止 。 


44-5. 程序 清单 44-7 中 的 服务 器 (fifo_seqnum_server.c) 在 FIFO 上 
执行 第 二 次 带 O_WRONLY 标 记 的 打开 操作 使 之 在 从 FIFO 的 读 取 摘 述 符 
(serverFd) 中 读 取 数据 时 永远 不 会 看 到 文件 结束 。 除 了 这 种 做 法 之 
外 ， 还 可 以 尝试 男 一 种 方法 : 当 服 务 器 在 读 取 摘 述 符 中 看 到 文件 结束 时 
关闭 这 个 描述 符 ， 然 后 再 次 打开 FIFO 以 便 读 取 数 据 。 (这 个 打开 操作 将 
会 阻 署 直到 下 一 个 客户 端 因 写 入 而 打开 FIFO 为 止 。) 这 种 方法 错 在 哪里 


























了 ? 


44-6. 程序 清单 44-7 中 的 服务 器 (fifo_seqnum_server.c) 假设 客户 
病 进 程 的 行为 是 正常 的 。 如 果 一 个 行为 异常 的 客户 端 创建 了 一 个 客户 端 
FIFO 和 向 服务 器 发 送 了 一 个 请 求 ， 但 并 没有 打开 其 FIFO， 那 么 服务 器 
在 打开 客户 端的 FIFO 时 将 会 被 阻塞 ， 从 而 造成 其 他 客户 端的 请 求 补 无限 
延迟 。〈 如 果 是 恶意 的 ， 那 么 就 可 以 认定 为 DoS 攻 击 。) 设计 一 个 模型 
来 解决 这 个 问题 ， 对 服务 器 《可 能 还 要 加 上 程序 清单 44-8 中 的 客户 端 ) 
进行 相应 的 扩展 。 


44-7. 编写 程序 验证 FIFO 上 非 阻 塞 打开 和 非 阻塞 VO 的 操作 “〈 人 参见 
44.973) 。 





第 45 章 ”System V IPC 介 绍 


System V IPC 包 括 三 种 不 同 的 进程 间 通 信 机 制 。 


消息 队列 用 来 在 进程 之 间 传 递 消 息 。 消 息 队 列 与 管道 有 点 像 ， 但 存 
在 两 个 重大 差别 。 第 一 是 消息 队列 是 存在 边界 的 ， 这 样 读者 和 写 者 
之 间 以 消 晨 进行 通信 ， 而 不 是 通过 无 分 隐 符 的 字 市 流 进行 通信 的 。 
第 二 是 每 条 消息 包括 一 个 整 型 的 type 字 段 ， 并 且 可 以 通过 类 型 类 选 
择 消 恳 而 无 需 以 消息 被 写 入 的 顺序 来 读 取消 妃 。 

信号 量 允 许多 个 进程 同步 它们 的 动作 。 一 个 信号 量 是 一 个 由 内 核 维 
护 的 整数 值 ， 它 对 所 有 具备 相应 权限 的 进程 可 见 。 一 个 进程 通过 对 
言 号 量 的 值 进行 相应 的 修改 来 通知 其 他 进程 它 正 在 执行 茶 个 动作 。 
共 吝 内存 使 得 多 个 进程 能 够 共享 内 存 〈“ 即 同 被 映射 到 多 个 进程 的 虚 
拟 内 存 的 页 帧 ) 的 同一 块 区 域 “ 称 为 一 个 段 } 。 由 于 访问 用 户 空间 
内 存 的 操作 是 非常 快 的 ， 因 此 共 吝 内 存 是 其 中 一 种 速度 最 快 的 IPC 
方法 : 一 个 进程 一 旦 更 新 了 共享 内 存 ， 那 么 这 个 变更 会 立即 对 共识 
同一 个 内 存 段 的 其 他 进程 可 见 。 


这 三 种 IPC 机 制 在 功能 上 存在 着 很 大 的 差异 ， 但 把 它们 放 在 一 起 讨 
论 是 有 原因 的 。 其 中 一 个 原因 是 它们 是 一 同 被 开发 出 来 的 ， 它 们 在 20 世 
纪 70 年 代 后 期 首次 出 现在 了 Columbus UNIX 系 统 中 。 这 是 Bell 内 部 实现 
的 一 种 UNIX， 用 于 运行 电话 公司 记录 保存 和 管理 过 程 中 用 到 的 数据 库 
和 事物 处 理 系 统 。 在 1983 年 左右 ， 这 些 IPC 机 制 出 现在 了 主流 的 System 
V UNIX 系 统 上 一 一 System V IPC 的 名 称 由 此 而 来 。 


将 System V IPC 机 制 放 在 一 起 讨论 的 一 个 更 加 重要 的 原因 是 它们 的 
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SUSv3 因 需 遵从 XSI 而 要 求实 现 System V IPC， 因 此 有 
时 候 这 种 机 制 也 被 称 为 XSI IPC。 


本 章 概 述 了 System V IPC 机 制 并 详细 介绍 了 所 有 这 三 种 机 制 共同 具 
备 的 特性 。 后 面 几 个 章节 将 分 别 对 这 三 种 机 制 进行 介绍 。 


System V IPC 是 一 个 通过 CONFIG_SYSVIPC 选 项 进行 
配置 的 内 核 选项 。 


45.1 概述 
| a System V IPC 对 象 需 用 到 的 头 文件 和 系统 调用 进行 了 


ws o 


一 些 实现 要 求 在 包含 表 45-1 中 的 头 文 件 之 前 先 包含 <sys/types.h>。 
一 些 较 早 的 UNIX 实 现 可 能 还 要 求 包含 <sys/ipc.h>。 (没有 哪个 UNIX 规 
范 要 求 这 些 头 文件 。) 


表 45-1: System V IPC 对 象 编 程 接口 总 结 


接 H 消息 队列 信 E K FAF 


<sys/shm.h> 









































shmid_ds 


shmget() + shmat() 


msgsnd() 一 一 写 入 消 | smop0 一 一 测试 /调整 信 | 访问 共享 区 域 中 的 内 
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msgrcv() 一 一 接收 消 





在 大 多 数 部 署 Linux 的 硬件 架构 上 ， 系 统 调用 ipc(2) 是 
所 有 System V IPC 操 作 到 内 核 的 入 口 ， 表 45-1 中 列 出 的 所 有 
调用 实际 上 都 被 实现 为 位 于 这 个 系统 调用 之 上 的 库 函 数 。 

(这 个 约定 的 两 个 例外 情况 是 Aljpha 和 IA-64， 在 这 两 个 架 
构 上 ， 表 中 列 出 的 调用 被 实现 成 了 各 个 系统 调用 。) 这 个 
不 太 常 见 的 方法 是 System V IPC 在 一 开始 被 实现 成 可 载 入 
的 内 核 模 块 的 杰作 。 尺 管 在 大 多 数 Linux 架 构 上 它们 实际 上 
是 库 函 数 ， 但 在 本 章 中 会 将 表 45-1 中 列 出 的 函数 称 为 系统 
调用 。 只 有 C 库 的 实现 人 员 才 需要 使 用 ipc(2)ipc(2)， 在 任何 
其 他 应 用 程序 中 使 用 这 个 调用 将 会 使 应 用 程序 变 得 不 可 移 
植 。 








创建 和 打开 一 个 System V IPC 对 象 


每 种 System V IPC 机 制 都 有 一 个 相关 的 get 系 统 调 用 (msgget()、 
semget() 或 shhmget()) ， 它 与 文件 上 的 open() 系 统 调 用 类 似 。 给 定 一 个 整 
数 key《〈 类 似 于 文件 名 ) ，get 调 用 完成 下 列 某 个 操作 。 


° ee! ine irery ees Cope hacen 
该 对 象 。 
e 返回 一 个 拥有 给 定 的 key 的 既 有 IPC 对 象 的 标识 符 。 


本 章 将 第 二 种 做 法 (宽松 地 ) 称 为 打开 一 个 既 有 IPC 对 象 。 在 这 种 
get 调 用 所 做 的 事情 是 将 一 个 数字 key) 转换 称 为 另 一 个 数字 
RRIF) o 





在 System V IPC 的 上 下 文中 的 对 象 与 面 癌 对象 程 序 设 
计 中 的 对 象 又 无 关系 。 这 个 术语 仅仅 用 来 将 System V IPC 





机 制 与 文件 区 分 开 来 。 尽 管 文 件 和 System V IPC 对 象 之 间 
存在 几 点 类 似 之 处 ， 但 与 标准 的 UNIX 文 件 WVO 模 型 相 比 ， 
IPC 对 象 的 用 法 在 几 个 重要 方面 都 存在 差异 ， 这 也 是 System 
V IPC 机 制 之 所 以 复杂 的 一 个 原因 。 











IPC 标 识 符 与 文件 描述 符 类 似 ， 在 后 续 所 有 引用 该 IPC 对 象 的 系统 调 
用 中 都 需要 用 到 它 。 但 这 两 者 之 间 存 在 一 个 重要 的 语义 上 的 差别 。 文 件 
描述 符 是 一 个 进程 特性 ， 而 IPC 标 识 符 则 是 对 象 本 号 的 一 个 属性 并 且 对 
系统 全 局 可 见 。 所 有 访问 同一 对 象 的 进程 使 用 同样 的 标识 符 。 这 意味 着 
如 果 知 道 一 个 IPC 对 象 已 经 存在 ， 那 么 可 以 跳 过 get 调 用 ， 只 要 能 够 通过 
某 种 机 制 来 获知 对 象 的 标识 符 即 可 。 例 如 ， 创 建 对 象 的 进程 可 能 会 将 标 
识 符 写 入 一 个 可 供 其 他 进程 读 取 的 文件 。 


下 面 的 例子 展示 了 如 何 创 建 一 个 System VIÄ ABADI 


id = msgget(key, IPC CREAT | S_IRUSR | S_IWUSR); 
if (id == -1) 
errExit("msgget") ; 


与 所 有 的 get 调 用 一 样 ，key 是 第 一 个 参数 ， 标 识 符 是 函数 的 返回 结 
果 。 传 递 给 get 调 用 的 最 后 一 个 参数 〈flags) 使 用 与 文件 一 样 的 掩 码 常量 
(215-4) 指定 了 新 对 象 上 的 权限 。 在 上 面 的 例子 中 只 给 对 象 的 所 有 者 
赋予 了 在 队列 中 读 取 和 写 入 消息 的 权限 。 


进程 的 umask〈 参 见 15.4.6 节 ) 对 新 创建 的 IPC 对 象 上 的 权限 是 不 适 
用 的 。 














一 些 UNIX 实 现 为 IPC 权 限定 义 了 下 面 的 位 掩 码 常量 : 
MSG_R、MSG_W、SEM_R、SEM_A、SHM_R 以 及 
SHM_W。 它 们 对 应 于 各 个 IPC 机 制 的 所 有 者 CHF) Wiz 
取 和 写 入 权限 。 要 获取 对 应 的 组 和 其 他 用 户 的 权限 位 掩 码 
则 可 以 将 这 些 常量 右 移 3 位 和 6 位 。SUSv3 并 没有 规定 这 些 








常量 ， 它 使 用 了 与 文件 一 样 的 位 掩 码 ， 并 且 没 有 在 glibc 类 
中 对 这 些 常量 进 行 定 义 。 





所 有 需 访 问 同一 个 IPC 对 象 的 进程 在 执行 get 调 用 时 会 指定 同样 的 
key 以 获取 该 对 象 的 同一 个 标识 符 。 在 45.2 节 中 将 会 介绍 如 何 为 应 用 程序 
选择 一 个 key。 


如 果 没 有 与 给 定 的 key 对 应 的 IPC 对 象 存在 并 且 在 flags 参 数 中 指定 了 
IPC_CREAT (与 open0 的 O _CREAT 标 记 类 似 ) ， 那 么 get 调 用 会 创建 一 
个 新 的 IPC 对 象 。 如 果 不 存 在 相应 的 IPC 对 象 并 且 没 有 指定 
IPC_CREAT (并 且 没 有 像 45.2 节 中 描述 的 那样 将 key 指 定 为 
IPC_PRIVATE) ， 那 么 get 调 用 会 失败 并 返回 ENOENT 错 误 。 


一 个 进程 可 以 通过 指定 IPC_EXCL 标 记 〈 类 似 于 open() 的 O_EXCL 标 
W) 来 确保 它 是 创建 [PC 对 象 的 进程 。 如 果 指 定 了 IPC_EXCL 并 日 与 给 
定 key 对 应 的 IPC 对 象 已 经 存在 ， 那 么 get 调 用 会 失败 并 返 EEXIST 错 误 。 


IPC 对 象 删除 和 对 象 持 久 


各 种 System V IPC 机 制 的 ctl 系 统 调用 (msgctl()、semctl()、 
shmctl()〉 在 对 象 上 执行 一 组 控制 操作 ， 其 中 很 多 操作 是 特定 于 某 种 IPC 
机 制 的 ， 但 有 一 些 是 适用 于 所 有 的 IPC 机 制 的 ， 其 中 一 个 就 是 
IPC_RMID 控 制 操 作 ， 它 可 以 用 来 删除 一 个 对 象 。 如 使 用 下 面 的 调用 可 
以 删除 一 个 共享 内 存 对 象 。 


if (shmctl(id, IPC RMID, NULL) == -1) 
errExit("shmctl"); 


对 于 消息 队列 和 信号 量 来 讲 ，IPC 对 象 的 删除 是 立即 生效 的 ， 对 象 
中 包含 的 所 有 信息 都 会 被 销毁 ， 不 管 是 否 有 其 他 进程 仍然 在 使 用 该 对 
象 。《〈 这 也 是 System IPC 对 象 的 操作 与 文件 的 操作 不 相似 的 其 中 一 个 地 
方 。 在 18.3 市 中 半 经 讲 过 如 末 删 除了 指 问 文件 的 最 后 一 个 链接 ， 那 么 实 
人 该 文件 的 打开 着 的 文件 描述 符 都 被 关闭 之 后 才 会 删 
除 该 文件 。) 


共享 内 存 对 象 的 删除 的 操作 是 不 同 的 。 在 shmctl(id,IPC_RMID， 





NULIL) 调 用 之 后 ， 只 有 当 所 有 使 用 该 内 存 段 的 进程 与 该 内 存 段 分 离 之 后 
使 用 shmdt0) 才 会 删除 该 共享 内 存 段 。《〈 这 一 点 与 文件 删除 更 加 接 
lite: =) 


System V IPC 对 象 具 备 内 核 持 久 性 。 一 旦 被 创建 之 后 ， 一 个 对 象 就 
一 直 存 在 直到 它 被 显 式 地 删除 或 系统 被 关闭 。System V IPC 对 象 的 这 个 
属性 是 非常 有 用 的 。 因 为 一 个 进程 可 以 创建 一 个 对 象 、 修 改 其 状态 、 然 
后 退出 并 使 得 在 后 面 某 个 时 刻 启 动 的 进程 可 以 访问 这 个 对 象 。 但 这 种 属 
性 也 是 存在 缺点 的 ， 其 原因 如 下 。 


。 系统 对 每 种 类 型 的 IPC 对 象 的 数量 是 有 限制 的 。 如 果 没 有 删除 不 用 
的 对 象 ， 那 么 应 用 程序 最 终 可 能 会 因 达 到 这 个 限制 而 发 生 错误 。 

。 在 删除 一 个 消息 队列 或 信号 量 对 象 时 ， 多 进程 应 用 程序 可 能 难以 确 
定 哪 个 进程 是 最 后 一 个 需要 访问 对 象 的 进程 ， 从 而 导致 难以 确定 何 
时 可 以 安全 地 删除 对 象 。 这 里 的 问题 是 这 些 对 象 是 无 连接 的 一 一 内 
核 不 会 记录 哪个 进程 打开 了 对 象 。〈 共 部 内存 段 不 存在 这 个 缺点 ， 
因为 它们 的 删除 操作 的 语义 不 同 。) 

















45.2 IPC Key 


System V IPC key 是 一 个 整数 值 ， 其 数据 类 型 为 key_t。IPC get 调 用 
将 一 个 key 转 换 成 相应 的 整数 IPC 标 识 符 。 这 些 调用 能 够 确保 如 果 创 建 的 
是 一 个 新 PC 对 象 ， 那 么 对 象 能 够 得 到 一 个 唯一 的 标识 符 ， 如 果 指 定 了 
一 个 既 有 对 象 的 key， 那 么 总 是 会 取得 该 对 象 的 《同样 的 ) 标识 符 。 
《在 内 部 ， 内 核 会 像 45.5 节 中 描述 的 那样 为 各 种 IPC 机 制 维护 着 一 个 数 
据 结构 将 key 映 射 成 标识 符 。) 


那么 如 何 产生 唯一 的 key 呢 一 一 一 种 确保 不 会 偶然 地 取得 其 他 应 用 
程序 所 使 用 的 一 个 既 有 IPC 对 象 的 标识 符 ? 这 个 问题 存在 三 种 解决 方 








。 随机 地 选取 一 个 整数 值 作为 key 值 ， 这 些 整 数值 通常 会 被 放 在 一 个 
头 文件 中 ， 所 有 使 用 IPC 对 象 的 程序 都 需要 包含 这 个 头 文件 。 这 个 
人 

。 在 创建 IPC 对 象 的 get 调 用 中 将 IPC_PRIVATE 常 量 作为 key 的 值 ， 这 
样 就 会 导致 每 个 调用 都 会 创建 一 个 全 新 的 IPC 对 象 ， 从 而 确保 每 个 
对 象 都 拥有 一 个 唯一 的 key。 

e 使 用 ftokO 函 数 生 成 一 个 〈 接 近 唯 一 ) key. 


IPC_PRIVATE 和 ftok() 是 通常 采用 的 技术 。 





使 用 IPC_PRIVATE 产 生 一 个 唯一 的 key 
在 创建 一 个 新 IPC 对 象 时 必须 要 像 下 面 这 样 将 key 指 定 为 
IPC_PRIVATE。 


id = msgget(IPC_PRIVATE, S_IRUSR | S IWUSR); 
在 上 面 的 代码 中 无 需 指定 IPC_CREAT 和 IPC_EXCL 标 记 。 


这 项 技术 对 于 父 进程 在 执行 fork0 之 前 创建 IPC 对 象 从 而 导致 子 进程 
继承 IPC 对 象 标识 答 的 多 进程 应 用 程序 是 特别 有 用 的 。 在 客户 端 -服务 器 
应 用 程序 中 〈 即 那些 包含 非 相 关 进 程 的 应 用 程序 ) 也 可 以 使 用 这 项 技 
术 ， 但 客户 站 必须 要 通过 茶 种 机 制 获 取 由 服务 需 创 建 的 了 PC 对 象 的 标识 








符 〈 反 之 亦 然 ) 。 如 在 创建 完 一 个 IPC 对 象 之 后 ， 服 务 器 可 以 将 这 个 标 
识 符 写 入 一 个 将 会 被 客 忆 器 读 取 的 文件 中 。 


使 用 ftok0 产 生 一 个 唯一 的 key 


ftok() (file to key) 本 数 返回 一 个 适合 在 后 续 对 某 个 System V IPC 
get 系 统 调 用 进行 调用 时 使 用 的 key 值 。 











#include <sys/ipc.h> 


key_t ftok(char *pathname, int proj); 


Returns integer key on success, or -1 on error 











key 值 是 使 用 实现 定义 的 算法 根据 提供 的 pathname 和 proj 值 生成 的 。 
SUSv3 要 求 如 下 。 


。 算法 只 使 用 proj 的 最 低 的 8 个 有 效 位 。 
e 应 用 程序 必须 要 确保 pathname 引 用 一 个 可 以 应 用 stat0 的 既 有 文件 
《人 否则 ftok0O 会 返回 -1) 。 
。 如 果 将 引用 同一 个 文件 〈 即 i-node) 不 同 的 路 径 名 〈 链 接 ) 传递 给 
人 了 同样 的 proj 值 ， 那 么 函数 必须 要 返回 同样 的 key 


换 句 话说 ，ftok0 使 用 i-node 号 来 生成 key 值 ， 而 并 没有 使 用 文件 名 
来 生成 key 值 。〈 由 于 ftok() 算 法 依赖 于 i-node 写 ， 因 此 在 应 用 程序 的 生 
命 周 期 中 不 应 该 将 文件 删除 和 重新 创建 ， 因 为 重新 创建 文件 时 很 有 可 能 
会 分 配 到 一 个 不 同 的 inode 号 。) proj 的 目的 仅仅 是 允许 从 同一 个 文件 中 
生成 多 个 key， 这 对 于 需 创 建 同 种 类 型 的 多 个 IPC 对 象 的 应 用 程序 来 讲 是 
He 以 前 ，proj 参 数 的 类 型 为 char， 并 且 在 调用 ftok0 通 常 传 入 的 也 
是 char 值 。 


SUSv3 并 没有 规定 当 proj 的 值 为 0 时 ftok0O 的 行为 。 在 
AIX 5.1 上 ， 当 proj 为 0 时 ftokO 返 回 -1。 在 Linux 上 ， 这 个 值 
没有 特殊 的 含义 ， 但 可 移植 的 应 用 程序 应 该 避免 将 proj 值 设 


置 为 0， 因 为 还 有 255 个 值 可 用 呢 。 


通常 ， 传 递 给 ftok() 的 pathname 会 引用 构成 应 用 程序 或 由 应 用 程序 创 
建 的 文件 或 目录 之 一 ， 协 同 运行 的 进程 会 将 同样 的 pathname 传 递 给 
ftok(). 


在 Linuxz 上 ，ftokO 返 回 的 key 是 一 个 32 位 的 值 ， 它 通过 取 proj 参 数 的 
最 低 8 个 有 效 位 、 包 含 该 文件 所 属 的 文件 系统 的 设备 的 设备 号 《〈 即 次 要 
设备 号 ) 的 最 低 8 个 有 效 位 以 及 pathname 所 引用 的 文件 的 i-node 号 的 最 低 
16 个 有 效 位 组 合 而 成 。 (后 两 项 信息 通过 在 pathname 上 调用 stat() 获 
得 。) 


glibc ftok() 的 算法 与 其 他 UNIX 实 现 所 采用 的 算法 类 似 ， 它 们 都 存在 
一 个 类 似 的 限制 ， 两 个 不 同 的 文件 可 能 会 产生 同样 的 key 值 (可 能 性 非 
MD) 。 之 所 以 会 发 生 这 种 情况 是 因为 不 同文 件 系统 上 的 两 个 文件 的 
node 号 的 最 低 有 效 位 可 能 会 相同 ， 并 且 两 个 不 同 的 磁盘 设备 《〈 位 于 具备 
多 个 人 磁盘 控制 器 的 系统 上 )〉 可 能 会 拥有 同样 的 次 要 设备 写 。 但 在 实践 
中 ， 不 同 的 应 用 程序 产生 同样 的 key 值 的 可 能 性 非常 非常 小 以 至 于 使 用 
ftokO 产 生 key 已 经 是 一 项 可 靠 的 技术 了 。 


ftokO 的 典型 用 法 如 下 所 示 。 











key t key; 
int id; 


key = Eau E WN 
if (key == 
a k"); 
id = meget bey, IPC CREAT | S_IRUSR | S_IWUSR); 
if (id = 
sacra nsgget") ; 


45.3 ”关联 数据 结构 和 对 象 权 限 


内 核 为 System V IPC 对 象 的 每 个 实例 都 维护 着 一 个 关联 数据 结构 。 
这 个 数据 络 构 的 形式 因 IPC 机 制 〈“ 消 恩 队 列 、 信 号 量 、 或 共 孚 内 存 ) 的 
不 同 而 不 同 ， 它 是 在 各 个 IPC 机 制 〈“ 参 见 表 45-1) 对 应 的 头 文件 中 进行 
定义 的 。 在 后 续 的 草 中 将 会 详细 介绍 从 种 矶 制 的 天 联 数据 结构 的 细 广 


Auto 








一 个 IPC 对 象 的 关联 数据 结构 会 在 通过 相应 的 get 系 统 调 用 创建 对 象 
时 进行 初始 化 。 对 象 一 旦 被 创建 之 后 ， 程 序 就 可 以 通过 指定 IPC_STAT 
操作 类 型 使 用 合适 的 ct 系统 调用 来 获取 这 个 数据 结构 的 一 个 副本 。 使 用 
IPC_SET 操 作 能 够 修改 这 个 数据 结构 中 的 部 分 数据 。 


除了 各 种 IPC 对 象 特有 的 数据 之 外 ， 所 有 三 种 IPC 机 制 的 关联 数据 结 
多 部 包含 “个 子 结构 jpc_perm， 它 你 存 了 用 于 确定 对 嫁 之 二 的 权限 的 信 





struct ipc_perm { 


key t _ key; /* Key, as supplied to 'get' call */ 
uid t uid; /* Owner's user ID */ 

gid t gid; /* Owner's group ID */ 

uid t cuid; /* Creator's user ID */ 

gid t cgid; /* Creator's group ID */ 

unsigned short mode; /* Permissions */ 

unsigned short seq; /* Sequence number */ 


SUSv3 要 求 ipc_perm 结 构 中 除 _key 和 _ seq 字 段 之 外 的 所 有 其 他 字 
段 都 要 具备 。 大 多 数 UNIX 实 现 都 提供 了 相应 的 字段 。 


uid 和 gid 字段 指定 了 IPC 对 象 的 所 有 权 。cuid 和 cgid 字 段 保 存 着 创建 
该 对 象 的 进程 的 用 户 ID 和 组 ID。 一 开始 ， 相 应 的 用 户 和 创建 者 ID 字段 的 
值 是 一 样 的 ， 它 们 都 源 自 调用 进程 的 有 效 ID 。 创 建 者 ID 是 不 可 变 的 ， 而 
所 有 者 ID 则 可 以 通过 IPC_SET 操 作 进 行 修改 。 下 面 的 代码 演示 了 如 何 修 
改 共享 内 存 段 的 uid 字 段 〈 关 联 数据 结构 的 类 型 是 shmid_ ds) 。 








struct shmid ds shmds; 


if (shmctl(id, IPC STAT, &shmds) == -1) /* Fetch from kernel */ 
errExit("shmct1"); 

shmds.shm perm.uid = newuid; /* Change owner UID */ 

if (shmctl(id, IPC_SET, &shmds) == -1) /* Update kernel copy */ 
errExit ("shmct1") ; 


ipc_perm 子 结构 的 mode 字 上段 保 存 厦 IPC 对 象 的 权限 掩 码 。 这 些 权限 
是 使 用 在 创建 该 对 象 的 get 系 统 调用 中 指定 的 flags 参 数 的 低 9 位 初始 化 
的 ， 但 后 面 使 用 IPC_SET 操 作 则 可 以 修改 这 个 字段 的 值 。 


与 文件 一 样 ， 权 限 被 分 成 了 三 类 - owner 〈 也 称 为 user) ~ group 
以 及 other 一 一 并 且 可 以 为 各 个 类 别 指定 不 同 的 权限 。 但 IPC 对 象 的 权限 
模型 与 文件 权限 模型 存在 一 些 显 著 差 别 。 








。 对 于 IPC 对 象 来 讲 只 有 读 和 写 权 限 有 意义 。 (对 于 信号 量 来 讲 ， 写 
权限 通常 被 称 为 修改 (alter) 权限 。) 执行 权限 是 没有 意义 的 ， 在 
执行 大 多 数 访 问 检 测 时 通常 会 忽略 这 个 权限 。 

。 权限 检测 会 根据 进程 的 有 效用 户 ID、 有 效 组 ID 以 及 辅助 组 ID 来 进 
行 。〈 这 与 Linux 上 文件 系统 权限 检测 不 同 ， 它 使 用 的 是 进程 的 文 
件 系 统 ID， 有 具体 可 参考 9.5 节 。 ) 


IPC 对 象 上 的 进程 权限 分 配 的 准确 规则 如 下 。 





1. 如 果 进 程 是 特权 进程 (CAP_IPC_OWNER) ， 那 么 所 有 权限 都 
会 被 赋予 IPC 对 象 。 





2. 如 果 进 程 的 有 效用 户 ID 与 IPC 对 象 的 所 有 者 或 创建 者 ID 匹配 ， 那 
么 会 将 对 象 的 owner Cuser) 的 权限 赋予 进程 。 


3. 如 果 进 程 的 有 效用 户 ID 或 任意 一 个 辅助 组 ID 与 IPC 对 象 的 所 有 者 
组 ID 或 创建 者 组 ID 匹配 ， 那 么 会 将 对 象 的 group 的 权限 赋予 进程 。 


4. 人 否则 会 将 对 象 的 other 的 权限 赋予 进程 。 


在 内 核 代码 中 ， 只 有 妆 一 个 进程 没有 通过 其 他 测试 被 
赋予 所 需 的 权限 时 才 会 去 测试 该 进程 是 否 古 一 个 特权 进 





程 。 之 所 以 这 样 做 是 为 了 避免 不 必要 地 设置 ASU 进 程 记 录 
标记 ， 访 标记 用 于 指示 进程 是 否 使 用 超级 用 户 权 限 〈 人 参见 
2 Bl 








注意 IPC_PRIVATE key 值 的 使 用 和 IPC_EXCL 标 记 的 存 
在 不 会 影响 进程 对 IPC 对 象 的 访问 ， 这 种 访问 权限 只 由 对 象 
的 所 有 者 和 权限 来 确定 。 





如 何 解释 一 个 对 象 的 读 和 写 权限 以 及 是 否 需要 这 些 权限 依赖 于 对 象 
的 类 型 以 及 所 执行 的 操作 。 


当 需 获取 一 个 既 有 IPC 对 象 的 标识 符 而 执行 一 个 get 调 用 时 会 进行 初 
次 权限 检测 以 确定 在 flags 参 数 中 指定 的 权限 与 既 有 对 象 上 的 权限 是 否 匹 
配 。 如 果 不 匹 配 ， 那 么 get 调 用 会 失败 并 返回 EACCES 错 误 。 《除非 特别 

出 ， 在 下 面 列 出 的 所 有 权限 被 拒绝 的 例子 中 都 会 返回 这 个 错误 码 。) 
为 说 明 问 题 ， 考 虑 同一 组 中 的 两 个 不 同 用 户 ， 其 中 一 个 用 户 使 用 了 下 面 
的 调用 创建 了 一 个 消息 队列 。 


msgget(key, IPC CREAT | S IRUSR | S IWUSR | S IRGRP); 
/* TYW-T----- */ 
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失败 ， 因 为 用 户 没 有 在 消 妃 队列 上 的 写 权 限 。 


msgget(key, S_IRUSR | S_IWUSR); 


第 二 个 用 户 可 以 通过 将 msgget() 调 用 的 第 二 个 参数 指定 为 0 来 绕 过 这 
种 检测 ， 这 样 就 只 有 当 程 序 试图 执行 一 个 需要 IPC 对 象 上 的 写 权 限 的 操 
YE (如 使 用 msgsnd() 写 入 一 条 消息 ) 时 才 会 发 生 错 误 。 





get 调 用 代表 了 忽略 执行 权限 的 一 种 情况 。 尽 管 这 种 权 
限 对 于 IPC 对 象 来 讲 没有 意义 ， 但 如 果 在 一 个 既 有 对 象 上 的 


get 调 用 中 要 求 执 行 权 限 ， 那 么 就 会 检测 进程 是 否 具 备 这 个 
权限 。 


其 他 常见 操作 所 需 的 权限 如 下 所 述 。 


。 从 对 象 中 获取 信息 (如 从 消息 队列 中 读 取 一 条 消息 ， 获 取 一 个 信号 
量 的 值 ， 或 因 读 取 而 附 上 一 个 共享 内 存 段 〉 需 要 读 权 限 。 

。 更 新 对 象 中 的 信息 〈 如 辣 消 息 队 列 写 入 一 条 消息 ， 修 改 一 个 信号 量 
的 值 ， 或 因 写 入 而 附 上 一 个 共享 内 存 段 ) 需要 写 权 限 。 

。 获取 一 个 IPC 对 象 的 关联 数据 结构 的 副本 CIPC_STAT ct 操作) 需 
要 读 权 限 。 

。 删除 一 个 IPC 对 象 CIPC_RMID ct 操作) 或 修改 其 关联 数据 结构 
(IPC_SET ct 操作 ) 不 需要 读 或 写 权 限 ， 相 反 ， 调 用 进程 必须 是 特 
权 进 程 CCAP_SYS_ADMIN) 或 有 效用 户 ID 与 对 象 的 所 有 者 用 户 
ID 或 创建 者 用 户 ID 匹配 “〈 和 否则 返回 错误 EPERM) 。 

















可 以 设置 一 个 IPC 对 象 的 权限 使 得 所 有 者 或 创建 者 不 能 
再 使 用 IPC_STAT 获 取 包 含 对 象 权限 信息 的 关联 数据 结构 
(这 意味 着 使 用 45.6 节 中 介绍 的 ipcs(1) 命 令 无 法 打印 出 这 个 
WR) ， 但 仍然 可 以 使 用 IPC_SET 修 改 它 们 。 








其 他 各 种 机 制 特 有 的 操作 需要 读 或 写 权 限 或 CAP_IPC_OWNER 能 
力 。 在 后 面 章节 中 讨论 各 种 操作 时 将 会 介绍 它们 所 需 的 权限 。 





45.4 JIPC 标 识 符 和 客户 端 /服务 咒 应 用 程序 


在 客户 端 /服务 器 应 用 程序 中 ， 服 务 器 通常 会 创建 System V IPC 对 
象 ， 而 客户 端 则 仅仅 需要 访问 它们 。 换 名 话说， 服务 器 在 执行 get 调 用 
时 需要 指定 IPC_CREAT 标 记 ， 而 客户 端 在 get 调 用 中 则 会 省 略 这 个 标 
ioe 


假设 一 个 客户 问 参 与 了 服务 器 的 一 个 延伸 会 话 ， 其 中 每 个 进程 会 执 
行 多 个 IPC 操 作 《〈 如 交换 多 条 消息 、 一 组 信号 量 操作 、 或 多 次 更 新 共享 
内 存 〉。 如 果 服 务 器 进程 骨 尝 或 故意 停止 然后 重 局 会 发 生 什么 情况 呢 ? 
这 时 ， 盲 目地 重用 由 前 一 个 服务 器 进程 创建 的 了 PC 对 象 是 至 无 意义 的 ， 
因为 新 服务 器 进程 不 清楚 与 IPC 对 象 的 当前 状态 相关 的 历史 信息 。《〈 如 
消息 队列 中 可 能 存在 客户 端 因 啊 应 老 的 服务 器 进程 之 前 发 送 的 一 条 消 忆 
而 发 出 的 第 三 个 请 求 。) 


在 这 种 情况 下 ， 服 务 器 唯一 可 做 的 事情 可 能 就 是 丢弃 所 有 既 有 的 客 
户 端 、 删 除 由 上 一 个 服务 器 进程 创建 的 IPC 对 象 、 创 建 IPPC 对 象 的 新 实 
例 。 新 启动 的 服务 器 首先 会 通过 在 get 调 用 中 同时 指定 IPC_CREAT 和 
IPC_EXCL 标 记 创 建 一 个 IPC 对 象 来 处 理 服 务 器 的 上 一 个 实例 非 正 常 终 
止 的 情况 。 如 果 get 调 用 因 具 备 指定 key 的 对 象 已 存在 而 失败 ， 那 么 服务 
器 就 认为 老 的 服务 器 进程 之 前 创建 了 该 对 象 ， 因 此 它 会 使 用 IPC_RMID 
ctl 操 作 删 除 这 个 对 象 ， 然 后 再 次 执行 一 个 get 调 用 来 创建 对 象 。 (这 组 
步骤 可 能 会 与 其 他 诸如 确保 另 一 个 服务 器 进程 当前 不 在 运行 之 类 的 步骤 
组 合 起 来 使 用 ， 具 体 可 参见 55.6 节 。) 程序 清单 45-1 给 出 了 一 个 消息 队 
列 可 能 需要 执行 的 步骤 。 
































程序 清单 45-1: 清理 服务 器 中 的 IPC 对 象 











svipc/svmsg _demo_server.c 


#include <sys/types.h> 
#include <sys/ipc.h> 
#include <sys/msg.h> 
#include <sys/stat.h> 
#include "tlpi hdr.h" 


#tdefine KEY_FILE “/some-path/some-file" 
/* Should be an existing file or one 
that this program creates */ 


int 
main(int argc, char *argy[]) 


int msgid; 
key_t key; 
const int MO PERMS = S IRUSR | S IWUSR | S IWGRP; /* rw--w---- */ 


/* Optional code here to check if another server process is 
already running */ 


/* Generate the key for the message queue */ 


key = ftok(KEY FILE, 1); 
if (key == -1) 
errExit("ftok"); 
/* While msgget() fails, try creating the queue exclusively */ 


while ((msqid = msgget({key, IPC CREAT | IPC EXCL | MQ PERMS)) == -1) { 
if (errno == EEXIST) { /* MQ with the same key already 
exists - remove it and try again */ 

msqid = msgget(key, 0); 
if (msqid == -1) 

errExit("msgget() failed to retrieve old queue ID"); 
if (msgctl{msqid, IPC_RMID, NULL) == -1) 

errExit("msgget() failed to delete old queue"); 
printf("Removed old message queue (id=%d)\n", msqid); 


} else { /* Some other error --> give up */ 
errExit("msgget() failed"); 
} 
} 


/* Upon loop exit, we've successfully created the message queue, 
and we can then carry on to do other work... */ 


exit(EXIT SUCCESS); 


svipc/svmsg_demo_server.c 


尽管 重新 启动 的 服务 器 会 重新 创建 IPC 对 象 ， 但 如 果 在 创建 新 IPC 对 
象 时 将 同样 的 key 传 递 给 get 调 用 ， 那 么 总 是 会 生成 同样 的 标识 符 。 读 者 
可 以 从 客户 端的 角度 来 考虑 一 下 这 个 问题 的 解决 方案 。 如 果 服 务 器 重新 
创建 的 IPC 对 象 使 用 了 同样 的 标识 符 ， 那 么 客户 端 就 无 法 知道 服务 器 已 
经 重启 并 且 IPC 对 象 已 经 不 包含 预期 的 历史 信息 了 。 


为 解决 这 个 问题 ， 内 核 采 用 了 一 个 算法 (下 一 市 描述 ) ， 通 常 能够 
确保 在 创建 新 了 PC 对 象 时 ， 对 象 会 得 到 一 个 不 同 的 标识 符 ， 即 使 传 入 的 
key 是 一 样 的 。 其 结果 是 所 有 与 老 的 服务 器 进程 连接 的 客户 端 仁 使 用 旧 
的 标识 符 时 会 从 相 关 的 IPC 系 统 调用 中 收 到 一 个 错误 。 











程序 清单 45-1 中 的 解决 方案 并 没有 完全 解决 在 使 用 
System V 共 享 内 存 时 识别 出 服务 器 重启 的 问题 ， 因 为 共 至 
内 存 对 象 只 有 在 所 有 进程 都 与 其 虚拟 地 址 空间 分 离 之 后 才 
会 被 删除 。 但 共享 内 存 对 象 通常 与 System V 信 号 量 组 合 使 
用 ， 而 它们 则 会 在 IPC_RMID 操 作 中 立即 被 删除 。 这 意味 着 
客户 端 在 试图 访问 被 删除 的 信号 量 对 象 时 能 够 知道 服务 丹 
重启 这 件 事情 。 








45.5 System V IPC get 调 用 使 用 的 算法 


图 45-1 给 出 了 内 核 内 部 使 用 的 一 些 表示 System V IPC 对 象 〈 本 例 中 
是 信号 量 ， 但 细 市 方面 与 其 他 IPC 机 制 类 似 ) 相关 信息 的 结构 ， 包 括 用 
于 计算 IPC key 的 字段 。 对 于 每 种 IPC 机 制 (共享 内 存 、 消 息 队 列 、 或 信 
号 量 ) ， 内 核 都 会 维护 一 个 关联 的 ipc_ids 结 构 ， 它 记录 着 该 IPC 机 制 的 
所 有 实例 的 各 种 全 局 信息 ， 包 括 一 个 大 小 会 动态 变化 的 指针 数组 
entries， 数 组 中 的 每 个 元 素 指向 一 个 对 象 实例 的 关联 数据 结构 (在 信号 
量 中 是 semid_ds 结 构 ) 。entries 数 组 的 当前 大 小 记录 在 size 字 上 段 中 ， 
max_id 字 上 段 记录 着 当前 使 用 中 的 元 素 的 最 大 下 标 。 

ipc_ids 

结构 

(sem_ids) 

















sem_perm.__key = 0x4d0731db 


entries 


(semid_ds) 
sem_perm.__key = 0x4b079002 


sem_perm.__seq =9 \ 
/ 关联 数据 结构 





sem_perm.__seq =5 











图 45-1: 用 于 表示 System VIPC (fas) 对 象 的 内 核 数 据 结构 


在 执行 一 个 IPC get 调 用 时 ，Linux 所 采用 的 算法 近似 如 下 (其 他 系 
统 使 用 了 类 似 的 算法 ) 。 

1. 在 关联 数据 结构 列表 (entries 数 组 中 的 元 素 指向 的 结构 〉 中 搜索 
key 字 段 与 get 调 用 中 指定 的 参数 匹配 的 结构 。 


Ca) 如果 没有 找到 匹配 的 结构 并 且 没 有 指定 IPC_CREAT， 那 么 返 
回 ENOENT 错 误 。 


(b) 如 果 找 到 了 一 个 匹配 的 结构 ， 但 同时 指定 了 IPC_CREAT 和 
IPC_EXCL， 那 么 返回 EEXIST 错 误 。 


Cc) 人 否则 在 找到 一 个 匹配 的 结构 的 情况 下 跳 过 下 面 的 步骤 。 


2. 如 果 没 有 找到 匹配 的 结构 并 且 指 定 了 IPC_CREAT， 那 么 会 分 配 
一 个 新 的 与 所 采用 的 机 制 对 应 的 关联 数据 结构 (在 图 45-1 中 是 
semid_ds) 并 对 其 进行 初始 化 。 在 这 个 操作 中 还 会 更 新 ipc_ids 结 构 中 的 
各 个 字段 ， 并 且 可 能 还 会 重新 设 定 entries 数 组 的 大 小 。 指 癌 新 结构 的 指 
针 会 被 放 在 entries 中 第 一 个 未 被 占用 的 位 置 处 。 在 这 个 初始 化 的 过 程 中 
包含 两 个 子 步骤 。 

Ca) 传递 给 get 调 用 的 key 值 被 复制 到 新 分 配 的 结构 的 

XXX_perm. key 字段 中 。 


Cb) ipc_ids 结 构 中 seq 字 段 的 当前 值 被 复制 到 关联 数据 结构 的 
XXX_perm._sedq 字 段 中 ， 将 seq 字 段 的 值 加 1。 


3. 使 用 下 面 的 公式 计算 IPC 对 象 的 标识 符 。 


identifier = index + xxx_perm. seq * SEQ MULTIPLIER 


在 用 于 计算 IPC 标 识 符 的 公式 中 ，index 表 示 对 象 实例 在 entries 数 组 
中 的 下 标 ，SEQ_MULTIPLIER 是 一 个 值 为 32768 的 常数 〈 内 核 源 文件 
include/linux/ipc.h 中 的 IPCMNI) 。 如 在 图 45-1 中 ，key 值 为 0x4b079002 
的 信号 量 生成 的 标识 符 为 (2 + 5* 32768) = 163842. 


对 于 get 调 用 所 采用 的 算法 需要 注意 下 列 儿 点 。 


。 即使 使 用 同样 的 key 创 建 了 一 个 新 IPC 对 象 也 几乎 可 以 肯定 对 象 被 分 
配 到 的 标识 符 是 不 同 的 ， 因 为 标识 符 的 计算 是 根据 保存 在 关联 数据 
结构 中 的 seq 字 段 的 值 来 进行 的 ， 而 在 同 种 类 型 的 对 象 的 创建 过 程 
中 都 会 递增 这 个 值 。 


























内 核 所 采用 的 算法 在 seq 的 值 达 到 (INT_MAX / 
IPCMNI) 一 一 即 2147483647 / 32768 = 65535 一 一 时 会 将 seqg 





的 值 重 置 为 0。 因 此 如 果 在 系统 运行 期 间 已 经 创建 了 65535 
个 对 象 ， 那 么 新 IPC 对 象 可 能 会 与 之 前 的 对 象 拥有 同样 的 标 
识 符 ， 从 而 导致 新 对 象 会 重用 之 前 的 对 象 在 entries 数 组 中 的 
位 置 “ 即 在 系统 运行 期 间 必 须要 释放 之 前 的 对 象 ) 。 但 发 
生 这 种 情况 的 可 能 性 非常 小 。 





e 算法 为 entries 数 组 的 每 个 下 标 都 生成 一 组 不 同 的 标识 符 值 。 

。 由 于 常量 IPCMNI 为 每 种 类 型 的 System V 对 象 的 数量 设 定 了 一 个 上 
限 ， 因 此 算法 确保 所 有 既 有 IPC 对 象 都 拥有 一 个 唯一 的 标识 符 。 

。 给 定 一 个 标识 符 值 ， 使 用 下 面 这 个 等 式 可 以 快速 计算 出 它 在 entries 
数组 中 对 应 的 下 标 。 


index = identifier % 9EQ_MULTIPLIER 








能 够 快速 地 执行 这 种 计算 对 于 那些 接收 ITPC 对 象 标识 符 的 IPC 系 统 调 
用 《〈 即 表 45-1 中 除 get 调 用 的 其 他 调用 ) 的 高 效 执行 来 讲 是 有 必要 的 。 


顺便 提 一 下 ， 当 一 个 进程 在 执行 一 个 IPC 系 统 调 用 《如 msgctl(0、 
semop0O、 或 shmatO) 时 传 入 了 一 个 与 既 有 对 象 不 匹配 的 标识 符 ， 那 么 
就 会 导致 两 个 错误 的 发 生 。 如 果 entries 中 相应 下 标 处 是 空 的 ， 那 么 将 会 
导致 EHINVAL 错 误 的 发 生 。 如 有 末 下 标 指 向 了 一 个 关联 数据 结构 ， 但 存储 
在 该 结构 中 的 序号 导致 不 会 产生 同样 的 标识 符 值 ， 那 么 束 假 设 这 个 数组 
下 标 指 同 的 旧 对 象 已 经 被 删除 了 ， 该 下 标 会 被 重用 。 通 过 错误 EIDRM 
可 以 诊断 出 这 种 情况 的 发 生 。 











45.6 ”ipcs 和 ipcrm 命 令 

ipcs 和 ipcrm 命 令 是 System V IPC 领 域 中 类 似 于 ls 和 rm 文件 命令 的 全 
令 。 使 用 ipcs 能 够 获取 系统 上 IPC 对 象 的 信息 。 在 默认 情况 下 ，ipcs 会 显 
示 出 所 有 对 象 ， 如 下 面 的 例子 所 示 。 


$ ipcs 


------ Shared Memory Segments -------- 
key shmid owner perms bytes nattch status 
0x6d0731db 262147 mtk 600 8192 2 


------ Semaphore Arrays -------- 


key semid owner perms nsems 
0x6107c0b8 0 cecilia 660 6 
0x6107c0b6 32769 britta 660 1 


A Message Queues -------- 
key msqid owner perms used-bytes messages 
0x71075958 229376 cecilia 620 12 2 


在 Linux 上 ，ipcs(T) 只 显示 出 拥有 该 权限 的 IPC 对 象 的 信息 ， 而 不 管 
是 否 拥有 这 些 对 象 。 在 一 些 UNIX 实 现 上 ，ipcs 的 行为 与 它 在 Linux 上 的 
行为 一 样 ， 但 在 其 他 实现 上 ，ipcs 会 显示 出 所 有 对 象 ， 不 管 当前 用 户 是 
侍 拥 有 这 些 对 象 上 的 读 权 限 。 


在 默认 情况 下 ，ipcs 会 显示 出 每 个 对 象 的 key、 标 识 符 、 所 有 者 以 及 
权限 “用 一 个 人 进 制 数字 表示 ) ， 后 面 跟着 对 象 所 特有 的 信息 。 


。 对 于 共享 内 存 ，ipcs 会 显示 出 共享 内 存 区 域 的 大 小 、 当 前 将 共享 内 
存 区 域 附 加 到 自己 的 虚拟 地 址 空间 的 进程 数 以 及 状态 标记 。 状 态 标 
记 标 识 出 了 区 域 是 否 被 锁 进 了 RAM 以 防止 交换 〈 参 见 48.7 节 ) 以 及 
在 所 有 进程 都 与 该 区 域 分 离 之 后 是 否 已 经 将 其 标记 为 待 销毁 了 。 

。 对 于 信号 量 ，ipcs 会 显示 出 信号 集 的 大 小 。 

° 对 于 消息 队列 ， ipcs 会 显示 出 队列 中 数据 占据 的 字 节 总 数 以 及 消息 


数量 











ipcs(1) 手 册 对 各 种 能 够 显示 IPC 对 象 的 其 他 信息 的 选项 进行 了 说 
明 。 


Pou i 除 一 个 IPC 对 象 。 这 个 命令 的 常规 形式 为 下 面 两 种 形式 
一 种 。 


$ ipcrm -X key 
$ ipcrm -x id 


在 上 面 给 出 的 命令 中 既 可 以 将 一 个 IPC 对 象 的 key 指 定 为 参数 key， 
也 可 以 将 一 个 IPPC 对象 的 标识 符 指 定 为 参数 id 并 且 使 用 小 写 的 x 蔡 换 其 大 
写 形式 或 使 用 小 写 的 d〈 用 于 消 妃 队列 ) 或 s〈 用 于 信号 量 ) 或 m CH 
Zoe 。 因 此 使 用 下 面 的 命令 可 以 删除 标识 符 为 65538 的 信和 号 量 


$ ipcrm -s 65538 





45.7 获取 所 有 IPC 对 象 列表 
Linux 提 供 了 两 种 获取 系统 上 所 有 IPC 对 象 列表 的 非 标 准 方法 。 


e /proc/sysvipc 目 录 中 的 文件 会 列 出 所 有 IPC 对 象 。 
。 使 用 Linux 特 有 的 ct 调用 。 


本 节 将 会 介绍 /proc/sysvipc 目 录 中 的 文件 ， 在 46.6 节 将 会 对 ct 调用 进 
行 介 绍 ， 并 提供 一 个 示例 程序 来 列 出 系统 上 所 有 System V 消 息 队 列 。 


其 他 一 些 UNIX 实 现 提供 了 它们 自己 的 用 于 获取 所 有 
IPC 标 识 符 列表 的 非 标准 方法 ， 如 Solaris 为 此 提供 了 
msgids()、semids() 以 及 shmids() 系 统 调用 。 





/proc/sysvipc 目 录 中 三 个 只 读 文件 提供 的 信息 与 通过 ipcs 获 取 的 信息 
是 一 样 的 。 
e /proc/sysvipc/msg 列 出 所 有 消息 队列 及 其 特性 。 


e /proc/sysvipc/sem 列 出 所 有 信号 量 集 及 其 特性 。 
e /proc/sysvipc/shm 列 出 所 有 共享 内 存 段 及 其 特性 。 


与 pcs 命 令 不 同 ， 这 些 文件 总 是 会 显示 出 相应 种 类 的 所 有 对 象 ， 不 
管 是 否 在 这 些 对 象 上 拥有 读 权 限 。 

下 面 给 出 了 一 个 示例 /proc/sysvipc/sem 文 件 的 内 容 (为 符合 版 面 的 
要 求 ， 这 里 删除 了 一 些 空 格 ) 。 
$ cat /proc/sysvipc/sem 


key semid perms nsems uid gid cuid cgid otime ctime 
0 16646144 600 4 1000 100 1000 100 0 1010166460 


1X = /proc/sysvipe LF A Fehr MAA ee Ge — ad E FE PPS 











所 有 既 有 IPC 对 象 的 方法 《不 可 移植 ) 。 





获取 给 定 种 类 的 所 有 IPC 对 象 的 最 佳 可 移植 的 做 法 是 解 
析 ipcs(1) 的 输出 。 


45.8 IPC 限 制 


由 于 System V IPC 对 象 会 消耗 系统 资源 ， 因 此 内 核对 各 种 IPC 对 象 
进行 了 各 式 各 样 的 限制 以 防止 资源 被 耗 尽 。SUSv3 没 有 对 用 于 限制 
System V IPC 对 象 的 方法 进行 规定 ， 但 大 多 数 UNIX 实 现 〈 包 括 Linux ) 
都 采用 了 类 似 的 框架 来 对 对 象 进行 各 种 各 样 的 限制 。 在 下 面 介绍 各 种 
System V IPC 机 制 的 章节 中 将 会 对 相关 的 限制 进行 讨论 并 指出 与 其 他 
UNIX 实 现 之 间 的 差别 。 





尽管 在 不 同 UNIX 实 现 之 间 对 各 种 IPC 对 象 所 能 施加 的 限制 类 型 通 各 
是 类 似 的， 但 查看 和 修改 这 些 限制 的 方法 则 是 不 同 的 。 下 面 章 节 中 介绍 
的 方法 是 Linux 特 有 的 (它们 一 般 都 需要 使 用 /proc/sys/kernel 目 录 中 的 3 
件 ) ， 而 在 其 他 实现 上 则 需要 使 用 不 同 的 方法 。 





在 Linux 上 ，ipcs 一 命令 可 以 用 来 列 出 各 种 IPC 机 制 上 的 
限制 。 程 序 可 以 使 用 Linux 特 有 的 IPC_INFO ct 操作 来 获取 
同样 的 信息 。 


45.9 ”总 结 


System V IPC 是 首先 在 System V 中 被 广泛 使 用 的 三 种 IPC 机 制 的 名 称 
并 且 之 后 被 移植 到 了 大 多 数 UNIX 实 现 中 以 及 被 加 入 了 加 入 了 各 种 标准 
中 。 这 三 种 IPC 机 制 允 许 进程 之 间 交 换 消 息 的 消息 队列 ， 人 允许 进程 同步 
对 共享 资源 的 访问 的 信号 量 ， 以 及 允许 两 个 或 更 多 进程 共享 内 存 的 同一 
个 页 的 共享 内 存 。 


这 三 种 IPC 机 制 在 API 和 语义 上 存在 很 多 相似 之 处 。 对 于 每 种 IPC 机 
制 来 讲 ，get 系 统 调 用 会 创建 或 打开 一 个 对 象 。 给 定 一 个 整数 key，get 调 
用 返回 一 个 整数 标识 符 用 来 在 后 续 的 系统 调用 中 引用 对 象 。 每 种 IPC 机 
制 还 拥有 一 个 对 应 的 ct 调用 用 来 删除 一 个 对 象 以 及 获取 和 修改 对 象 的 关 
联 数据 结构 中 的 各 种 特性 〈 如 所 有 权 和 权限 ) 。 


用 来 为 新 IPC 对 象 生 成 标识 符 的 算法 被 设计 成 将 (立即 ) 复 用 同样 
的 标识 符 的 可 能 性 降 到 最 小 ， 即 使 相应 的 对 象 已 经 被 删除 了 ， 甚 至 是 使 
用 同样 的 key 来 创建 新 对 象 也 一 样 。 这 样 客户 端 - 服 务 器 应 用 程序 就 能 够 
正常 工作 了 一 一 重新 启动 的 服务 器 进程 能 够 检测 到 并 删除 上 一 个 服务 器 
进程 创建 的 IPC 对 象 ， 并 且 这 个 动作 会 令 上 一 个 服务 器 进程 的 客户 端 所 
保存 的 标识 符 失 效 。 

ipcs 命 令 列 出 了 当前 位 于 系统 上 的 所 有 System V IPC 对 象 。ipcrm 命 
令 用 来 删除 System IPC 对 象 。 


在 Linux 上 ，/proc/sysvipc 目 录 中 的 文件 可 以 用 来 获取 系统 上 所 有 
System V IPC 对 象 的 信息 。 


每 种 IPC 机 制 都 有 一 组 相关 的 限制 ， 它 们 通过 阻止 创建 任意 数量 的 
IPC 对 象 来 避免 系统 资源 的 耗 尽 。/proc/sys/kernel 目 录 中 的 各 个 文件 可 以 
用 来 查看 和 修改 这 些 限制 。 


更 多 信息 
在 [Maxwell, 1999] 和 [Bovet & Cesati, 2005] 中 能 够 找到 System V IPC 


在 Linux 上 的 实现 的 信息 。[Goodheart & Cox, 1994] 介 绍 了 System V 
Release 4 中 System V IPC 的 实现 。 





45.10 ”习题 

45-1. 编写 一 个 程序 来 验证 ftok() 所 采用 的 算法 是 否 如 45.2 节 中 描述 
的 那样 使 用 了 文件 的 i-node 号 、 次 要 设备 写 以 及 proj 值 。( 通 过 几 个 例子 
打印 出 所 有 这 些 值 以 及 ftok() 的 返回 值 的 十 六 进 制 形式 即 可 。) 

45-2. 实现 ftok()。 


45-3. 验证 (通过 实验 ) 45.5 节 中 有 关 用 于 生成 System V IPC 标 识 
符 的 算法 的 声明 。 


第 46 章 ”System VIB AMI 


ANAT EA System V 消 息 队 列 。 消 息 队 列 允 许 进程 以 消息 的 形式 交换 





数据 。 尽 管 消 轧 队列 在 荣 些 方面 与 管道 和 FIFO 类 似 ， 但 它们 之 间 仍 然 存 
在 显著 的 差别 。 


结 


用 来 引用 消息 队列 的 句柄 是 一 个 由 msggetO 调 用 返回 的 标识 符 。 这 
e a one 
十 个 | 同胞。 

通过 消息 队列 进行 的 通信 征 面 癌 消 息 的 ， 即 读者 接收 到 由 写 者 写 入 
的 整 条 消息 。 读 取 一 条 消息 的 一 部 分 而 让 剩余 部 分 遗留 在 队列 中 或 
一 次 读 取 多 条 消息 都 是 不 可 能 的 。 这 一 点 与 管道 不 通 ， 管 道 提供 的 
是 一 个 无 法 进行 区 分 的 字 节 流 〈 即 使 用 管道 时 读者 一 次 可 以 读 取 任 
意 数 量 的 字 节 数 ， 不 管 写 者 写 入 的 数据 块 的 大 小 是 什么 ) 。 

除了 包含 数据 之 外 ， 每 条 消 恩 还 有 一 个 用 整数 表示 的 类 型 。 从 消 县 
a T ER 

H Eo 


本 章 最 后 〈46.9 节 ) 将 会 对 System V 消 息 队 列 所 存在 的 限制 进行 总 


























。 由 于 存在 这 些 限制 ， 因 此 新 应 用 程序 应 该 尽 可 能 避免 使 用 System V 


消息 队列 ， 而 应 该 使 用 其 他 形式 的 IPC 机 制 ， 如 FIFO、POSIX 消 息 队列 
以 及 socket。 但 在 消息 队列 一 开始 被 设计 出 来 的 时 候 ， 这 些 候选 机 制 不 
是 还 没有 被 发 明 出 来 就 是 还 没有 在 UNIX 实 现 中 被 广泛 采用 ， 其 结果 是 
存在 各 类 使 用 消息 队列 的 既 有 应 用 程序 ， 这 也 是 在 这 里 对 消息 队列 进行 
介绍 的 主要 原因 之 一 。 








46.1 创建 或 打开 一 个 消息 队列 
msgget() 系 统 调用 创建 一 个 新 消息 队列 或 取得 一 个 既 有 队列 的 标识 





#include <sys/types.h> /* For portability */ 
#include <sys/nsg.h> 


int msgget(key_t key, int msgfig); 


Returns message queue identifier on success, or -1 on error 











key 参 数 是 使 用 45.2 节 中 描述 的 方法 之 一 生成 的 一 个 键 〈 即 通常 是 值 
IPC_PRIVATE 或 ftok0 返 回 的 一 个 键 ) 。msgflg 参 数 是 一 个 指定 施加 于 
新 消息 队列 之 上 的 权限 或 检查 一 个 既 有 队列 的 权限 的 位 掩 码 。 此 外 ， 在 
msgflg 参 数 中 还 可 以 将 下 列 标记 中 的 零 个 或 多 个 标记 取 OR 〈|) 以 控制 
msgget() 的 操作 。 





IPC_CREAT 
如 果 没 有 与 指定 的 key 对 应 的 消 妃 队列 ， 那 么 就 创建 一 个 新 队列 。 
IPC_EXCL 


如 果 同 时 还 指定 了 IPC_CREAT 并 且 与 指定 的 key 对 应 的 队列 已 经 存 
在 ， 那 么 调用 就 会 失败 并 返回 EEXIST 错 误 。 


在 45.1 市 中 对 这 些 标记 进行 了 详细 描述 。 


msgget() 系 统 调用 首先 会 在 所 有 既 有 消息 队列 中 搜索 与 指定 的 键 对 
应 的 队列 。 如 果 找 到 了 一 个 匹配 的 队列 ， 那 么 就 会 返回 该 对 象 的 标识 符 
(除非 在 msgflg 中 同时 指定 了 IPC_CREAT 和 IPC_EXCL， 那 样 的 话 就 返 
回 一 个 错误 ) 。 如 果 没 有 找到 匹配 的 队列 并 且 在 msgflg 中 指定 了 
IPC_CREAT， 那 么 就 会 创建 一 个 新 队列 并 返回 该 队列 的 标识 符 。 


程序 清单 46-1 为 msgget() 系 统 调 用 提供 了 一 个 命令 行 界面 。 这 个 程 
序 允 许 使 用 命令 行 选项 和 参数 来 指定 传递 给 msgget() 调 用 的 key 和 msgflg 
参数 的 所 有 组 合 。usageError(0) 函 数 给 出 了 这 个 程序 所 接受 的 命令 格式 的 














细节 信息 。 在 成 功 创建 队列 之 后 ， 这 个 程序 会 打印 出 队列 标示 符 。 
46.2.2 节 将 会 演示 这 个 程序 的 用 法 。 









































程序 清单 46-1: 使 用 msgget() 





svmse/svmsg_ create.c 


#include <sys/types.h> 
#include <sys/ipc.h> 
#include <sys/msg.h> 
#include <sys/stat.h> 
#include "tlpi hdr.h" 


static void /* Print usage info, then exit */ 
usageError(const char *progName, const char *msg) 


if (msg != NULL) 
fprintf(stderr, "4s", msg); 
fprintf(stderr, "Usage: %s [-cx] {-f pathname | -k key | -p} " 
"Toctal-perms]\n", progName) ; 


fprintf(stderr, " -C Use IPC_CREAT flag\n"); 
fprintf(stderr, " -X Use IPC_EXCL flag\n"); 
fprintf(stderr, " -f pathname Generate key using ftok()\n"); 
fprintf(stderr, " -k key Use 'key' as key\n"); 
fprintf(stderr, " -p Use IPC PRIVATE key\n"); 
exit(EXIT FAILURE); 

} 

int 


main(int argc, char *argv[]) 


int numKeyFlags; /* Counts -f, -k, and -p options */ 
int flags, msqid, opt; 

unsigned int perms; 

long lkey; 

key t key; 


/* Parse command-line options and arguments */ 


numKeyFlags = 0; 
flags = 0; 


while ({opt = getopt(argc, argv, "“cf:k:px")) != -1) { 
switch (opt) { 


case 'c': 
flags |= IPC_CREAT; 
break; 
case 'f': /* -f pathname */ 
key = ftok(optarg, 1); 
if (key == -1) 
errExit("ftok"); 
numKeyFlags++; 
break; 
case 'k': /* -k key (octal, decimal or hexadecimal) */ 


if (sscanf(optarg, "%li", &lkey) != 1) 
cmdLineErr("-k option requires a numeric argument\n"); 
key = lkey; 
numKeyFlags++; 
break; 


case 'p': 
key = IPC_PRIVATE; 
numKeyFlags++; 
break; 


case 'x': 
flags |= IPC_EXCL; 
break; 


default: 
usageError(argv[0], "Bad option\n"); 
} 


} 


if (numKeyFlags != 1) 
usageError(argv[0], "Exactly one of the options -f, -k, 
"or -p must be supplied\n"); 


perms = (optind == argc) ? (S_IRUSR | S_IWUSR) : 
getInt(argv[optind], GN BASE 8, “octal-perms"); 


msqid = msgget(key, flags | perms); 
if (msqid == -1) 
errExit("msgget") ; 


printf("%d\n", msqid); 
exit(EXIT_SUCCESS) ; 


svmsg/svmsg create.c 


46.2 ”交换 消息 


msgsnd0 和 msgrcv0O 系 统 调 用 执行 消息 队列 上 的 IO。 这 两 个 系统 调 
用 接收 的 第 一 个 参数 是 消息 队列 标识 符 Cmsqid) 。 第 二 个 参数 msgp 是 
一 个 由 程序 员 定 义 的 结构 的 指针 ， 该 结构 用 于 存放 被 发 送 或 接收 的 消 
上 县。 这 个 结构 的 常规 形式 如 下 。 


struct mymsg { 
long mtype; /* Message type */ 
char mtext[]; /* Message body */ 
i 


XNE E SI Bo ee SRA, E 
用 一 个 类 型 为 Iong 的 整数 来 表示 ， 而 消息 的 剩余 部 分 则 是 由 程序 员 定 义 
的 一 个 结构 ， 其 长 度 和 内 容 可 以 是 任意 的 ， 而 无 需 是 一 个 字符 数组 。 
此 mgsp 参 数 的 类 型 为 void *， 这 样 就 允许 传 入 任意 结构 的 指针 了 。 

mtext 字 段 长 度 可 以 为 零 ， 当 对 于 接收 进程 来 讲 所 需 传 递 的 信息 仅 
通过 消息 类 型 就 能 表示 或 只 需要 知道 一 条 消息 本 号 是 否 存在 时 ， 这 种 做 
法 有 时 候 融 变 得 非常 有 用 了 。 


46.2.1 RSM E 
msgsnd0 系 统 调 用 回 消 息 队 列 写 入 一 条 消息 。 
































#include <sys/types.h> /* For portability */ 
#include <sys/msg.h> 


int msgsnd(int msqid, const void *msgp, size_t msgsz, int msgflg); 


Returns 0 on success, or -1 on error 











使 用 msgsnd0 发 送 消息 必须 要 将 消息 结构 中 的 mtype 字 段 的 值 设 为 

个 大 于 0 的 值 〈《 在 下 一 节 讨论 msgrcvO 时 会 介绍 这 个 值 的 用 法 ) 并 将 所 

需 传 递 的 信息 复制 到 程序 员 定 义 的 mtext 字 段 中 。msgsz 参 数 指定 了 mtext 
字段 中 包含 的 字 节 数 。 





在 使 用 msgsnd0 发 送 消息 时 并 不 存在 write0 所 具备 的 部 
分 写 的 概念 。 这 也 是 成 功 的 msgsnd0 只 需要 返回 0 而 不 是 所 
发 送 的 字 节 数 的 原因 。 


最 后 一 个 参数 msgflg 是 一 组 标记 的 位 掩 码 ， 用 于 控制 msgsnd0 的 操 
作 ， 目 前 只 定义 了 一 个 这 样 的 标记 。 


IPC_NOWAIT 


执行 一 个 非 阻塞 的 发 送 操作 。 通 各， 当 消 息 队 列 满 时 ，msgsnd0) 会 
阻塞 直到 队列 中 有 足够 的 空间 来 存放 这 条 消息 。 但 如 果 指 定 了 这 个 标 
记 ， 那 么 msgsnd0 束 会 立即 返回 EAGAIN 错 误 。 


当 msgsnd() 调 用 因 队 列 满 而 发 生 阻 寨 时 可 能 会 被 信号 处 理 占 中 断 。 
当 发 生 这 种 情况 时 ，msgsnd0 总 是 会 返回 EINTR 错 误 。 【在 21.5 节 中 
指出 过 msgsnd0O 系 统 调用 永远 不 会 自动 重启， 不 管 在 建立 信号 处 理 器 时 
是 否 设置 了 SA_RESTART 标 记 。 ) 


问 消 息 队 列 写 入 消息 要 求 具 备 在 该 队列 上 的 写 权 限 。 

程序 清单 46-2 为 msgsnd0 系 统 调用 提供 了 一 个 命令 行 界 面 。 
usageError0 函 数 显示 了 这 个 程序 接受 的 命令 行 格式 。 注 意 这 个 程序 没有 
使 用 msgget() 系 统 调 用 。【 在 45.1 节 中 讲 过 一 个 进程 无 需 使 用 get 调 用 来 
访问 一 个 IPC 对 象 。) 相反 ， 这 里 通过 将 消息 队列 标识 符 设 定 为 命令 行 
参数 的 值 来 指定 消息 队列 。 在 46.2.2 节 中 将 会 演示 这 个 程序 的 用 法 。 


程序 清单 46-2: 使 用 msgsnd(0) 发 送 一 条 消 ， 
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svmsg/svmsg_send.c 
#include <sys/types.h> 
#include <sys/msg.h> 
#include "tlpi_hdr.h" 


#define MAX MTEXT 1024 


struct mbuf { 
long mtype; /* Message type */ 
char mtext[MAX_MTEXT]; /* Message body */ 
}; 


static void /* Print (optional) message, then usage description */ 
usageError(const char *progName, const char *msg) 


if (msg != NULL) 
fprintf(stderr, "%s", msg); 
fprintf(stderr, "Usage: %s [-n] msqid msg-type [msg-text]\n", progName); 
fprintf(stderr, " -n Use IPC_NOWAIT flag\n"); 
exit (EXIT_FAILURE); 


} 

int 

main(int argc, char *argv[]) 
int msqid, flags, msgLen; 


struct mbuf msg; /* Message buffer for msgsnd{) */ 
int opt; /* Option character from getopt() */ 


/* Parse command-line options and arguments */ 


flags = 0; 
while ((opt = getopt(argc, argv, “n")) l= -1) { 
if (opt == 'n’) 
flags |= IPC_NOWAIT; 
else 


usageError(argv[0], NULL); 
} 


if (argc < optind + 2 || argc > optind + 3) 
usageError(argv[0], "Wrong number of arguments\n"); 


msqid = getInt(argv[optind], 0, "msqid"); 
msg.mtype = getInt(argv[optind + 1], 0, "msg-type"); 


if (argc > optind + 2) { /* 'msg-text' was supplied */ 
msgLen = strlen({argv[optind + 2]) + 1; 
if (msgLen > MAX_MTEXT) 
cmdLineErr("msg-text too long (max: %d characters)\n", MAX MTEXT); 
memcpy(msg.mtext, argv[optind + 2], msgLen); 
} else { /* No ‘msg-text' ==> zero-length msg */ 
msgLen = 0; 
} 


/* Send message */ 


if (msgsnd(msqid, &msg, msgLen, flags) == -1) 
errExit("msgsnd") ; 


exit(EXIT_SUCCESS); 


svmsg/svmsg_send.c 


46.2.2 ”接收 消息 





msgrcv0O 系 统 调用 从 消 妃 队列 中 读 取 《以 及 删除 ) 一 条 消 轧 并 将 其 


内 容 复 制 进 msgp 指 向 的 缓冲 区 中 。 





#include <sys/types.h> /* For portability */ 
ftinclude <sys/msg.h> 


ssize_t msgrcv(int msgid, void *msgp, size_t maxmsgsz, long msgtyp, int msgfig); 





Returns number of bytes copied into mexi field, or -1 on error 








msgp 绥 冲 区 中 mtext 字 段 的 最 大 可 用 空间 是 通过 maxmsgsz 参 数 来 指 


定 的 。 如 果 队 列 中 竺 删除 的 消息 体 的 大 小 超过 了 maxmsgsz 字 节 ， 那 么 
就 不 会 从 队列 中 删除 消息 ， 并 且 msgrcv0 会 返回 错误 E2BIG。 (这 是 默 
认 行 为 ， 可 以 使 用 MSG_NOERROR 标 记 来 改变 这 种 行为 ， 稍 后 就 会 对 
此 进行 介绍 。) 


JN 





BCE E IU Tc m SB SAIN H AR mtypeF Bey 


pee ne? 而 这 个 选择 过 程 是 由 msgtyp 参 数 来 控制 的 ， 有 具体 如 下 所 





那么 会 删除 队列 中 的 第 一 条 消息 并 将 其 返回 给 
调用 进程 。 

如 果 msgtyp 大 于 0， 那 么 会 将 队列 中 第 一 条 mtype 等 于 msgtyp 的 消 恩 
删除 并 将 其 返回 给 调用 进程 。 通 过 指定 不 同 的 msgtyp 值 ， 多 个 进程 
能 够 从 同一 个 消息 队列 中 读 取 消息 而 不 会 出 现 竞 争 读 取 同一 条 消息 
n 比较 有 用 的 一 项 技术 是 让 各 个 进程 选取 与 自己 的 进程 ID 匹 
配 的 消息 。 

如 果 msgtyp 小 于 0， 那 么 就 会 将 等 待 消息 当成 优先 队列 来 处 理 。 队 
列 中 mtype 最 小 并 且 其 值 小 于 或 等 于 msgtyp 的 绝对 值 的 第 一 条 消息 
会 被 删除 并 返回 给 调用 进程 。 


下 面 通过 一 个 例子 将 讲解 msgtyp 小 于 0 时 的 情况 。 假 设 一 个 消 妃 队 











列 包 含 了 图 46-1 中 显示 的 一 组 消息 ， 接 着 执行 一 系列 的 msgrcv0) 调 用 ， 
其 形式 如 下 。 


msgrcv(id, &msg, maxmsgsz, -300, 0); 


这 些 msgrcv() 调 用 会 按照 2>( 类 型 为 100) 、5 【类 型 为 100) 、3 (类 
型 为 200) 、1 (类 型 为 300〉 的 顺序 读 取 消息 。 后 续 的 调用 会 阻塞 ， 
为 剩余 的 消息 的 类 型 (400) 超过 了 300。 


msgflg 参 数 是 一 个 位 掩 码 ， 它 的 值 通 过 将 下 列 标记 中 的 零 个 或 多 个 
取 OR 来 确定 。 


IPC_NOWAIT 


执行 一 个 非 阻塞 接收 。 通 常 如 果 队 列 中 没有 匹配 msgtyp 的 消息 ， 那 
么 msgrcv0 会 阻塞 直到 队列 中 存在 匹配 的 消息 为 止 。 指 定 IPC_NOWAIT 
标记 会 导致 msgrcv0 立 即 返 回 EFNOMSG 错 误 。 (返回 EAGAIN 错 误会 使 
一 致 性 更 强 一 点 ， 因 为 非 阻塞 的 msgsnd0 和 FIFO 中 的 非 阻塞 读 取 也 是 返 
回 这 个 错误 ， 但 之 所 以 返回 ENOMSG 错 误 是 存在 历史 原因 的 ，SUSv3 也 
要 求 返回 ENOMSG。) 


MSG_EXCEPT 


只 有 当 msgtyp 大 于 0 时 这 个 标记 才 会 起 作用 ， 它 会 强制 对 常规 操作 
进行 补足 ， 即 将 队列 中 第 一 条 mtype 不 等 于 msgtyp 的 消息 删除 并 将 其 返 
回 给 调用 者 。 这 个 标记 是 Linux 特 有 的 ， 只 有 当 定 义 了 _GNU_SOURCE 
之 后 才 会 在 <sys/msg.h> 中 提供 这 个 标记 。 在 图 46-1 中 给 出 的 消息 队列 上 
执行 一 系列 形式 为 msgrcv(id, &msg, maxmsgsz, 100, MSG_EXCEPT) 的 调 
用 将 会 按照 1、3、4 顺 序 读 取消 上 号 ， 之 后 发 生 阻 寨 。 


A RA 消息 正文 
队列 位 置 (mtype) (mtext ) 





图 46-1: 包含 不 同类 型 的 消息 的 示例 消息 队列 





MSG_NOERROR 


在 默认 情况 下 ， 当 消息 的 mtext 字 段 的 大 小 超过 了 可 用 空间 时 《由 


maxmsgsz 参 数 定义 ) ，msgrcv() 调 用 会 失败 。 如 果 指 定 了 MSG_ 
NOERROR 标 记 ， 那 么 msgrcv0O 将 会 从 队列 中 删除 消息 并 将 其 mtext 字 段 
的 大 小 截 短 为 maxmsgsz 字 节 ， 然 后 将 消息 返回 给 调用 者 。 被 截 去 的 数 
据 将 会 丢失 。 


msgrcv0 成 功 完 成 之 后 会 返回 接收 到 的 消息 的 mtext 字 段 的 大 小 ， 发 
生 错 误 时 则 返回 -1。 


与 nsgsnd0 一 样 ， 如 果 被 阻塞 的 msgrcvO 调 用 被 一 个 信号 处 理 器 中 
断 了 ， 那 么 调用 会 失败 并 返回 EINTR 错 误 ， 不 管 在 建立 信号 处 理 器 时 是 
否 设置 了 SA_RESTART 标 记 。 


从 消息 队列 中 读 取消 轧 需 要 具备 在 队列 上 的 读 权限 。 
示例 程序 


程序 清单 46-3 为 msgrcv() 系 统 调用 提供 了 一 个 命令 行 界面 。 
usageError0 函 数 显 示 了 这 个 程序 接受 的 命令 行 格式 。 与 程序 清单 46-2 中 
演示 msgsnd() 的 用 法 的 程序 一 样 ， 这 个 程序 也 没有 使 用 msggetO 系 统 调 
用 ， 相 反 它 需要 在 命令 行 参数 中 传 入 一 个 消息 队列 标识 符 。 


下 面 的 shell 会 话 演示 了 程序 清单 46-1、 程 序 清单 46-2、 程 序 清单 46- 
3 中 的 程序 的 用 法 。 这 里 首先 使 用 IPC_PRIVATE 键 创建 了 一 个 消息 队 
列 ， 然 后 向 队列 中 写 入 了 三 条 不 同类 型 的 消息 。 


$ ./svmsg create -p 

32769 ID of message queue 
$ ./svmsg send 32769 20 "I hear and I forget." 

$ ./svmsg send 32769 10 "I see and I remember." 

$ ./svmsg send 32769 30 "I do and I understand." 


i 接着 使 用 程序 清单 46-3 中 的 程序 从 队列 中 读 取 类 型 小 于 或 等 于 20 的 
消息 。 


$ ./svmsg receive -t -20 32769 

Received: type=10; length=22; body=I see and I remember. 
$ ./svmsg receive -t -20 32769 

Received: type=20; length=21; body=I hear and I forget. 
$ ./svmsg receive -t -20 32769 


EARE- A mS SAE, VARS AAR AD FH BSE F 20 














的 消息 了 。 因 此 需要 输入 Control-C 来 终止 这 个 命令 ， 然 后 执行 一 个 从 队 
列 中 读 取 任意 类 型 的 消 恩 的 命令 。 
Type Control-C to terminate program 


$ ./svmsg receive 32769 
Received: type=30; length=23; body=I do and I understand. 


> 


星 序 清 单 46-3: 使 用 msgrcv() 读 取 一 条 消息 








svmsg/svmsg_receive.c 


#define _GNU_ SOURCE /* Get definition of MSG_EXCEPT */ 
#include <sys/types.h> 

#include <sys/msg.h> 

#include "tlpi_hdr.h" 


#define MAX_MTEXT 1024 


struct mbuf { 
long mtype; /* Message type */ 
char mtext[MAX_MTEXT]; /* Message body */ 
}; 


static void 
usageError(const char *progName, const char *msg) 


if (msg != NULL) 

fprintf(stderr, "%s", msg); 
fprintf(stderr, "Usage: %s [options] msgid [max-bytes]\n", progName) ; 
fprintf(stderr, "Permitted options are:\n"); 
fprintf(stderr, -e Use MSG_NOERROR flag\n"); 
fprintf(stderr, -t type Select message of given type\n"); 
fprintf(stderr, -n Use IPC_NOWAIT flag\n"); 


#ifdef MSG EXCEPT 

fprintf(stderr, " -X Use MSG EXCEPT flag\n"); 
#endif 

exit(EXIT FAILURE); 
} 


int 
main(int argc, char *argv[]) 


int msqid, flags, type; 

ssize_t msgLen; 

size t maxBytes; 

struct mbuf msg; /* Message buffer for msgrcv() */ 
int opt; /* Option character from getopt() */ 


/* Parse command-line options and arguments */ 


flags = 0; 

type = 0; 

while ((opt = getopt(argc, argv, "ent:x")) != -1) { 
switch (opt) { 


case ‘e': flags |= MSG _NOERROR; break; 

case ‘n': flags |= IPC_NOWAIT; break; 

case 't': type = atoi(optarg); break; 
#ifdef MSG EXCEPT 

case 'x': flags |= MSG EXCEPT; break; 
#endif 

default: usageError(argv[0], NULL); 

} 

} 


if (argc < optind + 1 || argc > optind + 2) 
usageError(argv[0], "Wrong number of arguments\n"); 


msqid = getInt(argv[optind], 0, “msqid"); 
maxBytes = (argc > optind + 1) ? 
getInt(argv[optind + 1], 0, “max-bytes") : MAX MTEXT; 


/* Get message and display on stdout */ 
msgLen = msgrcv(msqid, &msg, maxBytes, type, flags); 
if (msgLen == -1) 
errExit("msgrcv") ; 
printf("Received: type=%ld; length=%ld", msg.mtype, (long) msgLen); 
if (msgLen > 0) 
printf("; body=%s", msg.mtext); 
printf("\n"); 
exit(EXIT_SUCCESS) ; 


svmsg/svmsg_receive.c 


46.3 消息 队列 控制 操作 
msgctl0 系 统 调用 在 标识 符 为 msqid 的 消息 队列 上 执行 控制 操作 。 





#include <sys/types.h> /* For portability */ 
#include <sys/nsg.h> 


int msgctl(int msgid, int cmd, struct msqid_ds *buf); 








Returns 0 on success, or -1 on error 





cmd 参 数 指定 了 在 队列 上 执行 的 操作 ， 其 取 值 是 下 列 值 中 的 一 个 。 


IPC_RMID 


立即 删除 消息 队列 对 象 及 其 关联 的 msqid_ds 数 据 结构 。 队 列 中 所 有 
剩余 的 消息 都 会 丢失 ， 所 有 被 阻塞 的 读者 和 写 者 进程 会 立即 醒 来 ， 
msgsnd0 和 msgrcv0 会 失败 并 返回 错误 EIDRM。 这 个 操作 会 忽略 传递 给 
msgctl() 的 第 三 个 参数 。 


IPC_STAT 


将 与 这 个 消息 队列 关联 的 msqid_ds 数 据 结 构 的 副本 放 到 buf 指 向 的 组 
冲 区 中 。 在 46.4 节 将 会 介绍 msqid_ds 结 构 。 








IPC_SET 


(EH buffs m FS eH X Se PS EY BE ot 2k YS BA SJ msqid_ds 
数据 结构 中 被 选中 的 字段 。 


45.3 节 介绍 了 更 多 有 关 这 些 操作 的 细节 ， 包 括 调用 进程 所 需 的 特权 
和 权限 。46.6 节 将 会 介绍 cmd 可 取 的 其 他 一 些 值 。 


程序 清单 46-4 演 示 了 如 何 使 用 msgctl0 来 删除 一 个 消 妃 队列 。 


程序 清单 46-4: 删除 System V 消 息 队 列 











svmsg/svmsg_rm.c 


#include <sys/types.h> 
#include <sys/msg.h> 
#include “tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 
int j; 
if (argc > 1 && strcmp(argv[1], "--help") == 0) 
usageErr("%s [msqid...]\n", argv[0]); 


for (j = 1; j < argc; j++) 
if (msgctl(getInt(argv[j], 0, "msqid"), IPC_RMID, NULL) == -1) 
errExit("msgctl %s", argv[j]); 


exit(EXIT_SUCCESS); 


svmsg/svmsg_rm.c 


46.4 消 妃 队列 关联 数据 结构 
每 个 消息 队列 都 有 一 个 关联 的 msqid_ds 数 据 结构 ， 其 形式 如 下 。 


struct msqid ds { 


struct ipc perm msg perm; /* Ownership and permissions */ 
time t msg stime; /* Time of last msgsnd() */ 

time t msg rtime; /* Time of last msgrcv() */ 

time t msg ctime; /* Time of last change */ 
unsigned long —_ msg cbytes; /* Number of bytes in queue */ 
msgqnum_t msg _qnum; /* Number of messages in queue */ 
msglen_t msg _gbytes; /* Maximum bytes in queue */ 
pid_t msg_lspid; /* PID of last msgsnd() */ 

pid_t msg_lrpid; /* PID of last msgrcv() */ 


T3 


名 称 msqid_ds 中 的 缩写 msg 会 令 程序 员 感 到 糊涂 。 只 有 
这 一 个 消息 队列 接口 使 用 这 种 拼写 方式 。 


msgqdnum_t 和 msglen_t 数 据 类 型 一 一 用 于 定义 msg_qnum 和 
msg_qbytes 字 段 的 类 型 一 在 SUSv3 中 被 规定 为 无 符号 整 型 。 


各 种 消息 队列 系统 调用 会 隐 式 地 更 新 msqid_ds 结 构 中 的 字段 ， 使 用 
msgctl() IPC_SET 操 作 则 可 以 显 式 地 更 新 其 中 一 些 字段 。 细 节 信 息 如 
“is 





msg_perm 


在 创建 消息 队列 之 后 会 按照 45.3 节 中 描述 的 那样 初始 化 这 个 子 结构 
中 的 字段 。uid、gid 以 及 mode 子 字段 可 以 通过 IPC_SET 来 更 新 。 


msg_stime 


在 队列 被 创建 之 后 这 个 字段 会 被 设置 为 0， 后 续 每 次 成 功 的 
msgsnd0) 调 用 都 会 将 这 个 字段 设置 为 当前 时 间 。 这 个 字段 和 msqid_ds 结 


: 中 其 他 时 间 惟 字段 的 类 型 都 是 time _t; 它们 存储 自 新 纪元 到 现在 的 秒 


msg_rtime 


在 消 轧 队列 被 创建 之 后 这 个 字段 会 被 设置 为 0， 然 后 每 次 成 功 的 
msgrcv0O 调 用 都 会 将 这 个 字段 设置 为 当前 时 间 。 


msg_ctime 


当 消 息 队列 被 创建 或 成 功 执行 了 IPC_SET 操 作 之 后 会 将 这 个 字段 设 
置 为 当前 时 间 。 


__msg_cbytes 


当 消 息 队 列 被 创建 之 后 会 将 这 个 字段 设置 为 0， 后 续 每 次 成 功 的 
msgsnd0 和 msgrcvO 调 用 都 会 对 这 个 字段 进行 调整 以 反映 出 队列 中 所 有 
消息 的 mtext 字 段 包 含 的 字 节 数 总 和 。 


msg_qnum 


当 消 息 队 列 被 创建 之 后 会 将 这 个 字段 设置 为 0， 后 续 每 次 成 功 的 
msgsndO 调 用 会 递增 这 个 字段 的 值 并 且 每 次 成 功 的 msgrcv0O 调 用 会 递减 
这 个 字段 的 值 以 便 反 映 出 队列 中 的 消息 总 数 。 


msg_qbytes 


这 个 字段 的 值 为 消息 队列 中 所 有 消息 的 mtext 字 段 的 字 节 总 数 定 义 
了 一 个 上 限 。 在 队列 被 创建 之 后 会 将 这 个 字段 的 值 初 始 化 为 
MSGMNB。 特 权 (CAP_ SYS_RESOURCE ) 进程 可 以 使 用 IPC_SET 操 
作 将 msg_qbytes 的 值 调 整 为 0 字 节 到 INT_MAX 〈32 位 平台 上 是 
2147483647) 字 节 之 间 的 任意 一 个 值 。 特 权 用 户 可 以 修改 Linux 特 有 
的 /proc/sys/kernelmsgmnb 文 件 中 包含 的 值 以 修改 所 有 后 续 创 建 的 消息 队 
列 的 初始 msg_qbytes 设 置 以 及 非特 权 进 程 后 续 对 msg_qbytes 修 改 时 所 能 
设置 的 上 限 。46.5 节 将 会 介绍 更 多 有 关 消 息 队 列 限制 方面 的 内 容 。 


msg_lspid 


当 队 列 被 创建 之 后 会 将 这 个 字段 设置 为 0， 后 续 每 次 成 功 的 
msgsndO0 调 用 会 将 其 设置 为 调用 进程 的 进程 ID。 








msg_lrpid 


当 消 轧 队 列 被 创建 之 后 会 将 这 个 字段 设置 为 0， 后 续 每 次 成 功 的 
msgrcv0O 调 用 会 将 其 设置 为 调用 进程 的 进程 ID。 


SUSv3 对 上 面 除 _msg_cbytes 字 段 之 外 的 所 有 其 他 字段 都 进行 了 规 
。 而 大 多 数 UNIX 实 现 都 提供 了 一 个 与 _msg_cbytes 字 段 等 价 的 字 
“Lo 


程序 清单 46-5 演 示 了 如何 使 用 IPC_STAT 和 IPC_SET 操 作 来 修改 一 
个 消息 队列 的 msg_qbytes 设 置 。 


程序 清单 46-5: 修改 一 个 System V 消 息 队 列 的 msg_qbytes 设 置 














svmsg/svmsg_chqbytes.c 


#include <sys/types.h> 
#include <sys/msg.h> 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
struct msqid ds ds; 
int msqid; 
if (argc != 3 || strcmp(argv[1], "--help") == 0) 
usageErr("%s msqid max-bytes\n", argv[0]); 
/* Retrieve copy of associated data structure from kernel */ 
msqid = getInt{argv[1], 0, "msqid"); 
if (msgctl{msgqid, IPC_STAT, &ds) == -1) 
errExit("msgctl") ; 
ds.msg gbytes = getInt(argv[2], 0, "max-bytes"); 


/* Update associated data structure in kernel */ 


if (msgctl{msqid, IPC_SET, &ds) == -1) 
errExit("msgctl"); 


exit(EXIT SUCCESS); 


svmsg/svmsg_chgbytes.c 


46.5 消息 队列 的 限制 


大 多 数 UNIX 实 现 会 对 System V 消 息 队 列 的 操作 施加 各 种 各 样 的 限 
上 ai 统 上 的 限制 进行 介绍 并 指出 其 与 其 他 UNIX 实 现 之 
司 的 差别 


Linux 会 对 队列 操作 施加 下 列 限 制 。 括 号 中 列 出 了 限制 所 影响 到 的 
系统 调用 以 及 当 达 到 限制 时 所 产生 的 错误 。 


MSGMNI 


这 是 系统 级 别 的 一 个 限制 ， 它 规定 了 系统 中 所 能 创建 的 消息 队列 标 
识 符 ( 换 句 话说 是 消息 队列 〉 的 数量 。 (msgget()，ENOSPC) 


MSGMAX 


这 是 系统 级 别 的 一 个 限制 ， 它 规定 了 单条 消 恩 中 最 多 可 写 入 的 字 
数 (mtext) 。 (msgsnd(), EINVAL) 





MSGMNB 


一 个 消息 队列 中 一 次 最 多 保存 的 字 节 数 Cmtext) 。 这 个 限制 是 一 
个 系统 级 别 的 参数 ， 它 用 来 初始 化 与 消息 队列 相关 联 的 msqid_ds 数 据 续 
构 的 msg_qbytes 字 段 。 根 据 46.4 节 中 的 描述 可 以 修改 各 个 队列 的 
msg_qbytes 值 。 E qbytes 限 制 ， 那 么 msgsndO 会 
阻塞 或 在 IPC_NOWAIT 被 设置 时 返回 EAGAIN 错 误 。 





一 些 UNIX 实 现 还 定义 了 下 列 限制 。 


MSGTQL 


这 是 系统 级 别 的 一 个 限制， 它 规定 了 系统 中 所 有 消息 队列 所 能 存放 
消 思 总数。 


MSGPOOL 


这 是 系统 级 别 的 一 个 限制 ， 它 规定 了 用 来 存放 系统 中 所 有 消息 队列 
中 的 数据 的 缓冲 池 的 大 小 。 





尽管 Linux 没 有 规定 上 述 限 制 ， 但 它 会 根据 队列 的 msg_qbytes 限 制 来 
限制 单个 队列 中 的 消息 总 数 。 只 有 当 回 队列 写 入 长 度 为 零 的 消息 时 才 会 
涉及 到 这 个 限制 ， 其 效果 是 对 加 队列 可 写 入 的 长 度 为 零 的 消息 的 数量 的 
限制 与 对 向 队 列 可 写 入 的 长 度 为 1 字 节 的 消 明 的 数量 的 限制 是 一 样 的 。 
这 样 就 能 够 防止 同 队列 无 限制 地 写 入 长 度 为 零 的 消息 。 尽 管 这 些 消息 不 
但 每 个 长 度 为 零 的 消息 都 会 消耗 一 小 块 内 存 以 便 系 统 进 行 短 
i LE. 


在 系统 启动 的 时 候 会 将 消息 队列 限制 设置 为 默认 值 。 不 同 版 本 的 内 
核 上 的 默认 值 是 不 同 的 。 一些 友 行 厂商 发 行 的 内 核 中 的 默认 设置 与 
vanilla 内 核 中 的 默认 设置 是 不 同 的 。) 在 Linux 上 可 以 通过 /proc 文 件 系 统 
中 的 文件 来 查看 和 修改 这 些 限 制 。 表 46-1 显 示 了 与 各 个 限制 对 应 的 /proc 
文件 。 下 面 是 一 个 x86-32 系 统 上 Linux 2.6.31 内 核 中 的 默认 限制 。 





$ cd /proc/sys/kernel 
$ cat msgmni 

748 

$ cat msgmax 

8192 

$ cat msgmnb 

16384 





表 46-1: System V 消 息 队 列 限制 


ti 上 限 值 (x86-32) /proc/sys/kernel 中 的 对 应 文件 














32768 (IPCMNI) 
依赖 于 可 用 内 存 
2147483647 (INT_MAX) 








表 46-1 中 的 上 限 值 那 一 列 显 示 了 在 x86-32 架 构 上 每 个 限制 所 能 达到 
的 最 大 值 。 注 意 尽 管 可 以 将 MSGMNB 限 制 的 值 设 置 为 INT_ MAX， 但 在 
ie 县 队列 中 载 入 这 么 多 的 数据 之 前 可 能 会 达到 其 他 一 些 限 制 〈《 如 缺少 内 
子 ) 。 


Linux 特 有 的 msgctl() IPC_INFO 操 作 能 够 获取 一 个 类 型 为 msginfo 的 
结构 ， 其 中 包含 了 各 种 消息 队列 限制 的 值 。 


struct msginfo buf; 


msgctl(O, IPC_INFO, (struct msqid ds *) &buf); 


有 关 IPC_INFO 和 msginfo 结 构 的 细节 信息 可 以 在 msgctl(2) 手 册 中 找 
到 。 


46.6 ”显示 系统 中 所 有 消息 队列 


在 45.7 市 中 曾 讲 过 一 种 获取 系统 中 所 有 IPC 对 象 列表 的 方法 : 通 


过 /proc 文 件 系 统 中 的 一 组 文件 。 下 面 介绍 获取 相同 信息 的 第 二 种 方法 : 
通过 Linux 特 有 的 一 组 IPC ctl (msgctl()、semctl0 以 及 shmctl()) 操作 。 
(ipcs 程 序 使 用 了 这 些 操 作 。) 这 些 操 作 如 下 。 


MSG _INFO、SEM_INFO 以 及 SHM_INFO: MSG _INFO 操 作 完 成 两 
件 事情 。 第 一 件 事情 是 它 将 返回 一 个 结构 来 详细 描述 系统 上 所 有 消 
恩 队 列 的 资源 消耗 情况 。 第 三 件 事情 是 作为 ctl 调 用 的 浮 数 结果 ， 它 
将 返回 指 问 表示 消息 队列 对 象 的 数据 结构 的 entries 数 组 中 最 大 项 的 
下 标 (参见 图 45-1) 。SEM_INFO 和 SHM_INFO 操 作 分 别 对 信号 量 
集合 共享 内 存 段 执行 了 类 似 的 任务 。 要 从 相应 的 System V IPC 头 文 
件 中 获取 这 三 个 常量 的 定义 就 必须 要 定义 _GNU_SOURCE 特 性 测试 
Po 








本 书 随 带 的 源 代码 中 svmsg/svmsg_info.c 文 件 中 给 出 了 
一 个 使 用 MSG_INFO 获 取 msginfo 结 构 的 例子 ， 该 结构 包含 
了 与 所 有 消息 队列 对 象 所 消耗 的 资源 相关 的 信息 。 


MSG_STAT、SEM_STAT 以 及 SHM_STAT: 与 IPC_STAT 操 作 一 
样 ， 这 些 操作 获取 一 个 IPC 对 象 的 关联 数据 结构 ， 但 它们 之 间 存 在 
两 方面 的 不 同 。 第 一 ， 与 cd 调用 的 第 一 个 参数 为 IPC 标 识 符 不 同 ， 
这 些 操作 的 第 一 个 参数 是 entries 数 组 中 的 一 个 下 标 。 第 二 ， 如 果 操 
作 执 行 成 功 了 ， 那 么 作为 函数 结果 ，ctl 调 用 会 返回 与 该 下 标 对 应 的 
IPC 对 象 的 标识 符 。 要 从 相应 的 System V IPC 头 文件 中 获取 这 三 个 
常量 的 定义 就 必须 要 定义 _GNU_SOURCE 特 性 测试 宏 。 


按照 下 面 的 步 又 可 以 列 出 系统 上 所 有 消息 队列 。 
1. 使 用 MSG_INFO 操 作 找 到 消 乱 队列 的 entries 数 组 的 最 大 下 标 





(maxind) 。 


2. 执行 一 个 循环 ， 对 0 到 maxind (包含 ) 之 间 的 每 一 个 值 都 执行 一 
个 MSG_STAT 操 作 。 在 循环 过 程 中 忽略 因 entries 数 组 中 的 元 素 为 空 而 发 
生 的 错误 CEINVAL) 以 及 在 数组 中 元 素 所 引用 的 对 象 上 不 具备 相应 的 
权限 而 发 生 的 错误 (EACCES) 。 


程序 清单 46-6 按 照 上 面 的 步骤 实现 了 对 消息 队列 的 处 理 。 下 面 的 
shell 会 话 日 志 演 示 了 这 个 程序 的 用 法 。 


$ ./svmsg_1s 

maxind: 4 

index ID key messages 
2 98306 Ox00000000 0 
4 163844 0x000004d2 2 

$ ipcs -q 

------ Message Queues -------- 

key msqid owner perms 

0x00000000 98306 mtk 600 

0x000004d2 163844 mtk 600 


Check above against output of ipes 


used-bytes messages 
0 0 
12 2 


























程序 清单 46-6: 显示 系统 上 所 有 System V 消 
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svmsg/svmsg_1s.c 
#define GNU SOURCE 
#include <sys/types.h> 
#include <sys/msg.h> 
#include "tlpi hdr.h" 


int 

main(int argc, char *argv[]) 

{ 
int maxind, ind, msqid; 
struct msqid_ds ds; 
struct msginfo msginfo; 


/* Obtain size of kernel ‘entries’ array */ 


maxind = msgctl(0, MSG_INFO, (struct msqid ds *) &msginfo); 
if (maxind == -1) 
errExit("msgctl1-MSG INFO"); 


printf("maxind: %d\n\n", maxind); 
printf ("index id key messages\n"); 


/* Retrieve and display information from each element of ‘entries’ array */ 


for (ind = 0; ind <= maxind; ind++) { 
msqid = msgctl(ind, MSG_STAT, &ds); 
if (msqid == -1) { 
if (errno != EINVAL && errno != EACCES) 
errMsg("msgct1-MSG STAT"); /* Unexpected error */ 
continue; /* Ignore this item */ 


} 
printf("%4d %8d 0x%08lx %71d\n", ind, msqid, 
(unsigned long) ds.msg perm. key, (long) ds.msg qnum); 
} 


exit(EXIT SUCCESS); 


svmsg/svmsg_1s.c 


46.7 ”使 用 消息 队列 实现 客户 端 -服务 器 应 用 程序 


在 客户 端 -服务 器 应 用 程序 设计 中 使 用 System V 消 轧 队 列 的 方式 有 
很 多 种 ， 本 市 将 介绍 其 中 两 种 。 


。 在 服务 器 和 客户 端 之 间 使 用 单个 消息 队列 进行 双向 消息 交换 。 

。 服 务 器 和 各 个 客户 端 使 用 单独 的 消息 队列 ， 服 务 器 上 的 队列 用 来 接 
渤 入 的 客户 端 请 求 ， 相 应 的 呆 应 则 通过 各 个 客户 并 队列 来 发 送 给 
户 端 。 


至 于 选择 何 种 方法 依赖 于 应 用 程序 的 需求 ， 稍 后 介绍 可 能 会 影响 到 
决策 的 其 中 一 些 因素 。 


服务 器 和 客户 端 使 用 一 个 消息 队列 


当 服 务 器 与 客户 端 之 间 交 换 的 消 轧 大 小 较 小 时 使 用 一 个 消息 队列 是 
合适 的 ， 但 需要 注意 以 下 几 点 。 


。 由 于 多 个 进程 可 能 会 同时 读 取 消息 ， 因 此 必须 要 使 用 消息 类 型 
(mtype) 字段 来 让 各 个 进程 只 选择 那些 发 给 上 自己 的 消息 。 完 成 这 
个 任务 的 一 种 方法 是 将 客户 端的 进程 ID 作为 服务 喜 发 送 给 客户 端的 
消息 的 消息 类 型 。 客 户 端 可 以 将 其 进程 ID 作为 消息 的 一 部 分 发 送 给 
服务 器 。 此 外 ， 发 送 给 服务 器 的 消息 也 必须 要 能 够 使 用 唯一 的 消 上 
类 型 来 加 以 区 分 ， 而 这 可 以 使 用 数字 1 来 完成 ， 因 为 1 是 永远 运行 着 
的 init 进 程 的 进程 ID， 客 户 端 进程 的 进程 ID 永远 都 不 可 能 为 这 个 
值 。“《〈 另 一 种 方法 是 将 服务 喜 的 进程 ID 作为 消息 类 型 ， 但 客户 端 要 
获取 这 个 信息 就 比较 困难 了 。 ) 图 46-2 给 出 了 这 种 计数 模型 。 
























服务 器 发 送 响 应 服务 器 读 取 
(mtype 二 客户 请 求 (选择 
端的 PID) 消息 队列 msgtyp = 1) 
客户 端 发 送 请求 客户 端 读 取 响 应 
(mtype= 1,mtext (选择 msgwp 二 
包含 客户 端 PID) 自己 的 PID) 





图 46-2: 在 客户 端 -服务 器 IPC 中 使 用 单个 消息 队列 


。 消息 队列 的 容量 是 有 限 的， 而 这 可 能 会 导致 一 系列 问题 的 发 生 。 其 
中 一 个 问题 就 是 多 个 并 行 的 客 尸 端 可 能 会 填 满 消 电 队列， 从 而 导致 
和 死 锁 的 发 生 ， 即 所 有 新 客户 端 都 无 法 提交 请 求 ， 服 务 圳 在 写 入 任何 
啊 应 时 会 发 生 阻 塞 。 另 一 个 问题 是 行为 不 民 或 恶意 的 客户 端 可 能 不 
会 读 取 服 务 器 的 啊 应 ， 从 而 导致 队列 中 充满 了 未 被 读 取 的 消息 ， 进 
而 阻止 了 客户 端 和 服务 器 之 间 的 通信 。 使 用 两 个 队列 一 一 一 个 用 
于 存放 客户 端 发 送 给 服务 器 的 消息 ， 另 一 个 用 于 存放 服务 器 发 送 给 

















客户 端的 消息 一 将 会 解决 第 一 个 问题 ， 但 无 法 解决 第 二 个 问 
题 。) 


一 个 客户 端 使 用 一 个 消 轧 队列 


当 需 要 交换 的 消息 的 大 小 较 大 或 当 使 用 单个 消 轧 队列 可 能 会 导致 发 
生前 面 列 出 的 问题 时 最 好 为 每 个 客户 端 都 使 用 一 个 消 恕 队列 (服务 器 也 
需要 一 个 队列 ) 。 使 用 这 种 方法 需要 注意 以 下 几 扣 。 


。 每 个 客户 端 必须 要 创建 自己 的 消 息 队列 (通常 使 用 IPC_PRIVATE 
键 ) 并 通知 服务 器 队列 的 标识 符 ， 这 通常 通过 将 标识 符 作 为 客户 端 
发 送 给 服务 器 的 消息 的 一 部 分 来 完成 。 

。 系统 对 消息 队列 的 数量 是 有 限制 的 (MSGMNI) ， 这 个 限制 的 默认 
值 在 一 些 系 统 上 是 非常 低 的 。 如 果 同 时 运行 的 客户 端 数 量 庞大 ， 那 
么 可 能 就 需要 提高 这 个 限制 的 值 。 

。 服务 器 应 该 允许 出 现 客户 端的 消息 队列 不 再 存在 的 情况 〈 可 能 是 由 
于 客户 端 不 小 心 删除 了 队列 ) 。 

















节 将 会 对 为 每 个 客户 端 使 用 一 个 队列 这 种 方法 进行 深入 介绍 。 


46.8 ”使 用 消息 队列 实现 文件 服务 器 应 用 程序 


本 节 将 介绍 一 个 为 每 个 客户 端 使 用 一 个 消 妃 队列 的 客 尸 端 / 服 务 嚣 
应 用 程序 。 这 个 应 用 程序 是 一 个 简单 的 文件 服务 器 。 客 己 端 癌 服务 器 的 
消息 队列 及 送 一 个 请 求 消 息 请 求 指定 名 称 的 文件 的 内 容 。 服 务 需 将 文件 
的 内 容 作为 一 系列 的 消 妃 返回 到 客户 端 私 有 的 消 轧 队列 中 。 图 46-3 概 览 
了 该 应 用 程序 。 





服务 器 创建 子 进 








(4) 往来 处 理 请 ; 
wee eee pu ae >| 服务 器 子 进程 
forki) 
oe 服务 器 子 进 
® ia 程 发 送 响 应 (5) 


服务 器 MO 


请 求 到 服务 
器 MQ (mtext 包 含 客户 端 队列 的 ID) 


(6) 客户 端 读 取 响应 (8) 





图 46-3: 一 个 客户 端 使 用 一 个 消息 队列 的 客户 端 /服务 器 IPC 

由 于 服务 怖 对 客户 端 不 做 任何 鉴 权 ， 因 此 所 有 使 用 客户 端的 用 户 都 

能 够 获取 服务 器 所 能 访问 的 所 有 文件 。 更 复杂 一 点 的 服务 器 会 在 返回 请 
求 的 文件 之 前 对 客户 并 完成 芭 种 鉴 权 操作 。 




















程序 清单 46-7 给 出 了 服务 器 和 客户 端 都 需要 包含 的 头 文 件 。 这 个 头 
文件 为 服务 器 的 消息 队列 定义 了 一 个 众所周知 的 键 
(SERVER_KEY) ， 并 且 定 义 了 客户 端 和 服务 器 之 间 传 递 的 消息 的 格 


TK. 


requestMsg 结 构 定 义 了 客户 端 发 送 给 服务 器 的 请 求 格式 。 在 这 个 结 


构 中 ，mtext 部 分 由 两 个 字段 构成 : 客户 端 消息 队列 的 标识 符 和 客户 端 
请 求 的 文件 的 路 径 名 。 常 量 REQ_MSG _SIZE 等 于 这 两 个 字段 大 小 的 总 
和 ， 它 在 使 用 这 个 结构 的 msgsnd0 调 用 中 是 作为 msgsz 参 数 使 用 的 。 


responseMSsg 结 构 定 义 了 服务 器 返回 给 客户 端的 啊 应 消息 的 格式 。 
啊 应 消息 中 的 mtype 字 段 提 供 了 与 消息 内 容 有 关 的 信息 ， 其 取 值 由 
RESP_MT_* 常 量规 定 。 


程序 清单 46-7: svmsg_file_server.c 和 svmsg_file_client.c 的 公共 头 文件 








svmsg/svmsg_file.h 


#include <sys/types.h> 

#include <sys/msg.h> 

#include <sys/stat.h> 

#include <stddef.h> /* For definition of offsetof() */ 
#include <limits.h> 

#include <fcntl.h> 

#include <signal.h> 

#include <sys/wait.h> 

#include "tlpi_hdr.h" 


#define SERVER_KEY Ox1aaaaaal /* Key for server's message queue */ 

struct requestMsg { /* Requests (client to server) */ 
long mtype; /* Unused */ 
int clientId; /* ID of client's message queue */ 
char pathname[ PATH MAX]; /* File to be returned */ 

j; 


/* REQ MSG SIZE computes size of 'mtext' part of ‘requestMsg’ structure. 
We use offsetof() to handle the possibility that there are padding 
bytes between the ‘clientId' and ‘pathname’ fields. */ 


#define REQ MSG SIZE (offsetof(struct requestMsg, pathname) - \ 
offsetof(struct requestMsg, clientId) + PATH MAX) 


Hdefine RESP MSG SIZE 8192 


struct responseMsg { /* Responses (server to client) */ 
long mtype; /* One of RESP MT * values below */ 
char data[RESP_MSG_SIZE]; /* File content / response message */ 
} 


/* Types for response messages sent from server to client */ 


#define RESP_MT_FAILURE 1 /* File couldn't be opened */ 
#define RESP_MT DATA 2 /* Message contains file data */ 
#define RESP MT END 3 /* File data complete */ 


svmsg/svmsg_file.h 


服务 器 程序 


程序 清单 46-8 给 出 了 这 个 应 用 程序 的 服务 嚣 程序。 有 关 服 务 器 需要 
TERE LAB LRA 


© 服务 需 被 设计 成 并 发 地 处 理 请 求 。 并 发 服务 器 设计 最 好 像 程 序 清单 
44-7 中 所 做 的 那样 采用 迭代 陈设 计 ， 因 为 需要 避免 出 现 因 一 个 客户 
端 请 求 一 个 大 文件 而 导致 所 有 其 他 客户 端 请 求 等 竺 的 情况 。 





中 





每 个 客户 端 请 求 通过 创建 一 个 子 进程 返回 请 求 的 文件 来 完成 包 。 同 
时 ， 主 服务 器 进程 等 待 后 续 的 客户 端 请 求 。 有 关 服 务 器 子 进 程 需要 
注意 以 下 几 点 。 

o 由 于 通过 fork0 创 建 的 子 进 程 会 继承 父 进程 栈 的 一 个 副本 ， 因 

此 它 能 够 获取 主 服务 器 进程 读 取 的 请 求 消息 的 一 个 副本 。 

o 服务 器 子 进程 在 处 理 完 相关 的 客户 端 请 求 之 后 会 终止 9)。 
为 避免 创建 僵 死 进程 〈 参 见 26.2 节 ) ， 服 务 器 为 SIGCHLD 建 立 了 一 
个 处 理 器 @ 并 在 处 理 器 中 调用 了 waitpid0@。 
父 服 务 器 进程 中 的 msgrcv0O 调 用 可 能 会 阻塞 ， 其 结果 是 可 能 会 被 
SIGCHLD 处 理 器 中 断 。 为 处 理 这 种 情况 ， 需 要 使 用 一 个 循环 来 完 
成 EINTR 错 误 发 生 之 后 的 重启 操作 。 
服务 器 子 进程 执行 serveRequestO 函 数 凶 ， 该 函数 向 客户 端 返 回 三 种 
消息 。mtype 为 RESP_MT_FAILURE 时 表示 服务 器 无 法 打开 请 求 的 
XFO; RESP_MT_DATA 用 来 表示 包含 文件 数据 的 一 系列 消息 
®©; RESP_MT_END (data 字 上 段 的 长 度 为 零 ) 用 来 表示 文件 数据 传 
输 的 结束 @)。 


在 练习 46-4 中 将 会 考虑 几 种 改进 和 扩展 服务 器 程序 的 方法 。 
程序 清单 46-8: 一 个 使 用 System V 消 息 队列 的 文件 服务 器 

















svmsg/svmsg _ file_serVer.C 


#include “svmsg file.h" 


static void /* SIGCHLD handler */ 
grimReaper(int sig) 


} 


int savedErrno; 


savedErrno = errno; /* waitpid() might change ‘errno’ */ 
while (waitpid(-1, NULL, WNOHANG) > 0) 
continue; 


errno = savedErrno; 


static void /* Executed in child process: serve a single client */ 
@ serveRequest(const struct requestMsg *req) 


int fd; 
ssize t numRead; 
struct responseMsg resp; 


fd = open(req->pathname, O RDONLY); 
if (fd == -1) { /* Open failed: send error text */ 
© resp.mtype = RESP_MT_FAILURE; 
snprintf(resp.data, sizeof(resp.data), "%s", "Couldn't open"); 
msgsnd(req->clientId, &resp, strlen(resp.data) + 1, 0); 
exit (EXIT_FAILURE) ; /* and terminate */ 
} 


/* Transmit file contents in messages with type RESP MT DATA. We don't 
diagnose read() and msgsnd() errors since we can't notify client. */ 


© resp.mtype = RESP_MT_DATA; 
while ((numRead = read(fd, resp.data, RESP MSG SIZE)) > 0) 
if (msgsnd(req->clientId, &resp, numRead, 0) == -1) 
break; 


/* Send a message of type RESP_MT_END to signify end-of-file */ 


© resp.mtype = RESP_MT_END; 
msgsnd(req->clientId, &resp, 0, 0); /* Zero-length mtext */ 


int 
main(int argc, char *argv[]) 


struct requestMsg req; 
pid_t pid; 

ssize t msgLen; 

int serverld; 

struct sigaction sa; 


/* Create server message queue */ 


serverId = msgget(SERVER_KEY, IPC_CREAT | IPC EXCL | 
S_IRUSR | S IWUSR | S_IWGRP); 
if (serverId == -1) 
errExit("msgget"); 


/* Establish SIGCHLD handler to reap terminated children */ 


sigemptyset (&sa.sa_mask); 

sa.sa_flags = SA RESTART; 

sa.sa_handler = grimReaper; 

if (sigaction(SIGCHLD, &sa, NULL) == -1) 
errExit("sigaction") ; 


© 


/* Read requests, handle each in a separate child process */ 


for (55) { 
msgLen = msgrcv(serverlId, &req, REQ MSG SIZE, 0, 0); 
if (msglen == -1) { 


OD if (errno == EINTR) /* Interrupted by SIGCHLD handler? */ 
continue; /* ... then restart msgrcv() */ 
errMsg("msgrcv"); /* Some other error */ 
break; /* ... so terminate loop */ 
} 
® pid = fork(); /* Create child process */ 


If (pid == -1) { 
errMsg("fork") ; 


break; 
} 
if (pid == 0) { /* Child handles request */ 
serveRequest (&req) ; 
© _exit(EXIT SUCCESS); 
} 


/* Parent loops to receive next client request */ 


} 
/* If msgrcv() or fork() fails, remove server MQ and exit */ 


if (msgctl(serverId, IPC_RMID, NULL) == -1) 
errExit("msgctl"); 
exit(EXIT SUCCESS); 


svmsg/svmsg_file_server.c 
vita Fe FF 


程序 清单 46-9 给 出 了 这 个 应 用 程序 的 客户 端 。 有 关 客 户 端 程序 需 注 
ALA FJL o 


。 客户 端 使 用 IPC_PRIVATE 键 创建 一 个 消息 队列 四 并 使 用 atexit0G@) 建 
立 了 一 个 退出 处 理 器 人 以 确保 在 客户 端 退出 时 删除 队列 。 

。 客户 端 将 其 队列 标识 符 以 及 所 请 求 的 文件 的 路 径 名 打包 在 请 求 中 传 
递 给 服务 器 )。 

。 客户 端 对 服务 器 发 送 的 第 一 个 响应 消息 即 为 失败 通知 (mtype 等 于 
RESP_MT_FAILURE) ， 这 种 情况 的 处 理 方式 是 打印 服务 器 返回 的 
错误 消息 并 退出 @)。 


Hi, 


© 如 果 成 功 打 开 了 文件 ， 那 么 客户 端 会 循环 9) 接收 包 含 文件 内 容 的 一 
系列 消息 (mtype 等 于 RESP_MT_DATA) 。 整 个 循环 过 程 在 收 到 文 
件 结束 消息 〈mtype 等 于 RESP_ MT_END) 之 后 结束 。 

这 个 简单 的 客户 端 并 没有 对 由 服务 器 故障 而 引起 的 各 种 情况 进行 处 
在 练习 46-5 中 将 会 考虑 一 些 改进 方案 。 


程序 清单 46-9: 使 用 System V 消 息 队 列 的 文件 服务 器 的 客户 端 











svmsg/svmsg file _client.c 
#include “svmsg file.h" 


static int clientId; 


static void 
removeQueue (void) 


if (msgctl(clientId, IPC_RMID, NULL) == -1) 
errExit ("msgctl"); 


int 
main(int argc, char *argv[]) 


struct requestMsg req; 
struct responseMsg resp; 
int serverId, numMsgs; 
ssize_t msgLen, totBytes; 


if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s pathname\n", argv[0]); 


if (strlen(argv[1]) > sizeof(req.pathname) - 1) 
cmdLineErr("pathname too long (max: %ld bytes)\n", 
(long) sizeof(req.pathname) - 1); 


/* Get server's queue identifier; create queue for response */ 


serverld = msgget(SERVER_KEY, S_IWUSR); 
if (serverId == -1) 
errExit("msgget - server message queue"); 


clientId = msgget(IPC_PRIVATE, S_IRUSR | S_IWUSR | S_IWGRP); 
if (clientId == -1) 
errExit("msgget - client message queue"); 


if (atexit(removeQueue) != 0) 
errExit("atexit"); 


/* Send message asking for file named in argv[1] */ 


req.mtype = 1; /* Any type will do */ 
req.clientId = clientId; 
strncpy(req.pathname, argv[1], sizeof(req.pathname) - 1); 
req.pathname[sizeof(req.pathname) - 1] = '\0'; 

/* Ensure string is terminated */ 


if (msgsnd(serverId, &req, REQ MSG SIZE, 0) == -1) 
errExit("msgsnd"); 


/* Get first response, which may be failure notification */ 


msgLen = msgrcv(clientId, &resp, RESP_MSG SIZE, 0, 0); 


if (msgLen == -1) 
errExit("msgrcev"); 


printf("%s\n", resp.data) ; 


if (resp.mtype == RESP_MT FAILURE) { 


/* Display msg from server */ 


if (msgctl(clientId, IPC RMID, NULL) == -1) 


errExit ("msgctl"); 
exit (EXIT_FAILURE); 


} 


/* File was opened successfully by server; process messages 
(including the one already received) containing file data */ 


totBytes = msgLen; 


/* Count first message */ 


© for (numMsgs = 1; resp.mtype == RESP_MT_DATA; numMsgs++) { 
msgLen = msgrcv(clientId, &resp, RESP MSG SIZE, 0, 0); 


if (msgLen == -1) 
errExit ("nsgrcv"); 


totBytes += msgLen; 
} 


printf("Received %ld bytes (%d messages)\n", (long) totBytes, numMsgs); 


exit (EXIT_SUCCESS) ; 





svmsg/svmsg_file_client.c 


下 面 的 shel 会 话 演示 了 程序 清单 46-8 和 程序 清单 46-9 中 的 程序 的 使 


用 。 


$ ./svmsg file server & 

[1] 9149 

$ wc -c /etc/services 

764360 /etc/services 

$ ./svmsg file client /etc/services 
Received 764360 bytes (95 messages) 
$ kill %1 


Run server in background 


Show size of file that client will request 


Bytes received matches size above 
Terminate server 


[1]+ Terminated ./svmsg file server 


46.9 System VIB MSI Nd 


制 |， 





UNIX 系 统 为 同一 系统 上 不 同 进程 之 间 的 数据 传输 提供 了 多 种 机 


既 包 括 无 分 隔 符 的 字 节 流 形式 〈 管 道 、FIFO 以 及 UNIX domain 流 





socket) ， 也 包括 有 分 隔 符 的 消息 形式 〈System V 消 息 队 列 、POSIX 消 
息 队 列 以 及 UNIX domain 数 据 报 socket) 。 


System V 消 息 队 列 的 一 个 与 众 不 同 的 特性 是 它 能 够 为 每 个 消息 加 上 


一 个 数字 类 型 。 应 用 程序 可 以 使 用 这 个 完成 两 件 事情 : 读 取 进程 可 以 根 
据 类 型 来 选择 消 姑 或 者 它们 可 以 采用 一 种 优先 队列 集 略 以 便 优先 读 取 高 
优先 级 的 消 恕 即 那 些 消息 类 型 值 更 低 的 消息 〉。 





但 System V 消 息 队 列 也 存在 几 个 缺点 。 


消息 队列 是 通过 标识 符 引 用 的 ， 而 不 是 像 大 多 数 其 他 UNIX LO 机 制 
那样 使 用 文件 描述 符 。 这 意味 着 在 第 63 章 介绍 的 各 种 基于 文件 描述 
符 的 IO 技术 〈 如 select0)、poll0 以 及 epoll) 将 无 法 应 用 于 消息 队列 
上 。 此 外 ， 在 程序 中 编写 同时 处 理 消 息 队 列 的 输入 和 基于 文件 描述 
符 的 VO 机 制 的 代码 要 比 编写 只 处 理 文件 描述 符 的 代码 更 加 复杂 。 

(在 练习 63-3 中 将 考虑 一 种 组 合 两 种 IO 模型 的 方法 。) 

使 用 键 而 不 是 文件 名 来 标识 消息 队列 会 增加 额外 的 程序 设计 复杂 

性 ， 同 时 还 需要 使 用 ipcs 和 记 crm 来 蔡 换 ls 和 rm。ftokO 函 数 通 常 能 产 
生 一 个 唯一 的 键 ， 但 却 无 法 保证 。 使 用 IPC_PRIVATE 键 能 确保 产 

和 
TAJ ILe 

消息 队列 是 无 连接 的 ， 内 核 不 会 像 对 待 管道 、FIFO 以 及 socket 那 样 
维护 引用 队列 的 进程 数 。 因 此 就 难以 回答 下 列 问题 。 

o 一 个 应 用 程序 何 时 能 够 安全 地 删除 一 个 消息 队列 ? (不 管 是 否 
有 进程 在 后 面 某 个 时 刻 需 要 从 队列 中 读 取 数据 而 过 早 地 删除 队 
列 会 导致 数据 丢失 。) 

o 应 用 程序 如 何 确保 不 再 使 用 的 队列 会 被 删除 呢 ? 

消息 队列 的 总 数 、 消 息 的 大 小 以 及 单个 队列 的 容量 都 是 有 限制 的 。 
这 些 限 制 都 是 可 配置 的 ， 但 如 果 一 个 应 用 程序 超出 了 这 些 默认 限制 
0 




















总 体 上 来 讲 ， 最 好 避免 使 用 System V 消 息 队 列 。 当 碰 到 需要 使 用 根 
据 类 型 选择 消息 的 工具 的 情况 时 应 该 考虑 使 用 其 他 蔡 代 方案 。POSIX 消 
恩 队 列 ( 第 52 章 ) WEEE PTT R. BRIER RIN BT RE 
使 用 基于 多 文件 摘 述 符 的 通信 通道 ， 它 们 在 提供 与 根据 类 型 选择 消息 类 
似 的 功能 的 同时 还 允许 使 用 在 63 草 介绍 的 另 一 种 MO 模型 。 例 如 ， 如 采 
需要 传输 “普通 ”和 ?优先 ?消息 ， 那 么 可 以 为 两 种 消息 类 型 使 用 一 组 FIFO 
或 UNIX domain socket， 然 后 使 用 select() 或 poll0 监 控 两 个 通道 上 的 文件 
描述 符 。 





46.10 “总结 


System V 消 妃 队 列 多 许 进 程 通过 交换 由 一 个 数字 类 型 和 一 个 包含 任 
意 数 据 的 消 轧 体 构 成 的 消息 的 形式 来 进行 通信 。 消 息 队 列 的 区 列 于 其 他 
机 制 的 特性 是 消息 是 有 边界 的 ， 并 且 接 收 者 能 够 根据 类 型 来 选择 消息 ， 
而 无 需 按照 先入 先 出 的 顺序 来 读 取消 息 。 


之 所 以 得 出 其 他 IPC 机 制 通常 要 优 于 System V 消 息 队 列 的 结论 是 因 
为 儿 个 因素 ， 其 中 最 主要 的 一 个 是 引用 消息 队列 不 会 用 到 文件 描述 符 。 
这 意味 着 在 消 恕 队列 上 无 法 使 用 男 一 种 WO 模型 ， 特 别 是 同时 监控 消 筷 
队列 和 文件 描述 符 以 得 看 是 人 否 可 进行 JO 将 变 得 复杂 。 此 外 ， 消 息 队 列 
无 连接 《〈 即 不 进行 引用 计数 ) 这 个 事实 使 得 应 用 程序 难以 知道 何 时 能 够 
安全 地 删除 一 个 队列 。 





46.11 习题 


46-1. 试验 程序 清单 46-1 (svmsg_create.c) 、 程 序 清 单 46- 
2 (svmsg_send.c) 以 及 程序 清单 46-3 (svmsg_receive.c) 中 的 程序 以 验 
证 对 msggetO0、msgsnd0 以 及 msgrcv0O 系 统 调用 的 理解 。 


46-2. 改造 44.8 节 中 的 序号 客户 端 -服务 器 应 用 程序 使 之 使 用 System 
V 消 息 队 列 。 使 用 单个 消息 队列 来 传输 客户 端 到 服务 器 以 及 服务 器 到 客 
户 端 之 间 的 消息 。 使 用 46.8 节 中 介绍 的 消息 类 型 规范 。 


46-3. 在 46.8 节 中 的 客户 端 -服务 器 应 用 程序 中 ， 客 户 端 为 何在 消息 
体 〈 在 clientId 字 段 中 ) 中 传递 其 消 奶 队列 的 标识 人 符 ， 而 不 是 在 消 轧 类 型 
(mtype〉 中 传递? 


46-4. 对 46.8 节 中 的 客户 器 -服务 顺应 用 程序 做 出 下 列 变 更 。 


Ca) 蔡 换 服务 器 中 硬 编码 的 消息 队列 键 使 之 使 用 IPC_PRIVATE 和 后 
成 一 个 唯一 的 标识 符 ， 然 后 将 这 个 标识 符 写 入 一 个 众所周知 的 文件 中 。 
端 必须 要 从 这 个 文件 中 读 取 标识 符 。 服 务 喜 在 终止 时 需要 删除 这 个 
文件 。 


(b) 在 服务 器 程序 的 serveRequest() 函 数 中 并 没有 对 系统 调用 错误 
进行 诊断 。 添 加 使 用 syslog()( 参 见 37.5 节 ) 记录 错误 的 代码 。 


Cc) 在 服务 器 中 添加 代码 使 之 在 启动 时 成 为 一 个 daemon (参见 
B72 8 


(d) 在 服务 器 中 为 SIGTERM 和 SIGINT 添 加 一 个 处 理 器 来 执行 一 个 
干净 的 退出 。 处 理 器 需要 删除 消息 队列 以 及 〔 如 果 这 个 练习 的 前 面 一 部 
分 已 经 实现 的 话 ) 用 来 存放 服务 器 的 消息 队列 标识 符 的 文件 。 在 处 理 器 
中 加 入 分 离 处 理 器 ， 然 后 再 次 触发 同样 一 个 调用 该 处 理 器 的 信号 的 代码 
(26.1.4 节 介绍 了 其 中 的 原理 以 及 完成 这 个 任务 的 步 又) 。 


Ce) 服务 器 子 进程 并 没有 对 客户 端 可 能 过 早 终 止 的 情况 进行 处 
理 ， 这 样 服务 器 子 进 程 就 会 填充 客户 端的 消息 队列 ， 然 后 无 限 阻塞 下 
去 。 修 改 服务 器 使 之 处 理 这 种 情况 ， 即 像 23.3 节 中 描述 的 那样 在 调用 
msgsnd() 时 设置 一 个 超时 。 如 果 服 务 器 子 进程 确信 客户 端 已 经 消失 了 ， 


那么 它 就 应 该 删除 客户 端的 消息 队列 ， 然 后 退出 〈 可 能 要 在 使 用 
syslog0 记 录 一 条 消息 之 后 ) 。 


46-5. 程序 清单 46-9 中 给 出 的 客户 端 Csvmsg_file_client.c) 没有 对 
服务 堪 发 生 故 障 的 各 种 情况 进行 处 理 。 特 别 是 如 果 服 务 器 消息 队列 被 填 
满 了 《可 能 由 于 服务 器 终止 而 队列 被 其 他 客户 端 填 满 了 ) ， 那 么 
msgsnd() 调 用 会 无 限 阻塞 下 去 。 类 似 地 ， 如 果 服 务 器 没有 成 功 地 将 响应 
发 送 给 客户 问 ， 那 么 msgrcv0O 调 用 会 无 限 阻 塞 下 去 。 在 客户 端 中 添加 代 
码 使 之 在 这 些 调用 上 设置 超时 《参见 23.3 节 ) 。 只 要 其 中 一 个 调用 超时 
了 了， 那么 程序 就 需要 将 错误 报告 给 用 户 并 终止 。 


46-6. 使 用 System V 消 轧 队 列 编写 一 个 简单 的 聊天 应 用 程序 “与 
talk(1) 类 似 ， 但 没有 curses 界 面 )。 为 每 个 客户 端 使 用 一 个 消息 队列 。 








第 47 章 ”System Via 5 = 


本 章 将 介绍 System V 信 号 量 。 与 上 一 章 中 介绍 的 IPC 机 制 不 同 ， 
System V 信 号 量 不 是 用 来 在 进程 间 传 输 数据 的 。 相 反 ， 它 们 用 来 同步 进 
程 的 动作 。 信 号 量 的 一 个 常见 用 途 是 同步 对 一 块 共享 内 存 的 访问 以 防止 
出 现 一 个 进程 在 访问 共享 内 存 的 同时 另 一 个 进程 更 新 这 块 内 存 的 情况 。 


一 个 信号 量 是 一 个 由 内 核 维 护 的 整数 ， 其 值 被 限制 为 大 于 或 等 于 
0。 在 一 个 信号 量 上 可 以 执行 各 种 操作 《“ 即 系统 调用 ) ， 包 括 : 


。 将 信号 量 设 置 成 一 个 绝对 值 ; 
。 在 信号 量 当前 值 的 基础 上 加 上 一 个 数量 ; 
。 在 信号 量 当前 值 的 基础 上 减 去 一 个 数量 ; 


。 等 待 信号 量 的 值 等 于 0。 


上 面 操作 中 的 后 两 个 可 能 会 导致 调用 进程 阻塞 。 当 减 小 一 个 信号 量 
的 值 时 ， 内 核 会 将 所 有 试图 将 信号 量 值 降低 到 0 之 下 的 操作 阻 蛙 。 类 似 
的 ， 如 采信 号 量 的 当前 值 不 为 0， 那 么 等 待 信号 量 的 值 等 于 0 的 调用 进程 
将 会 及 生 阻 瞪 。 不 管 是 何 种 情况 ， 调 用 进程 会 一 直 保 持 阻 窗 直 到 其 他 一 
些 进 程 将 信号 量 的 值 修 改 为 一 个 允许 这 些 操作 继续 向 前 的 值 ， 在 那个 时 
刻 内 核 会 唤醒 被 阻塞 的 进程 。 图 47-1 显 示 了 使 用 一 个 信号 量 来 同步 两 个 
交 将 将 信号 量 的 值 在 0 和 1 之 间 切 换 的 进程 的 动作 。 
































进程 A 进程 也 


创建 信号 量 
将 信号 量 初始 化 为 0 | 
信号 量 减 1 
上 阻塞 
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图 47-1 ”使 用 信号 量 同 步 两 个 进程 


在 控制 进程 的 动作 方面 ， 信 和 写 量 本 里 并 没有 任何 意义 ， 它 的 意义 仅 
由 使 用 信号 量 的 进程 赋予 其 的 关联 关系 来 确定 。 一 般 来 讲 ， 进 程 之 间 会 
达成 协议 将 一 个 信号 量 与 一 种 共享 资源 关联 起 来 ， 如 一 块 共享 内 存 区 
域 。 信 号 量 还 有 其 他 用 途 ， 如 在 fork0 之 后 同步 父 进程 和 子 进程 。 (在 
24.5 节 中 介绍 了 如 何 使 用 信号 量 来 完成 同样 的 任务 。 ) 








47.1 概述 
使 用 System V 信 号 量 的 常规 步骤 如 下 。 


。 使 用 semgetO 创 建 或 打开 一 个 信号 量 集 。 

。 使 用 semctl() SETVAL 或 SETALL 操 作 初 始 化 集合 中 的 信号 量 。 (只 
有 一 个 进程 需要 完成 这 个 任务 。) 

。 使 用 semop0O 操 作 信和 号 量 值 。 使 用 信和 号 量 的 进程 通常 会 使 用 这 些 操 
作 来 表示 一 种 共享 资源 的 获取 和 释放 。 

。 当 所 有 进程 都 不 再 需要 使 用 信号 量 集 之 后 使 用 semctl(0 IPC_RMID 操 
作 删 除 这 个 集合 。 (只 有 一 个 进程 需要 完成 这 个 任务 。) 


大 多 数 操作 系统 都 为 应 用 程序 提供 了 一 些 信 号 量 原 语 。 但 System V 
信号 量 表现 出 了 不 同 寻常 的 复杂 性 ， 因 为 它们 的 分 配 是 以 备 称 为 信号 量 
集 的 组 为 单位 进行 的 。 在 使 用 semgetO 系 统 调 用 创建 集合 的 时 候 需要 指 
定 集合 中 的 信和 号 量 数量 。 虽 然 在 同一 时 刻 通 利 只 操作 一 个 信号 量 ， 但 通 
me mae ere pte Weer eee 
一 组 操作 。 


由 于 System V 信 号 量 的 创建 和 初始 化 是 在 不 同 的 步骤 之 后 完成 的 ， 
因此 当 两 个 进程 同时 都 试图 执行 这 两 个 步骤 时 就 会 出 现 竞 争 条 件 。 要 描 
述 清楚 这 种 竞争 条 件 以 及 如 何 避 免 出 现 这 种 情况 需要 先 对 semctl0 进 行 
介绍 ， 然 后 再 对 semop() 进 行 介 绍 ， 这 意味 着 在 掌握 完全 理解 信号 量 所 
需 的 所 有 细节 信息 之 前 还 需要 对 很 多 材料 进行 学 习 。 


与 此 同时 ， 程 序 清单 47-1 给 出 了 一 个 简单 的 例子 ， 它 演示 了 各 种 信 
号 量 系统 调用 的 用 法 。 这 个 程序 可 以 在 两 种 模式 下 运行 。 


。 当 在 命令 行 参数 中 传 入 一 个 整数 时 程序 会 创建 一 个 只 包含 一 个 信号 
量 的 新 信号 量 集 并 将 信号 量 值 初始 化 为 通过 命令 行 参数 传 入 的 值 。 
程序 会 打印 出 这 个 新 信号 量 集 的 标识 符 。 

当 在 命令 行 参 数 中 传 入 两 个 整数 时 程序 会 将 它们 看 成 是 《按照 顺 
FR) 一 个 既 有 信号 量 集 的 标识 符 和 一 个 将 被 加 到 集合 中 第 一 个 信和 号 
量 〈 序 号 为 0) 上 的 值 。 程 序 会 在 该 信号 量 上 执行 指定 的 操作 。 为 
了 能够 监控 信和 与 量 操 作 ， 程 序 在 操作 之 前 和 之 后 都 会 打印 出 消 恩 。 
每 条 消 轧 都 以 进程 ID 打头 ， 这 样 就 可 以 对 这 个 程序 的 多 个 实例 所 产 















































生 的 输出 进行 区 分 了 。 


下 面 的 shell 会 话 日 志 演 示 了 程序 清单 47-1 中 的 程序 的 用 法 。 下 面 首 
先 创建 一 个 信号 量 并 将 其 初始 化 为 0。 


$ ./svsem_demo 0 
Semaphore ID = 98307 LD of new semaphore set 


然后 执行 一 个 后 台 命 令 将 信号 量 值 减 去 2。 


$ ./svsem_demo 98307 -2 & 
23338: about to semop at 10:19:42 
[1] 23338 


这 个 命令 会 阻 时， 因为 无 法 将 信号 量 的 值 减 到 小 于 0。 现 在 执行 一 
个 命令 将 信号 量 值 加 上 3。 


$ ./svsem_demo 98307 +3 

23339: about to semop at 10:19:55 

23339: semop completed at 10:19:55 

23338: semop completed at 10:19:55 

[1]+ Done ./svsem demo 98307 -2 


这 个 信号 量 增加 操作 会 立即 成 功 ， 并 且 会 导致 后 台 命 令 中 的 信和 号 量 
绾 减 操 作 能 够 癌 前 执行 ， 因 为 在 执行 该 操作 之 后 不 会 导致 信号 量 值 小 于 
0。 





























程序 清单 47-1: 创建 和 操作 System V 信 和 号 量 





svsem/svsem_demo.c 
#include <sys/types.h> 
#include <sys/sem.h> 
#include <sys/stat.h> 
#include "curr_time.h" /* Declaration of currTime() */ 
#include "semun.h" /* Definition of semun union */ 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
int semid; 
if (argc < 2 || argc > 3 || strcmp(argv[1], "--help") == 0) 
usageErr("%s init-value\n" 


" or: %s semid operation\n", argv[0], argv[0]); 


if (argc == 2) { /* Create and initialize semaphore */ 
union semun arg; 


semid = semget(IPC PRIVATE, 1, S IRUSR | S IWUSR); 

if (semid == -1) 
errExit("semid"); 

arg.val = getInt(argv[1], 0, “init-value"); 

if (semctl(semid, /* semnum= */ 0, SETVAL, arg) == -1) 
errExit("semctl"); 

printf("Semaphore ID = %d\n", semid); 

} else { /* Perform an operation on first semaphore */ 
struct sembuf sop; /* Structure defining operation */ 
semid = getInt(argv[1], 0, "semid"); 
sop.sem_num = 0; /* Specifies first semaphore in set */ 
sop.sem_op = getInt(argv[2], 0, "“operation"); 

/* Add, subtract, or wait for 0 */ 
sop.sem_flg = 0; /* No special options for operation */ 
printf("%ld: about to semop at %s\n", (long) getpid(), currTime("%T")); 
if (semop(semid, &sop, 1) == -1) 


errExit("semop"); 


printf("%ld: semop completed at %s\n", (long) getpid(), currTime("%T")); 
} 


exit(EXIT_SUCCESS) ; 


svsem/svsem_demo.c 





47.2 ”创建 或 打开 一 个 信号 量 集 


semgetO 系 统 调 用 创建 一 个 新 信号 量 集 或 获取 一 个 既 有 集合 的 标识 
人 








#include <sys/types.h> /* For portability */ 
#include <sys/sem.h> 


int semget(key t key, int nsems, int semflg); 





Returns semaphore set identifier on success, or -1 on error 








key 参 数 是 使 用 45.2 节 中 描述 的 其 中 一 种 方法 生成 的 键 ( 通 常 使 用 值 
IPC_PRIVATE 或 由 ftokO 返 回 的 键 ) 。 


如 果 使 用 semgetO 创 建 一 个 新 信号 量 集 ， 那 么 nsems 会 指定 集合 中 信 
号 量 的 数量 ， 并 且 其 值 必须 大 于 0。 如 果 使 用 semget0 来 获取 一 个 既 有 集 
的 标识 符 ， 那 么 nsems 必 须要 小 于 或 等 于 集合 的 大 小 《否则 会 发 生 
EINVAL 错 误 ) 。 无 法 修改 一 个 既 有 集中 的 信号 量 数量 。 


semflg 参 数 是 一 个 位 掩 码 ， 它 指定 了 施加 于 新 信号 量 集 之 上 的 权限 
或 需 检查 的 一 个 既 有 集合 的 权限 。 指 定 权 限 的 方式 与 为 文件 指定 权限 的 
方式 是 一 样 的 〈 表 15-4) 。 此 外 ， 在 semflg 中 可 以 通过 对 下 列 标 记 中 的 
零 个 或 多 个 取 OR 来 控制 samgetO 的 操作 。 


IPC_CREAT 


r 如 果 不 存在 与 指定 的 key 相 关联 的 信号 量 集 ， 那 么 束 创 建 一 个 新 集 


= 











IPC_EXCL 


如 果 同 时 指定 了 IPC_CREAT 并 且 与 指定 的 key 关 联 的 信号 量 集 已 经 
存在 ， 那 么 返回 EEXIST 错 误 。 


45.1 节 对 这 些 标记 进行 了 更 加 深入 的 介绍 。 
semget() 在 成 功 时 会 返回 新 信号 量 集 或 赋 有 信号 量 集 的 标识 符 。 后 














言 号 量 的 系统 调用 必须 要 同时 指定 信号 量 集 标 识 符 和 信和 号 量 


续 引 用 单个 信 
在 集合 中 的 序号 。 一 个 集合 中 的 信和 号 量 从 0 开始 计数 。 


47.3 ”信号 量 控制 操作 


semctl() 系 统 调 用 在 一 个 信号 量 集 或 集合 中 的 单个 信号 量 上 执行 各 
种 控制 操作 。 





#include <sys/types.h> /* For portability */ 
#include <sys/sem,h> 


int semctl(int semid, int semnum, int cmd, ... /* union semun arg */); 








Returns nonnegative integer on success (see text); returns -1 on error 





semid 参 数 是 操作 所 施加 的 信号 量 集 的 标识 符 。 对 于 那些 在 单个 信 
号 量 上 执行 的 操作 ，semnum 参 数 标识 出 了 集合 中 的 具体 信号 量 。 对 于 
其 他 操作 则 会 忽略 这 个 参数 ， 并 且 可 以 将 其 设置 为 0。cmd 参 数 指定 了 
需 执 行 的 操作 。 


一 些 特 定 的 操作 需要 向 semct0 传 入 第 四 个 参数 ， 在 本 节余 下 的 部 
分 中 将 这 个 参数 命名 为 arg。 这 个 参数 是 一 个 union， 程 序 清单 47-2 给 出 
了 其 定义 。 在 程序 中 必须 要 显 式 地 定义 这 个 union。 程 序 清单 47-2 中 的 示 
例 程序 通过 包含 这 个 头 文件 来 完成 这 个 任务 。 




















虽然 将 semun union 的 定义 放 在 标准 头 文件 中 是 比较 明 
智 的 做 法 ， 但 SUSv3 要 求 程 序 员 显 式 地 定义 这 个 union。 然 
而 ， 一 些 UNIX 实 现在 <sys/sem.h> 中 提供 了 这 个 定义 。glibc 
较 早 以 前 的 版 本 〈2.0 以 下 ， 包 括 2.0) 也 提供 了 这 个 定义 。 
为 了 与 SUSv3 保 持 一 致 ，glibc 最 近 的 版 本 并 没有 提供 这 个 
定义 ， 并 且 通 过 将 <sys/sem.h> 中 的 
_SEM_SEMUN_UNDEFINED 宏 的 值 定 义 为 1 来 表明 这 个 事 
实 ( 即 使 用 glibc 编 译 的 应 用 程序 可 以 通过 测试 这 个 宏 来 确 
定 程 序 自己 是 否 需 要 定义 semun union) 。 














程序 清单 47-2: semun union 的 定义 








svsem/semun.h 


#ifndef SEMUN H 
#define SEMUN H /* Prevent accidental double inclusion */ 


#include <sys/types.h> /* For portability */ 
#include <sys/sem.h> 


union semun { /* Used in calls to semctl() */ 
int val; 
struct semid ds * buf; 
unsigned short * array; 
#if defined( linux_) 
struct seminfo * __ buf; 
#endif 
}; 
#endif 
svsem/semun.h 


SUSv2 和 SUSv3 规 定 semctl0 的 最 后 一 个 参数 是 可 选 的 。 但 一 些 〈 主 
要 是 较 早 之 前 的 ) UNIX 实 现 《以 及 glibc 的 早期 版 本 ) 将 semct10 的 原型 
定义 如 下 。 
int semctl(int semid, int semnum, int cmd, union semun arg); 


这 意味 着 第 四 个 参数 是 必需 的 ， 即 使 在 那些 不 需要 用 到 这 个 参数 的 
情况 下 也 是 如 此 【如 下 面 描述 的 IPC_RMID 和 GETVAL 操 作 ) 。 为 使 程 
序 能 够 完全 可 移植 ， 在 那些 无 需 最 后 一 个 参数 的 semctlO 调 用 中 需要 传 
入 一 个 哑 参 数 。 


在 本 节余 下 的 部 分 中 将 介绍 通过 cmd 参 数 可 指定 的 各 种 控制 操作 。 
常规 控制 操作 
下 面 的 操作 与 可 应 用 于 其 他 类 型 的 System V IPC 对 象 上 的 操作 是 一 


样 的 。 所 有 这 些 操 作 都 会 忽略 semnum 参 数 。45.3 节 提供 了 有 关 这 些 操作 
的 更 多 细 市 ， 包 括 调用 进程 所 需 的 特权 和 权限 。 


IPC_RMID 











立即 删除 信号 量 集 及 其 关联 的 semid_ds 数 据 结构 。 所 有 因 在 semop0) 
调用 中 等 待 这 个 集合 中 的 信号 量 而 阻塞 的 进程 都 会 立即 被 唤醒 ， 
semop0 会 报告 错误 EIDRM。 这 个 操作 无 需 arg 参 数 。 





IPC_STAT 


在 arg.buf 指 向 的 缓冲 器 中 放置 一 份 与 这 个 信号 量 集 相关 联 的 
semid_ds 数 据 结 构 的 副本 。47.4 节 将 对 semid_ds 结 构 进 行 介绍 。 


IPC_SET 


使 用 arg.buf 指 癌 的 缓冲 器 中 的 值 来 更 新 与 这 个 信号 量 集 相关 联 的 
semid_ds 数 据 结 构 中 选中 的 字段 。 


获取 和 初始 化 信号 量 值 

下 面 的 操作 可 以 获取 或 初始 化 一 个 集合 中 的 单个 或 所 有 信号 量 的 
值 。 获 取 一 个 信号 量 的 值 需 共 备 在 信号 量 上 的 读 权 限 ， 而 初始 化 该 值 则 
需要 修改 〈 写 ) 权限 。 


GETVAL 


























semctl0 返 回 由 semid 指 定 的 信号 量 集中 第 semnum 个 信号 量 的 值 。 这 
个 操作 无 需 arg 参 数 。 


SETVAL 


将 由 semid 指 定 的 信号 量 集 中 第 semnum 个 信号 量 的 值 初始 化 为 
arg.val. 





GETALL 


获取 由 semid 指 向 的 信号 量 集 中 所 有 信号 量 的 值 并 将 它们 放 在 
arg.array 指 向 的 数组 中 。 程 序 员 必须 要 确保 该 数组 具备 足够 的 空间 。 
(通过 由 IPC_STAT 操 作 返 回 的 semid_ds 数 据 结构 中 的 sem_nsems 字 段 可 
以 获取 集合 中 的 信号 量 数 量 。) 这 个 操作 将 忽略 semnum 参 数 。 程 序 清 
单 47-3 给 出 了 一 个 使 用 GETALL 操 作 的 例子 。 


SETALL 








A 用 arg.array 指 回 的 数组 中 的 值 初 始 化 semid 指 回 的 集合 中 的 所 有 信 
忽略 semnum 参 数 。 程 序 清单 47-4 演 示 了 SETALL 操 作 
A FAY. 


如 果 存 在 一 个 进程 正在 等 待 在 由 SETVAL 或 SETALL 操 作 所 修改 的 
信号 量 上 执行 一 个 操作 并 且 对 信号 量 所 做 的 变更 将 允许 该 操作 继续 向 前 
执行 ， 那 么 内 核 就 会 唤醒 该 进程 。 


使 用 或 SETALL 修 改 一 个 信号 量 的 值 会 在 除 该 信号 量 
的 撤销 条 目 。 在 47.8 节 中 将 会 对 信号 量 撤销 条 目 予 以 介 


注意 GETVAL 和 GETALL 返 回 的 信息 在 调用 进程 使 用 它们 时 可 能 
经 过 期 了 。 上 所 有 依赖 由 这 些 操作 返回 的 信息 保持 不 变 这 个 条 件 的 程序 都 
可 能 会 过 到 检查 时 (time-of-check) 和 使 用 时 (time-of-use) 的 竞争 条 
件 (参见 38.6) 。 


获取 单个 信号 量 的 信息 


下 面 的 操作 返回 〈 通 过 函数 结果 值 ) semid 引 用 的 集合 中 第 semnum 
个 信号 量 的 信息 。 所 有 这 些 操作 都 需要 在 信号 量 集合 中 具备 读 权限 ， 并 
且 无 需 arg 参 数 。 


GETPID 


返回 上 一 个 在 该 这 个 值 被 
如 果 还 没有 进程 在 该 信号 量 上 执行 过 semop()， 那 么 就 返 

















GETNCNT 


该 信号 量 的 值 增长 的 进程 数 ， 这 个 值 被 称 为 smncnt 


GETZCNT 


ie 返回 当前 等 待 该 信号 量 的 值 变 成 0 的 进程 数 ， 这 个 值 被 称 为 semzcnt 


与 上 面 介 绍 的 GETVAL 和 GETALL 操 作 一 样 ，GETPID、GETNCNT 


站 返回 的 信息 在 调用 进程 使 用 它们 时 可 能 已 经 过 期 


程序 清单 47-3 演 示 了 这 三 个 操作 的 用 法 。 


47.4 (A TEKKA 
每 个 信号 量 集 都 有 一 个 关联 的 semid_ds 数 据 结构 ， 其 形式 如 下 。 


struct semid ds { 


struct ipc_perm sem_perm; /* Ownership and permissions */ 

time t sem otime; /* Time of last semop() */ 

time t sem ctime; /* Time of last change */ 

unsigned long sem nsems; /* Number of semaphores in set */ 
}; 


SUSv3 要 求实 现 定义 上 面 的 semid_ds 结 构 中 给 出 的 所 有 
字段 。 其 他 一 些 UNIX 实 现 包 含 了 额外 的 非 标准 字段 。 在 
Linux 2.4 以 及 之 后 的 版 本 上 ，sem_nsems 字 段 的 类 型 为 
unsigned long。SUSv3 将 这 个 字段 的 类 型 规定 为 unsigned 
short， 并 且 在 Linux 2.2 以 及 大 多 数 其 他 UNIX 实 现 上 也 是 这 
CH 


各 种 信号 量 系统 调用 会 隐 式 地 更 新 semid_ds 结 构 中 的 字段 ， 使 用 
semctl() IPC_SET 操 作 能 够 显 式 地 更 新 seam_perm 字 段 中 的 特定 子 字段 ， 
其 细节 信息 如 下 。 


sem_perm 


在 创建 信号 量 集 时 按照 45.3 中 所 描述 的 那样 初始 化 这 个 子 结构 中 的 
字段 。 通 过 IPC_SET 能 够 更 新 uid、gid 以 及 mode 子 字段 。 


sem_otime 


在 创建 信号 量 集 时 会 将 这 个 字段 设置 为 0， 然 后 在 每 次 成 功 的 
semop0) 调 用 或 当 信号 量 值 因 SEM_UNDO 操 作 而 发 生变 更 时 将 这 个 字段 
设置 为 当前 时 间 (参见 47.8 节 ) 。 这 个 字段 和 sem_ctime 的 类 型 为 





time t， 它 们 存储 目 新 纪元 到 现在 的 秒 数 。 


sem_ctime 


在 创建 信号 量 时 以 及 每 个 成 功 的 IPC_SET、SETALL 和 SETVAL 操 
作 执 行 完 毕 之 后 将 这 个 字段 设置 为 当前 时 间 。 “在 一 些 UNIX 实 现 上 ， 
SETALL 和 SETVAL 操 作 不 会 修改 seam_ctime。 ) 


在 创建 集合 时 将 这 个 字段 的 值 初始 化 为 集合 中 信和 号 量 的 数量 。 


本 节 后 面 将 介绍 两 个 使 用 semid_ds 数 据 结构 和 一 些 在 47.3 节 中 描述 
的 semctl() 操 作 的 例子 。 在 47.6 市 中 将 演示 这 两 个 程序 的 用 法 。 


监控 一 个 信号 量 集 


程序 清单 47-3 使 用 了 各 种 semctl0 操 作 来 显示 标识 符 为 命令 行 参 数值 
的 既 有 信号 量 集 的 信息 。 这 个 程序 首先 显 示 了 semid_ds 数 据 结构 中 的 时 
间 字 段 ， 然 后 显示 了 集合 中 各 个 信号 量 的 当前 值 及 其 sempid、semncnt 
和 semzcnt 值 。 












































程序 清单 47-3: 一 个 信号 量 监控 程序 




















svsem/svsem_mon.c 


#include <sys/types.h> 

#include <sys/sem.h> 

#include <time.h> 

#include "semun.h" /* Definition of semun union */ 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
struct semid ds ds; 


union semun arg, dummy; /* Fourth argument for semctl() */ 
int semid, j; 


if (argc != 2 || strcmp(argv[1]，"--help") == 0) 
usageErr("%s semid\n", argv[0]); 


semid = getInt(argv[1], 0, "semid"); 


arg.buf = &ds; 
if (semctl(semid, 0, IPC STAT, arg) == -1) 
errExit("semct1l"); 


printf("Semaphore changed: %s", ctime(&ds.sem_ctime)); 
printf("Last semop(): 4s", ctime(&ds.sem_otime)); 


/* Display per-semaphore information */ 


arg.array = calloc(ds.sem_nsems, sizeof(arg.array[0])); 
if (arg.array == NULL) 
errExit("calloc"); 
if (semctl(semid, 0, GETALL, arg) == -1) 
errExit("semct1-GETALL") ; 


printf("Sem # Value SEMPID SEMNCNT SEMZCNT\n"); 


for (j = 0; j < ds.sem_nsems; j++) 
printf("%3d %5d %5d %5d 45d\n", j, arg.array[j], 
semctl(semid, j, GETPID, dummy), 
semctl(semid, j, GETNCNT, dummy), 
semctl(semid, j, GETZCNT, dummy)); 


exit(EXIT_ SUCCESS) ; 


e..?__XuYOXvOYCYQrrrrrrrrrrrr ___... \ \__ma_— svsem/svsem_mon eC 
初始 化 一 个 集合 中 的 所 有 信号 量 


程序 清单 47-4 为 初始 化 一 个 既 有 集合 中 的 所 有 信号 量 提供 了 一 个 命 
令 行 界面 。 第 一 个 命令 行 参 数 是 竺 初始 化 的 信号 量 集 的 标识 符 。 剩 下 的 
命令 行 参数 指定 了 每 个 信号 量 所 初始 化 的 值 〈 参 数 的 数量 必须 要 与 集合 
中 信号 量 的 数量 一 致 ) 。 















































程序 清单 47-4: 使 用 SETALL 操 作 初 始 化 一 个 System V 信 和 号 量 集 








svsem/svsem_ setall.c 


#include <sys/types.h> 

#tinclude <sys/sem.h> 

#include "semun.h" /* Definition of semun union */ 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
{ 
struct semid ds ds; 
union semun arg; /* Fourth argument for semctl() */ 
int j, semid; 
if (argc < 3 || strcmp(argv[1], "--help") == 0) 
usageErr("%s semid val...\n", argv[0]); 


semid = getInt(argv[1], 0, "semid"); 
/* Obtain size of semaphore set */ 
arg.buf = &ds; 
if (semctl({semid, 0, IPC_STAT, arg) == -1) 
errExit("semctl"); 
if (ds.sem nsems != argc - 2) 
cmdLineErr("Set contains %ld semaphores, but %d values were supplied\n", 
(long) ds.sem_nsems, arge - 2); 
/* Set up array of values; perform semaphore initialization */ 
arg.array = calloc(ds.sem_nsems, sizeof(arg.array[0])); 
if (arg.array == NULL) 


errExit("calloc"); 


for (j = 2; j < argc; j++) 
arg.array[j - 2] = getInt(argv[j], 0, "val"); 


if (semctl(semid, 0, SETALL, arg) == -1) 
errExit("semctl-SETALL"); 
printf("Semaphore values changed (PID=%ld)\n", (long) getpid()); 


exit(EXIT_SUCCESS); 


svsem/svsem_setall.c 


47.5 ”信号 量 初始 化 


根据 SUSv3 的 要 求 ， 实 现 无 需 对 由 semgetO 创 建 的 集合 中 的 信号 量 
值 进行 初始 化 。 相 反 ， 程 序 员 必须 要 使 用 semctl0) 系 统 调用 显 式 地 初始 
化 信号 量 。 (在 Linux 上 ，semget0 返 回 的 信号 量 实际 上 会 被 初始 化 为 
0， 但 为 取得 移植 性 就 不 能 依赖 于 此 。) 前 面 曾经 提 及 过 ， 信 号 量 的 创 
建 和 初始 化 必须 要 通过 单独 的 系统 调用 而 不 是 单个 原子 步骤 来 完成 的 事 
实 可 能 会 导致 在 初始 化 一 个 信号 量 时 出 现 竞争 条 件 。 本 节 将 详细 介绍 竞 
和 1999] 提 出 的 思想 来 避免 出 现 这 种 情 
况 的 方法 。 


假设 一 个 应 用 程序 由 多 个 地 位 平等 的 进程 构成 ， 这 些 进程 使 用 一 个 
信号 量 来 协调 相互 之 间 的 动作 。 由 于 无 法 保证 哪个 进程 会 首先 使 用 信和 号 
E 〈 这 就 是 地 位 平等 的 含义 ) ， 因 此 每 个 进程 都 必须 要 做 好 在 信号 量 不 
存在 时 创建 和 初始 化 信号 量 的 准备 。 基 于 此 ， 可 以 考虑 使 用 程序 清单 
47-5 中 给 出 的 代码 。 























程序 清单 47-5: 错误 地 初始 化 了 一 个 System V 信 和 号 量 








-from svsem/svsem_bad_init.c 
/* Create a set containing 1 semaphore */ 


semid = semget(key, 1, IPC_CREAT | IPC_EXCL | perms); 


if (semid != -1) { /* Successfully created the semaphore */ 
union semun arg; 


/* XXXX */ 
arg.val = 0; /* Initialize semaphore */ 
if (semctl{semid, 0, SETVAL, arg) == -1) 
errExit("semct1"); 
} else { /* We didn't create the semaphore */ 
if (errno != EEXIST) { /* Unexpected error from semget() */ 


errExit("semget"); 


semid = semget(key, 1, perms); /* Retrieve ID of existing set */ 
if (semid == -1) 
errExit("semget"); 


} 

/* Now perform some operation on the semaphore */ 
sops[0].sem op = 1; /* Add 1... */ 
sops[0].sem num = 0; /* to semaphore 0 */ 
sops[0].sem_ flg = 0; 

if (semop(semid, sops, 1) == -1) 


errExit("semop"); 
-from svsem/svsem_bad_init.c 


程序 清单 47-5 中 的 代码 存在 的 问题 是 如 果 两 个 进程 同时 执行 ， 如 果 
第 一 个 进程 的 时 间 片 在 代码 中 标记 为 XXXX 处 期 满 ， 那 么 就 可 能 会 出 现 
图 47-2 中 给 出 的 顺序 。 这 个 顺序 之 所 以 存在 问题 有 两 个 原因 。 首 先 ， 进 
程 B 在 一 个 未 初始 化 的 信号 量 〈 即 其 值 是 一 个 任意 值 ) 上 执行 了 一 个 
semop()。 其 次 ， 进 程 A 中 的 semctl0 调 用 履 盖 了 进程 B 所 做 出 的 变更 。 








进程 A 进程 B 


第 一 个 semget() 成 功 


(AA SBR FE LE) 





Sh eS | | 时间 片 开始 
Se 


第 一 个 semget() 失败 (所 以 该 进 
程 知道 信号 量 集 存在 ) 


5 — 7 semget() 成 功 





执行 semop() 


1 
1 
l 
| 
l 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
| 
1 r 
1 时 间 片 开始 | | 时 间 片 结束 

1 a ees saa aaa 





4 


semctl() 初始 化 信号 量 





图 例 说 明 
在 CPU 上 执行 等 竺 CPU 
一 = > 


执行 semop() 








图 47-2: 两 个 进程 竞争 初始 化 同一 个 信和 号 量 


这 个 问题 的 解决 方案 依赖 于 一 个 现 已 成 为 标准 的 特性 ， 即 与 这 个 信 

量 集 相关 联 的 semid_ds 数 据 结构 中 的 sem_otime 字 段 的 初始 化 。 在 一 个 
as 量 集 首次 被 创建 时 ，sem_otime 字 段 会 被 初始 化 为 0， 并 且 只 有 后 续 
的 semopO 调 用 才 会 修改 这 个 字段 的 值 。 因 此 可 以 利用 这 个 特性 来 消除 
上 面 描述 的 竞争 条 件 ， 即 只 需要 揪 作 额外 的 代 代 来 强制 第 一 个 进程 CRP 
没有 创建 信号 量 的 那个 进程 ) 等 待 直到 第 一 个 进程 既 初 始 化 了 信和 号 量 又 
执行 了 一 个 更 新 sem _otime 字 段 人 得 A \ 修 改 信 号 量 的 值 的 semopO 调 用 为 
止 。 程 序 清单 47-6 给 出 了 修改 之 后 的 代码 。 





遗憾 的 是 ， 正 文中 描述 的 初始 化 问题 的 解决 方案 无 法 
在 所 有 UNIX 实 现 上 正常 工作 。 在 一 些 现代 BSD 和 衍生 版 中 ， 
semop(0) 不 会 更 新 sem_otime 字 有 段 。 


程序 清单 47-6: 初始 化 一 个 System V 信 和 号 量 








from svsem/svsem_good_init.c 
semid = semget(key, 1, IPC_CREAT | IPC_EXCL | perms); 


if (semid != -1) { /* Successfully created the semaphore */ 
union semun arg; 
struct sembuf sop; 


arg.val = 0; /* So initialize it to 0 */ 
if (semctl(semid, 0, SETVAL, arg) == -1) 
errExit("semct1"); 


/* Perform a “no-op" semaphore operation - changes sem otime 
so other processes can see we've initialized the set. */ 


sop.sem_num = 0; /* Operate on semaphore 0 */ 
sop.sem op = 0; /* Wait for value to equal 0 */ 
sop.sem_flg = 0; 

if (semop(semid, &sop, 1) == -1) 


errExit("semop"); 


} else { /* We didn't create the semaphore set */ 
const int MAX_TRIES = 10; 
int j; 
union semun arg; 
struct semid_ds ds; 


if (errno != EEXIST) { /* Unexpected error from semget() */ 
errExit("semget”"); 


semid = semget(key, 1, perms); /* Retrieve ID of existing set */ 
if (semid == -1) 
errExit("semget”); 


/* Wait until another process has called semop() */ 


arg. buf = &ds; 
for (j = 0; j < MAX_TRIES; j++) { 
if (semctl(semid, 0, IPC_STAT, arg) == -1) 
errExit("semctl"); 


if (ds.sem otime != 0) /* semop({) performed? */ 
break; /* Yes, quit loop */ 
sleep(1); /* If not, wait and retry */ 
} 
if (ds.sem otime == 0) /* Loop ran to completion! */ 


fatal("Existing semaphore not initialized"); 


} 


/* Now perform some operation on the semaphore */ 
from svsem/svsem_good_init.c 


使 用 程序 清单 47-6 中 给 出 的 技术 的 各 种 变 体 能 够 确保 一 个 集合 中 的 
多 个 信号 量 正确 地 被 初始 化 以 及 一 个 信号 量 被 初始 化 为 一 个 非 零 值 。 


并 不 是 所 有 应 用 程序 都 需要 使 用 这 个 及 其 负责 的 解决 方案 来 解决 竞 
争 问题 。 如 果 能 够 确保 一 个 进程 在 其 他 进程 使 用 信号 量 之 前 创建 和 初始 
化 信号 量 就 无 需 使 用 这 个 解决 方案 。 如 父 进 程 在 创建 与 其 共享 信号 量 的 
子 进程 之 前 先 创建 和 初始 化 信号 量 。 在 这 种 情况 中 ， 让 第 一 个 进程 在 调 
用 完 semget() 之 后 执行 一 个 semctl() SETVALSETALL 操 作 就 足够 了 。 








47.6 ”信号 量 操作 


semop() 系 统 调 用 在 semid 标 识 的 信号 量 集中 的 信号 量 上 执行 一 个 或 
多 个 操作 。 





#include <sys/types.h> /* For portability */ 
#include <sys/sem.h> 


int semop(int semid, struct sembuf *sops, unsigned int nsops); 


Returns 0 on success, or -1 on error 











sops 参 数 是 一 个 指向 数组 的 指针 ， 数 组 中 包含 了 需要 执行 的 操作 ， 
nsops 参 数 给 出 了 数组 的 大 小 〈 数 组 至 少 需 包含 一 个 元 素 ) 。 操 作 将 会 
eens 以 原子 的 方式 被 执行 。sops 数 组 中 的 元 素 是 形式 如 
下 、 ZH 4 o 


struct sembuf { 





unsigned short sem_num; /* Semaphore number */ 
short sem op; /* Operation to be performed */ 
short sem flg; /* Operation flags (IPC NOWAIT and SEM UNDO) */ 


ja 


sem_num 字 上 段 标 识 出 了 在 集合 中 的 哪个 信号 量 上 执行 操作 。sem_op 
字段 指定 了 需 执 行 的 操作 。 


e 如 果 sem_op 大 于 0， 那 么 就 将 sem_op 的 值 加 到 信号 量 值 上 ， 其 结果 
是 其 他 等 待 减 小 信号 量 值 的 进程 可 能 会 被 唤醒 并 执行 它们 的 操作 。 
调用 进程 必须 要 具备 在 信号 量 上 的 修改 〈 写 ) 权限 。 

e 如 果 sem_op 等 于 0， 那 么 束 对 信和 与 量 值 进 行 检查 以 确定 它 当 前 是 否 
等 于 0。 如 果 等 于 0， 那 么 操作 将 立即 结束 ， 否 则 semop0) 就 会 阻塞 
直到 信号 量 值 变 成 0 为 止 。 调 用 进程 必须 要 具备 在 信号 量 上 的 读 权 
限 。 

e 如果 sem_op 小 于 0， 那 么 束 将 信号 量 值 减 去 sem_op。 如 果 信 号 量 的 
当前 值 大 于 或 等 于 sem_op 的 绝对 值 ， 那 么 操作 会 立即 结束 。 人 否则 
semop0O 会 阻塞 直到 信号 量 值 增 长 到 在 执行 操作 之 后 不 会 导致 出 现 
负 值 的 情况 为 止 。 调 用 进程 必须 要 具备 在 信号 量 上 的 修改 权限 。 


从 语义 上 来 讲 ， 增 加 信号 量 值 对 应 于 使 一 种 资源 变 得 可 用 以 便 其 他 


























进程 可 以 使 用 它 ， 而 减 小 信号 量 值 则 对 应 于 预 留 〈《 互 斥 地 ) 进程 需 使 用 
的 资源 。 在 减 小 一 个 信号 量 值 时 ， 如 果 信 和 号 量 的 值 太 低 一 一 即 其 他 一 些 
进程 已 经 预 留 了 这 个 资源 一 一 那么 操作 就 会 被 阻 奢 。 


当 semopO 调 用 阻塞 时 ， 进 程 会 保持 阻 竖 直到 发 生 下 列 茶 种 情况 为 


。 男 一 个 进程 修改 了 信号 量 值 使 得 待 执 行 的 操作 能 够 继续 癌 前 。 
一 个 信号 中 断 了 semopO 调 用 。 发 生 这 种 情况 时 会 返回 EINTR 错 

误 。《“《 在 21.5 节 中 指出 过 semop0O 在 被 一 个 信号 处 理 器 中 断 之 后 是 不 
会 目 动 重启 的 。) 

另 一 个 进程 删除 了 semid 引 用 的 信号 量 。 发 生 这 种 情况 时 semop(O) 会 
返回 EIDRM 错 误 。 


在 特定 信号 量 上 执行 一 个 操作 时 可 以 通过 在 相应 的 sem_flg 字 段 中 
指定 IPC_NOWAIT 标 记 来 防止 smop0 阻 塞 。 此 时 ， 如 果 semop0O 本 来 要 
发 生 阻 塞 的 话 就 会 返回 EAGAIN 错 误 。 


尽管 通常 一 次 只 会 操作 一 个 信号 量 ， 但 也 可 以 通过 一 个 semopO 调 
用 在 一 个 集合 中 的 多 个 信号 量 上 执行 操作 。 这 里 需要 指出 的 关键 一 点 是 
这 组 操作 的 执行 是 原子 的 ， 即 semopO 要 么 立即 执行 所 有 操作 ， 要 么 就 
阻塞 直到 能 够 同时 执行 所 有 操作 。 




















尽管 作者 所 知晓 的 系统 上 的 semopO 都 按照 数组 中 顺序 
来 执行 操作 ， 但 一 些 系统 仍然 通过 文档 显 式 地 规定 了 这 种 
行为 ， 并 且 一 些 应 用 程序 也 依赖 于 这 种 行为 。SUSv4 在 文 
中 显 式 地 规定 了 这 种 行为 。 





程序 清单 47-7 演 示 了 如 何 使 用 semop0 在 一 个 集合 中 的 三 个 信号 量 上 
执行 操作 。 根 据 信号 量 的 当前 值 不 同 ， 在 信号 量 0 和 2 之 上 的 操作 可 能 无 
法 立即 往 前 执行 。 如 果 无 法 立即 执行 在 信号 量 0 上 的 操作 ， 那 么 万 有 请 
求 的 操作 都 不 会 被 执行 ，semop0 会 被 阻 窒 。 力 一 方面 ， 如 果 可 以 立即 











执行 在 信号 量 0 上 的 操作 ， 但 无 法 立即 执行 在 信号 量 2 上 的 操作 ， 那 么 
一 一 由 于 指定 了 IPC_NOWAIT 标 记 一 一 所 有 请 求 的 操作 都 不 会 被 执行 ， 
并 且 semop0 会 立即 返回 EAGAIN 错 误 。 


semtimedop() 系 统 调用 与 semop0) 执 行 的 任务 一 样 ， 但 它 多 了 一 个 
timeout 参 数 ， 通 过 这 个 参数 可 以 指定 调用 所 阻塞 的 时 间 上 限 。 








#define GNU SOURCE 
#include <sys/types.h> /* For portability */ 
#include <sys/sem.h> 


int semtimedop(int semzd, struct sembuf *sops, unsigned int nsops, 
struct timespec *{zmeoud); 


Returns 0 on success, or -1 on error 











timeout 参 数 是 一 个 指 问 timespec 结 构 ( 参 见 23.4.2 节 ) 的 指针 ， 通 过 
这 个 结构 能 够 将 一 个 时 间 间 隔 表 示 为 秒 数 和 纳 秒 数 。 如 果 在 信号 量 操作 
完成 之 前 所 等 待 的 时 间 已 经 超过 了 规定 的 时 间 间 隔 ， 那 么 semtimedop() 
会 返回 EAGAIN 错 误 。 如 果 将 timeout 指 定 为 NULL， 那 么 semtimedop() 束 
与 semop() 完 全 一 样 了 。 


与 使 用 setitimer0 和 semopO 相 比 ，semtimedopO 系 统 调用 提供 了 一 种 
更 加 高 效 的 方式 来 为 信号 量 操作 设 定 一 个 超时 时 间 。 对 于 那些 需要 经 常 
执行 此 类 操作 的 应 用 程序 (特别 是 一 些 数据 库 系 统 ) 来 讲 ， 这 种 方式 所 
带 来 的 性 能 上 的 提升 是 非常 显著 的 。 但 SUSv3 并 没有 规定 
semtimedop()， 并 且 只 有 其 他 一 些 UNIX 实 现 提供 了 这 个 水 数 。 








semtimedopO 系 统 调 用 作为 一 个 新 特性 出 现在 了 Linux 
2.6 上 ， 后 来 又 被 移 回 了 Linux 2.4， 从 内 核 2.4.22 开 始 就 存在 
这 个 函数 了 。 
























































程序 清单 47-7: 使 用 semop() 在 多 个 System V 信 号 量 上 执行 操作 





struct sembuf sops[3]; 


sops[0].sem num = 0; /* Subtract 1 from semaphore 0 */ 
sops[0].sem_op = -1; 
sops[0].sem flg = 0; 


sops[1].sem_num = 1; /* Add 2 to semaphore 1 */ 
sops[1].sem_op = 2; 
sops[1].sem flg = 0; 


sops[2].sem_num = 2; /* Wait for semaphore 2 to equal 0 */ 
sops[2].sem_op = 0; 
sops[2].sem_flg = IPC_NOWAIT; /* But don't block if operation 


can't be performed immediately */ 
if (semop(semid, sops, 3) == -1) { 





if (errno == EAGAIN) /* Semaphore 2 would have blocked */ 
printf("Operation would have blocked\n"); 
else 
errExit("semop"); /* Some other error */ 
} 
示例 程序 


程序 清单 47-8 为 smop(0 系 统 调用 提供 了 一 个 命令 行 界面 。 这 个 程序 
接收 的 第 一 个 参数 是 操作 所 施加 的 信号 量 集 的 标识 符 。 


剩余 的 命令 行 参数 指定 了 在 单个 semopO 调 用 中 需要 执行 的 一 组 信 
hat o Hi ar OAT BAP ERE ES Po FE-PE IB SUA 
下 ae 


e semnum+tvalue: 将 value 加 到 第 semnum 个 信号 量 上 。 
e semnum-value: 从 第 semnum 个 信号 量 上 减 去 value。 


e semnum=0: 测试 第 semnum 信 号 量 以 确定 它 是 否 等 于 0。 


在 每 个 操作 的 最 后 可 以 可 选 地 包含 一 个 n、 一 个 u 或 同时 包含 两 者 。 
字母 n 表 示 在 这 个 操作 的 sem_flg 值 中 包含 IPC_NOWAIT。 字 母 u 表 示 在 
sem_flg 中 包含 SEM_UNDO。 (在 47.8 节 中 将 会 对 SEM_UNDO 标 记 进 行 
介绍 。) 


下 面 的 命令 行 在 标识 符 为 0 的 信号 量 集 上 执行 了 两 个 semopO 调 用 。 


$ ./svsem_op 0 0=0 0-1,1-2n 
































第 一 个 命令 行 参 数 规定 semop0O 调 用 等 待 直到 第 一 个 信号 量 值 等 于 0 
为 止 。 第 二 个 参数 规定 semop0O 调 用 从 信号 量 0 中 减 去 1 以 及 从 信号 量 1 中 
减 去 2。 信 号 量 0 上 的 操作 的 sem_flg 为 0， 信 号 量 1 上 的 操作 的 sem_flg 是 
IPC_NOWAIT. 




















程序 清单 47-8: 使 用 semop0 执 行 System V 信 号 量 操作 





svsem/svsem_op.c 
#include <sys/types.h> 
#include <sys/sem.h> 
#include <ctype.h> 
#include “curr_time.h" /* Declaration of currTime() */ 
#include "tlpi_hdr.h" 


#define MAX SEMOPS 1000 /* Maximum operations that we permit for 
a single semop() */ 


static void 
usageError(const char *progName) 


fprintf(stderr, "Usage: %s semid op[,op...] ...\n\n", progName) ; 
fprintf(stderr, "‘op' is either: <sem#>{+|-}<value>[n][u]\n"); 


fprintf(stderr, " or: <sem#>=0[n]\n"); 
fprintf(stderr, " \"n\" means include IPC_NOWAIT in ‘op'\n"); 
fprintf(stderr, " \"u\" means include SEM UNDO in ‘op'\n\n"); 


fprintf(stderr, "The operations in each argument are 
"performed in a single semop() call\n\n"); 
fprintf(stderr, "e.g.: %s 12345 0+1,1-2un\n", progName) ; 
fprintf(stderr, " %s 12345 0=0n 1+1,2-1u 1=0\n", progName) ; 
exit(EXIT FAILURE); 
} 


/* Parse comma-delimited operations in ‘arg’, returning them in the 
array ‘sops’. Return number of operations as function result. */ 


static int 
parseOps(char *arg, struct sembuf sops[]) 


char *comma, *sign, *remaining, *flags; 
int numOps; /* Number of operations in ‘arg’ */ 


for (numOps = 0, remaining = arg; ; numOps++) { 
if (numOps >= MAX_SEMOPS) 
cmdLineErr("Too many operations (maximum=%d): \"%s\"\n", 
MAX_SEMOPS, arg); 


if (*remaining == '\0') 
fatal("Trailing comma or empty argument: \"%s\ 
if (!isdigit((unsigned char) *remaining) ) 
cmdLineErr("Expected initial digit: \"%s\"\n", arg); 


ue 


» arg); 


sops[numOps].sem_num = strtol(remaining, &sign, 10); 


if (*sign == ‘\o' || strchr("+-=", *sign) == NULL) 
cmdLineErr("Expected ‘+', '-', or ‘=' in \"%s\"\n", arg); 
if (!isdigit((unsigned char) *(sign + 1))) 


cmdLineErr( "Expected digit after '%c' in \"%s\"\n", *sign, arg); 


sops[numOps].sem_op = strtol(sign + 1, &flags, 10); 


if (*sign == '-') /* Reverse sign of operation */ 
sops[numOps].sem op = - sops[numOps].sem_ op; 
else if (*sign == '=') /* Should be '=0' */ 
if (sops[numOps].sem op != 0) 
cmdLineErr("Expected \"=0\" in \"%s\"\n", arg); 


sops[numOps].sem flg = 0; 
for (;; flags++) { 
if (*flags == 'n') 
sops[numOps].sem_flg |= IPC_NOWAIT; 
else if (*flags == 'u') 
sops[numOps].sem_flg |= SEM UNDO; 
else 
break; 


} 


if (*flags != ',' && *flags != '\o') 
cmdLineErr("Bad trailing character (%c) in \"%s\"\n", *flags, arg); 


comma = strchr(remaining, ','); 
if (comma == NULL) 


break; /* No comma --> no more ops */ 
else 
remaining = comma + 1; 
return numOps + 1; 
int 


main(int argc, char *argv[]) 


struct sembuf sops[MAX_SEMOPS ]; 
int ind, nsops; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageError(argv[0]); 


for (ind = 2; argv[ind] != NULL; ind++) { 
nsops = parseOps(argv[ind], sops); 


printf("%5ld, %s: about to semop() [%s]\n", (long) getpid(), 
currlime("%T"), argv[ind]); 


if (semop(getInt(argv[1], 0, "semid"), sops, nsops) == -1) 
errExit("semop (PID=%ld)", (long) getpid()); 


printf("%51d, %s: semop{) completed [%s]\n", (long) getpid(), 


currTime("%T"), argv[ind]); 


} 


exit(EXIT_SUCCESS) ; 


svsem/svsem_op.c 





使 用 程序 清单 47-8 中 的 程序 以 及 本 章 中 给 出 的 其 他 程序 可 以 研究 
System V 信 号 量 的 操作 ， 如 下 面 的 shell 会 话 所 示 。 下 面 首先 使 用 一 个 进 
eR 量 的 值 分 别 初 
台 化 为 1 和 0。 


$ ./svsem_create -p 2 

32769 LD of semaphore set 
$ ./swsem_setall 32769 1 0 

Semaphore values changed (PID=3658) 








本 章 并 没有 给 出 svsem/svsem_create.c 程 序 的 代码 ， 读 

者 可 以 在 本 章 随 融 的 源 代 人 码 中 找到 这 个 程序 的 代码 。 这 个 

程序 在 信号 量 上 执行 的 功能 与 程序 清单 46-1 中 的 程序 在 消 

息 队 列 上 执行 的 功能 一 样 ， 即 它 创 建 了 一 个 信和 号 量 集 。 唯 

-值得 注意 的 差别 是 svsem_create.c 额 外 接收 了 一 个 参数 ， 
该 参数 规定 了 所 创建 的 信号 量 集 的 大 小 。 





接 下 来 在 后 台 启 动 三 个 程序 清单 47-8 中 给 出 的 程序 实例 来 在 信号 量 
集 上 执行 smop0 操 作 。 程 序 会 在 执行 每 个 信号 量 操作 之 前 和 之 后 都 打 
印 出 消息 。 这 些 消息 包括 时 间 (这 样 就 能 够 看 到 每 个 操作 何 时 开始 和 何 
IAEA) 和 进程 ID (这样 就 能 够 跟 踩 程序 的 多 个 实例 的 操作 〉，。 第 一 个 
命令 要 求 将 两 个 信号 量 值 都 减 去 1。 


$ ./svsem_op 32769 0-1,1-1 & Operation 了 
3659, 16:02:05: about to semop() [0-1,1-1] 
[1] 3659 


从 上 面 的 输出 中 可 以 看 出 这 个 程序 打印 出 了 一 条 消息 ， 指 出 就 要 执 
行 smop0O 操 作 了 ， 但 并 没有 打印 出 更 多 的 消息 ， 这 是 因为 smopO 调 用 
被 阻塞 了 。 这 个 调用 之 所 以 被 阻 堵 是 因为 信号 量 1 的 值 为 0。 


接着 执 行 一 个 命令 要 求 将 信号 量 1 的 值 减 去 1。 


























$ ./svsem_op 32769 1-1 & Operation 2 
3660, 16:02:22: about to semop() [1-1] 














[2] 3660 
这 个 命令 也 会 阻塞 。 接 痢 执 行 一 个 命令 等 待 信号 量 0 的 值 等 于 0。 
$ ./svsem_op 32769 0=0 & Operation 3 
3661, 16:02:27: about to semop() [0=0] 
[3] 3661 








这 个 命令 再 次 阻塞 了 ， 这 是 因为 信号 量 0 的 值 当 前 为 1。 
现在 使 用 程序 清单 47-3 中 的 程序 来 检查 信号 量 集 。 


$ ./svsem_mon 32769 
Semaphore changed: Sun Jul 25 16:01:53 2010 

















Last semop(): Thu Jan 1 01:00:00 1970 
Sem # Value SEMPID SEMNCNT SEMZCNT 

0 1 0 ï 1 

1 0 0 2 0 


秆 一 个 信号 量 集 被 创建 之 后 ， 其 关联 semid_ds 数 据 结构 的 sem_otime 
字段 会 被 初始 化 为 0。 日 历时 间 值 0 对 应 于 新 纪元 的 起 点 (参见 10.1 
节 ) ， 并 且 ctime(O) 会 将 这 个 值 显示 为 1 AM, 1 January 1970， 这 是 因为 本 
地 时 区 为 Central Europe， 它 比 UTC 早 一 个 小 时 。 


更 仔细 地 检查 一 下 输出 可 以 及 现 信号 量 0 的 semncnt 值 为 1， 这 是 因 
为 操作 1 正在 等 待 减 小 信号 量 值 ， 而 semzcnt 值 为 1， 这 是 因为 操作 3 正在 
等 待 这 个 信号 量 的 值 等 于 0。 信 号 量 1 的 semncnt 值 为 2， 它 反映 出 了 操作 
1 和 操作 2 正在 等 于 减 小 这 个 信号 量 值 的 事实 。 


接 独 在 信号 量 集 上 洽 试 执行 一 个 非 阻塞 操作 。 这 个 操作 等 于 信号 量 
0 的 值 等 于 0。 由 于 无 法 立即 执行 这 个 操作 ， 因 此 semopO 会 返回 EAGAIN 
错误 。 
$ ./svsem_op 32769 0=0n Operation 4 


3673, 16:03:13: about to semop() [0=0n] 
ERROR [EAGAIN/EWOULDBLOCK Resource temporarily unavailable] semop (PID=3673) 


现在 向 信号 量 1 加 上 1。 这 会 导致 之 前 两 个 被 阻塞 的 操作 (1 和 3) 能 
够 继续 往 前 执行 。 




















$ ./svsem_op 32769 1+1 Operation 5 


3674, 16:03:29: about to semop() [1+1] 

3659, 16:03:29: semop{) completed [0-1,1-1] Operation 1 completes 
3661, 16:03:29: semop() completed [0=0] Operation 3 completes 
3674, 16:03:29: semop() completed [1+1] Operation 5 completes 
[1] Done ./svsem op 32769 0-1,1-1 

[3]+ Done ./svsem_op 32769 0=0 








当 使 用 监控 程序 来 观察 信号 量 集 的 状态 时 可 以 发 现 其 关联 semid_ds 
数据 结构 的 sem_otime 字 段 已 经 被 更 新 了 ， 并 且 两 个 信号 量 的 sempid 值 
也 被 更 新 了 。 上 此外， 还 可 以 看 出 信号 量 1 的 semncnt 值 为 1， 这 是 因为 操 
作 2 仍 然 被 阻塞 着 ， 它 等 符 减 小 这 个 信和 号 量 的 值 。 











$ ./svsem_mon 32769 
Semaphore changed: Sun Jul 25 16:01:53 2010 


Last semop(): Sun Jul 25 16:03:29 2010 
Sem # Value SEMPID SEMNCNT SEMZCNT 

0 0 3661 0 0 

1 0 3659 1 0 


从 上 面 的 输出 中 可 以 看 出 sem_otime 字 段 的 值 已 经 被 更 新 过 了 。 此 
外 ， 还 可 以 看 出 最 近 操 作 信 号 量 0 的 进程 的 进程 ID 为 3661 (操作 3) ， 最 
近 操 作 信 号 量 1 的 进程 的 进程 ID 为 3659 〈 操 作 1) 。 
最 后 删除 信号 量 集 。 这 将 会 导致 仍 被 阻塞 的 操作 2 返回 EIDRM 错 
误 。 


$ ./svsem_rm 32769 
ERROR [EIDRM Identifier removed] semop (PID=3660) 


本 章 并 没有 给 出 svsemy/svsem_rm.c 程 序 的 源 代 码 ， 读 者 
可 以 在 本 章 附 带 的 源 代码 中 找到 这 个 程序 的 代码 。 这 个 程 
序 删除 通过 命令 行 参数 指定 的 信和 号 量 集 。 








47.7 ”多 个 阻塞 信号 量 操作 的 处 理 


如 果 多 个 因 减 小 一 个 信号 量 值 而 发 生 阻塞 的 进程 对 该 信号 量 减 去 的 
值 是 一 样 的 ， 那 么 当 条 件 允 许 时 到 底 哪 个 进程 会 首先 被 允许 执行 操作 是 
人 
法 ) 


另 一 方面 ， 如 果 多 个 因 减 小 一 个 信号 量 值 而 发 生 阻 赛 的 进程 对 该 信 

量 减 去 的 值 十 不同 的 ， 那 么 会 按照 先 满 是 条 件 先 服务 的 顺序 来 进行 。 
假设 一 个 信号 量 的 当 值 为 0， 进 程 A 请 求 将 信号 量 值 减 去 2， 然 后 进程 B 
请 求 将 信号 量 值 减 去 1。 如 采 第 三 个 进程 将 信和 号 量 值 加 上 了 1， 那 么 进程 
B 首 先 会 被 解除 阻 寨 并 执行 它 的 操作 ， 即 使 进程 A 首 先 请 求 在 该 信号 量 
上 执行 操作 也 一 样 。 在 一 个 糟糕 的 应 用 程序 设计 中 ， 这 种 场景 可 能 会 导 
致 饿 死 情况 的 及 生 ， 即 一 个 进程 因 信 号 量 的 状态 无 法 满足 所 请 求 的 操作 
继续 往 前 执行 的 条 件 而 永远 保持 阻 旱 。 回 到 本 节 的 例子 ， 考 虑 多 个 进程 
交 丛 地 调整 信号 量 值 使 其 值 永远 不 会 出 现 大 于 1 的 情况 ， 这 就 会 导致 进 
REA AK IZ PRE BEE 


当 一 个 进程 因 试 图 在 多 个 信号 量 上 执行 操作 而 发 生 阻 塞 时 也 可 能 会 
出 现 饿 死 的 情况 。 考 虑 下 面 的 这 些 在 一 组 信号 量 上 执行 的 操作 ， 两 个 信 
号 量 的 初始 值 都 为 0。 

1. 进程 A 请 求 将 信号 量 0 和 1 的 值 减 去 1 (阻塞 ) 。 

2. 进程 B 请 求 将 信号 量 0 的 值 减 去 1 (阻塞) 。 

3. 进程 C 将 信号 量 0 的 值 加 上 1。 

此 刻 ， 进 程 B 解 除 阻 塞 并 完成 了 它 的 请 求 ， 即 使 它 发 出 请 求 的 时 间 


要 晚 于 进程 A。 同 样 ， 也 可 以 设计 出 一 个 让 进程 A 饿 死 的 同时 让 其 他 进 
程 调整 和 阻 窟 于 蛙 个 信号 量 值 的 场景 。 



































47.8 信号 量 撤销 值 


假设 一 个 进程 在 调整 完 一 个 信号 量 值 《 如 减 小 信号 量 值 使 之 等 于 
0) 之 后 终止 了 ， 不 管 是 有 意 终止 还 是 意外 终止 。 在 默认 情况 下 ， 信 号 
量 值 将 不 会 友 生 变化 。 这 样 束 可 能 会 给 其 他 使 用 这 个 信号 量 的 进程 带 来 
问题 ， 因 为 它们 可 能 因 等 待 这 个 信号 量 而 被 阻塞 痢 一 一 即 等 竺 已 经 被 终 
目的 进程 撤销 对 信和 号 量 所 做 的 变更 。 


为 避免 这 种 问题 的 发 生 ， 在 通过 semop() 修 改 一 个 信号 量 值 时 可 以 
使 用 SEM_UNDO 标 记 。 当 指定 这 个 标记 时 ， 和 内 核 会 记录 信和 号 量 操作 的 
效果 ， 然 后 在 进程 终止 时 撤销 这 个 操作 。 不 管 进程 是 正常 终止 还 是 非 正 
常 终止 ， 撤 销 操 作 都 会 发 生 。 


内 核 无 需 为 所 有 使 用 SEM_UNDO 的 操作 都 保存 一 份 记 录 。 只 需要 
记录 一 个 进程 在 一 个 信号 量 上 使 用 SEM_UNDO 操 作 所 作出 的 调整 总 和 
即 可 ， 它 是 一 个 被 称 为 semadj 〈 信 号 量 调整 ) 的 整数 。 当 进程 终止 之 
后 ， 所 有 需要 做 的 束 是 从 信号 量 的 当前 值 上 减 去 这 个 总 和 。 
































自 Linux 2.6 起 ， 当 指定 了 CLONE_SYSVSEM 标 记 之 后 
使 用 cloneO 创 建 的 进程 〈 线 程 ) 会 共享 semadj 值 。 之 所 以 这 
样 做 是 为 了 与 POSIX 线 程 的 实现 保持 一 致 。NPTL 线 程 实现 
在 pthread_create() 的 实现 中 使 用 了 CLONE_SYSVSEM.。 


当 使 用 semctl() SETVAL 或 SETALL 操 作 设置 一 个 信号 量 值 时 ， 所 有 
使 用 这 个 信和 号 量 的 进程 中 相应 的 semadj 会 被 清空 〈 即 设置 为 0) 。 这 样 
做 是 合理 的 ， 因 为 直接 设置 一 个 信号 量 的 值 会 破坏 与 smadj 中 维护 的 历 
史记 录 相 关联 的 值 。 


通过 forkO 创 建 的 子 进程 不 会 继承 其 父 进程 的 semadj 值 ， 因 为 对 于 子 
进程 来 讲 撤销 其 父 进程 的 信号 量 操作 旦 无 意义 。 另 一 方面 ，semadj 值 会 
在 exec() 中 得 到 保留 。 这 样 就 能 在 使 用 SEM_UNDO 调 整 一 个 信号 量 值 之 











后 通过 exec() 执 行 一 个 不 操作 该 信号 量 的 程序 ， 同 时 在 进程 终止 时 原子 
地 调整 该 信号 量 。《 这 项 技术 可 以 允许 另 一 个 进程 发 现 这 个 进程 何 时 终 
ae 


SEM_UNDO 的 效果 举例 


下 面 的 shell 会 话 日 志 显 示 了 在 两 个 信号 量 上 执行 操作 的 效果 : 一 个 
操作 使 用 了 SEM_UNDO 标 记 ， 为 一 个 没有 使 用 。 下 面 首 先 创建 一 个 包 
含 两 个 信号 量 的 集合 。 
$ ./svsem_create -p 2 
131073 


接着 执行 一 个 命令 在 两 个 信号 量 上 都 加 上 1， 然 后 终止 。 信 号 量 0 上 
的 操作 指定 了 SEM_UNDO 标 记 。 
$ ./svsem_op 131073 O+1u 1+1 


2248, 06:41:56: about to semop() 
2248, 06:41:56: semop() completed 


现在 使 用 程序 清单 47-3 中 的 程序 检查 信和 号 量 的 状态 。 


$ ./svsem_mon 131073 
Semaphore changed: Sun Jul 25 06:41:34 2010 








Last semop(): Sun Jul 25 06:41:56 2010 
Sem # Value SEMPID SEMNCNT SEMZCNT 

0 0 2248 0 0 

1 1 2248 0 0 








从 上 面 输出 的 最 后 两 行 中 的 信号 量 值 可 以 看 出 信号 量 0 上 的 操作 被 
撤销 了 ， 但 信号 量 1 上 的 操作 没有 被 撤销 。 


SEM_UNDO 的 限制 


最 后 需要 指出 的 是 ，SEM_UNDO 其 实 并 没有 其 一 开始 看 起 来 那样 
有 用 ， 原 因 有 两 个 。 一 个 原因 是 由 于 修改 一 个 信号 量 通 常 对 应 于 请 求 或 
释放 一 些 共 享 资 源 ， 因 此 仅仅 使 用 SEM_UNDO 可 能 不 足以 允许 一 个 多 
进程 应 用 程序 在 一 个 进程 异常 终止 时 恢复 。 除 非 进程 终止 会 原子 地 将 共 
享 资源 的 状态 返回 到 一 个 一 致 的 状态 〈 在 很 多 情况 下 是 不 可 能 的 ) ， 否 
则 撤销 一 个 信号 量 操作 可 能 不 足以 允许 应 用 程序 恢复 。 


第 二 个 影响 SEM_UNDO 的 实用 性 的 因素 是 在 一 些 情况 下 ， 当 进程 























终止 时 无 法 对 信号 量 进行 调整 。 考 虑 下 面 应 用 于 一 个 初始 值 为 0 的 信和 号 
量 上 的 操作 。 


1. 进程 A 将 信号 量 值 增 加 2， 并 为 该 操作 指定 了 SEM_UNDO 标 记 。 
2. 进程 B 将 信号 量 值 减 去 1， 因 此 信号 量 的 值 将 变 成 1。 
3. 进程 A 终 止 。 


此 时 就 无 法 完全 撤销 进程 A 在 第 一 步 中 的 操作 中 所 产生 的 效果 ， 
为 信号 量 的 值 太 小 了 。 解 决 这 个 问题 的 潜在 方法 有 三 种 。 


。 强制 进程 阻塞 直到 能 够 完成 信号 量 调整 。 
e 尽 可 能 地 减 小 信号 量 的 值 “ 即 减 到 0) 并 退出 。 
。 退出 ， 不 执行 任何 信号 量 调整 操作 。 


第 一 个 解决 方案 是 不 可 行 的 ， 因 为 它 可 能 会 导致 一 个 即将 终止 的 进 
程 永远 阻塞 。Linux 采 用 了 第 二 种 解决 方案 。 其 他 一 些 UNIX 实 现 采 纳 了 
第 三 种 解决 方案 。 SsUSv3 并 没有 规定 一 个 实现 应 该 采用 哪 种 解决 方案 。 














试图 将 一 个 信号 量 值 提 升 到 其 许可 的 最 大 值 32767 (第 
47.10 节 描述 的 SEMVMX 限 制 ) 的 撤销 操作 也 会 导致 异常 行 
为 的 发 生 。 在 这 种 情况 下 ， 内 核 总 是 会 执行 这 个 调整 ， 从 
而 《非法 地 〉 导致 信号 量 的 值 大 于 SEMVMX。 








47.9 ”实现 一 个 二 元 信号 量 协议 


System V 信 号 量 的 API 是 比较 复杂 的 ， 之 所 以 会 这 样 既 因为 对 信和 号 
量 值 的 调整 量 可 以 是 任意 的 ， 又 因为 信号 量 的 分 配 和 操作 是 以 几何 为 单 
位 的 。 但 也 正 因为 这 些 特性 ，System V 信 和 号 量 提供 的 功能 要 多 于 常规 应 
用 程序 所 需 的 功能 ， 因 此 以 System V 信 号 量 为 基础 实现 一 个 更 加 简单 的 
协议 CAPIs) 则 是 非常 有 用 的 。 


一 种 常见 的 协议 是 二 元 信号 量 。 一 个 二 元 信号 量 有 两 个 值 : 可 用 
空闲) Rma UHP) 。 二 元 信号 量 有 两 个 操作 。 


。 预 留 ， 试 图 预 留 这 个 信号 量 以 便 互 斥 地 使 用 。 如 果 信 号 量 已 经 被 另 
一 个 进程 预 留 了 ， 那 么 将 会 阻塞 直到 信号 量 被 释放 为 止 。 

。 释 放 ， 释 放 一 个 当前 被 预 留 的 信号 量 ， 这 样 另 一 个 进程 就 可 以 预 留 
这 个 信号 量 















































在 学 校 教授 的 计算 机 科学 中 ， 这 两 个 操作 通常 被 称 为 P 
和 V， 即 这 两 个 操作 在 衔 兰 语 中 的 首 字 母 。 这 种 命名 方式 
后 来 由 荷兰 计算 机 科学 家 Edsger Dijkstra 所 确定 ， 他 完成 了 
很 多 有 关 信 号 量 方面 的 早期 理论 工作 。 术 语 down RIME 
Se) 和 up“〈 增 大 信号 量 ) 也 会 被 用 到 。POSIX 将 这 两 个 
操作 称 为 wait 和 post。 














有 时 候 还 会 定义 第 三 个 操作 。 

。 有 条 件 地 预 留 ， 非 阻塞 地 尝试 预 留 这 个 信号 量 以 便 互 斥 地 使 用 。 如 
果 信 号 量 已 经 被 预 留 了 ， 那 么 立即 返回 一 个 状态 标示 出 这 个 信号 量 
不 可 用 。 


在 实现 二 元 信号 量 时 必须 要 选择 如 何 表示 可 用 和 预 留 状态 以 及 如 何 




















实现 上 面 的 操作 。 读 者 稍微 思考 一 下 就 会 及 现 表 示 这 些 状 态 的 最 佳 方式 
古 使 用 值 1 表 示 空 用 和 值 0 表 示 预 留 ， 同 时 预 留 和 释放 操作 分 别 为 将 信号 
量 的 值 减 1 和 加 1。 


程序 清单 47-9 和 程序 清单 47-10 给 出 了 使 用 System V 信 号 量 实现 二 元 
信号 量 的 一 个 实现 。 程 序 清 单 47-9 中 的 头 文件 除了 给 出 了 实现 中 的 函数 
的 原型 之 外 还 声明 了 实现 将 会 用 到 的 两 个 全 局 布尔 变量 。 
bsUseSemUndo 变 量 控制 实现 是 否 在 semop0) 调 用 中 使 用 SEM_UNDO 标 





























记 。bsRetryOnEintr 变 量 控制 实现 是 否 在 semopO 调 用 被 信号 中 断 之 后 自 
动 重启 该 调用 。 





程序 清单 47-9: binary_sems.c 的 头 文件 


svsem/binary_sems.h 


#ifndef BINARY SEMS H /* Prevent accidental double inclusion */ 
#define BINARY SEMS H 


#include "tlpi hdr.h" 

/* Variables controlling operation of functions below */ 

extern Boolean bsUseSemUndo; /* Use SEM UNDO during semop()? */ 

extern Boolean bsRetryOnEintr; /* Retry if semop() interrupted by 
signal handler? */ 

int initSemAvailable(int semId, int semNum); 

int initSemInUse(int semId, int semNum); 

int reserveSem(int semId, int semNum); 


int releaseSem(int semId, int semNum); 


#endif 
svsem/binary_sems.h 


程序 清单 47-10 给 出 了 二 元 信号 量 函 数 的 实现 。 这 些 实现 中 的 每 个 
函数 都 接收 两 个 参数 ， 和 它们 分 别 标识 出 了 信号 量 集 和 信和 号 量 在 该 集合 中 
的 序号 。《 这 些 函 数 既 没有 处 理 信 号 量 集 的 创建 和 删除 ， 也 没有 处 理 
和 
PRI BBL 











程序 清单 47-10: 使 用 System V 信 号 量 实现 二 元 信号 量 








svsem/binary _| 


#include <sys/types.h> 

#include <sys/sem.h> 

#include "semun. h” /* Definition of semun union */ 
#include "binary_sems.h" 


Boolean bsUseSemUndo = FALSE; 
Boolean bsRetryOnEintr = TRUE; 


int /* Initialize semaphore to 1 (i.e., “available") */ 
initSemAvailable(int semId, int semNum) 
{ 


union semun arg; 


arg.val = 1; 
return semctl{semId, semNum, SETVAL, arg); 
} 


int /* Initialize semaphore to 0 (i.e., “in use") */ 
initSemInUse(int semId, int semNum) 


{ 


union semun arg; 


arg.val = 0; 
return semctl(semId, semNum, SETVAL, arg); 


} 


/* Reserve semaphore (blocking), return 0 on success, or -1 with ‘errno’ 
set to EINTR if operation was interrupted by a signal handler */ 


int /* Reserve semaphore - decrement it by 1 */ 
reserveSem(int semId, int semNum) 
4 


struct sembuf sops; 


sops.sem_num = semNum; 
sops.sem op = -1; 
sops.sem_flg = bsUseSemUndo ? SEM UNDO : 0; 


while (semop(semId, &sops, 1) == -1) 
if (errno != EINTR || !bsRetryOnEintr) 
return -1; 
return 0; 


sems.C 


int /* Release semaphore - increment it by 1 */ 
releaseSem(int semId, int semNum) 


{ 
struct sembuf sops; 
sops.sem_num = semNum; 
sops.sem_op = 1; 
sops.sem flg = bsUseSemUndo ? SEM UNDO : 0; 
return semop(semId, &sops, 1); 
} 


svsem/binary_sems.c 


47.10 ”信号 量 限 制 


大 多 数 UNIX 实 现 都 对 System V 信 号 量 的 操作 进行 了 各 种 各 样 的 限 
制 。 下 面 列 出 了 Linux 上 信和 号 量 的 限制 。 括 号 中 给 出 了 当 限 制 达 到 时 会 
受 影 啊 的 系统 调用 及 其 所 返回 的 错误 。 


SEMAEM 


在 semadj 总 和 中 能 够 记录 的 最 大 值 。SEMAEM 的 值 与 
SEMVMX 〈 稍 后 介绍 ) 的 值 是 一 样 的 。 (semop(), ERANGE) 


SEMMNI 


这 是 系统 级 别 的 一 个 限制 ， 它 限制 了 所 能 创建 的 信号 量 标识 符 的 数 
量 〈( 换 句 话 说 是 信号 量 集 ) 。 (semget(), ENOSPC ) 








SEMMSL 


一 个 信号 量 集中 能 分 配 的 信号 量 的 最 大 数量 。 (semget()， 
EINVAL ) 








SEMMNS 


这 是 系统 级 别 的 一 个 限制 ， 它 限制 了 所 有 信号 量 集 中 的 信号 量 数 
量 。 系 统 上 信号 量 的 数量 还 受 SEMMNI 和 SEMMSL 的 限制 。 实 际 上 ， 
SEMMNS 的 默认 值 是 这 两 个 限制 的 默认 值 的 乘积 。 Csemget(), 
ENOSPC ) 





SEMOPM 


每 个 semopO 调 用 能 够 执行 的 操作 的 最 大 数量 。 (semop(), E2BIG ) 


SEMVMX 








一 个 信号 量 能 取 的 最 大 值 。 (semop(), ERANGE ) 


大 多 数 UNIX 实 现 都 定义 了 上 面 列 出 的 限制 。 一 些 UNIX 实 现 ( 不 包 
括 Linux)〉 在 信号 量 撤销 操作 方面 (参见 47.8 节 〉 还 定义 了 下 面 的 限制 。 


SEMMNU 


这 是 系统 级 别 的 一 个 限制 ， 它 限制 了 信号 量 撤 销 结构 的 总 数量 。 撤 
销 结构 是 分 配 用 来 存储 semadj 值 的 。 


SEMUME 
每 个 信号 量 撤销 结构 中 撤销 条 目的 最 大 数量 。 


在 系统 启动 时 ， 信 号 量 限 制 会 被 设置 成 默认 值 。 不 同 的 内 核 版 本 中 
的 默认 值 可 能 会 不 同 。 (一 些 内 核 厂 商 设置 的 默认 值 与 vanilla 内 核 设 置 
的 默认 值 可 能 会 不 同 。) 其 中 一 些 限制 可 以 通过 修改 存储 在 Linux 特 有 
的 /proc/sys/kernel/sem 文 件 中 的 值 来 改变 。 这 个 文件 包含 了 四 个 用 空格 
分 隔 的 数字 ， 它 们 按 序 定义 了 SEMMSL、SEMMNS、SEMOPM 以 及 
SEMMNI 限 制 。 (SEMVMX 和 SEMAEM 限 制 是 无 法 修改 的 ， 它 们 的 值 
都 被 定义 成 32767。) 下 面 是 x86-32 系 统 上 Linux 2.6.31 定 义 的 默认 限 
制 |。 
$ cd /proc/sys/kernel 


$ cat sem 
250 32000 32 128 























Linux/proc 文 件 系统 在 三 种 System V IPC 机 制 上 所 使 用 
的 格式 是 不 一 致 的 。 对 于 消息 队列 和 共享 内 存 ， 每 个 可 配 
置 的 额 限制 是 通过 单个 文件 来 控制 的 。 对 于 信号 量 则 是 由 
一 个 文件 来 保存 所 有 可 配置 的 限制 。 之 所 以 这 样 是 因为 在 
这 些 API 的 开发 过 程 中 发 生 了 一 个 历史 性 意外 事件 ， 并 且 由 
于 兼容 性 的 原因 ， 这 种 现状 已 经 很 难 改变 了 。 


























表 47-1 给 出 了 x86-32 架 构 上 每 个 限制 所 能 取 的 最 大 值 。 有 关 这 张 表 
格 需 要 注意 下 列 辅助 信息 。 


表 47-1: System V 信 号 量 限 种 


| 





Wy 





限 制 | 最 大 值 (x86-32) 


32768 (IPCMNI) 
65536 


2147483647 (INT_MAX) 
参见 正文 





可 以 将 SEMMSL 的 值 设 置 为 一 个 大 于 65536 的 值 ， 并 且 所 创建 的 信 
号 量 集 中 最 多 可 包含 该 数量 的 信号 量 。 但 无 法 使 用 semop0) 调 整 集 
合 中 第 65536 个 元 素 之 后 的 元 素 。 














由 于 在 当前 实现 中 存在 一 些 限制 ， 因 此 在 实践 中 建议 
将 一 个 信号 量 集 容 量 的 上 限 值 设置 为 8000 左 右 。 








SEMMNS 实 际 最 大 值 是 由 系统 上 可 用 的 RAM 来 控制 的 。 
SEMOPM 限 制 的 最 大 值 是 由 内 核 所 使 用 的 内 存 分 配 原 语 来 确定 
的 ， 建 议 的 最 大 值 是 1000。 在 实际 使 用 中 ， 在 单个 semopO 调 用 中 
执行 过 多 的 操作 没有 太 大 的 用 处 。 


Linux 特 有 的 semctl() IPC_INFO 操 作 返 回 一 个 类 型 为 sminfo 的 结 
构 ， 它 包含 了 各 种 信号 量 限制 的 值 。 


union semun arg; 
struct seminfo buf; 





arg. _buf = &buf; 
semctl(o, 0, IPC_INFO, arg); 


相关 的 Linux 特 有 的 SEM_INEFO 操 作 会 返回 包含 与 信号 量 对 象 实际 
消耗 的 资源 相关 的 信息 的 seminfo 结 构 。 本 书 随 带 的 源 代 码 中 
svsem/svsem_info.c 文 件 给 出 了 一 个 使 用 SEM_INFO 的 例子 。 


有 关 IPC_INFO、SEM_INFO 以 及 seminfo 结 构 的 细节 信息 可 以 在 
semctl(2) 手 册 中 找到 。 


47.11 System V 信 号 量 的 缺点 


System V 信 号 量 存在 的 很 多 缺点 与 消息 队列 《参见 46.9 节 ) 的 缺点 


we PPA, TELA RL Rae 


方案 











信号 量 是 通过 标识 符 而 不 是 大 多 数 UNIX VO 和 IPC 所 采用 的 文件 摘 
述 符 来 引用 的 。 这 使 得 执行 诸如 同时 等 竺 一 个 信号 量 和 文件 描述 符 
的 输入 之 类 的 操作 就 会 变 得 比较 困难 。 通过 创建 一 个 子 进程 或 线 
程 来 操作 这 个 信号 量 并 使 用 第 63 章 中 介绍 的 其 中 一 种 方法 将 消息 写 
入 一 个 被 监控 的 管道 以 及 其 他 文件 摘 述 符 就 可 以 解决 这 个 难题 。) 
使 用 键 而 不 是 文件 名 来 标识 信号 量 增加 了 额外 的 编程 复杂 度 。 
创建 和 初始 化 信号 量 需要 使 用 单独 的 系统 调用 意味 着 在 一 些 情 况 下 
a 
ARN o 
AZ ANS EP S| FA Mi EREE. EZ A E TAR 
nee 了 难度 并 且 难 以 确保 一 个 不 再 使 用 的 信号 量 集会 
被 删除 。 
System V 提 供 的 编程 接口 过 于 复杂 。 在 通常 情况 下 ， 一 个 程序 只 会 
AR 同时 操作 集合 中 多 个 信号 量 的 能 力 有 时 候 是 多 余 
言 号 量 的 操作 存在 诸多 限制 。 这 些 限 制 是 可 配置 的 ， 但 如 果 一 个 应 
用 程序 超出 了 默认 限制 的 范围 ， 那 么 在 安装 应 用 程序 时 就 需要 完成 
额外 的 工作 了 。 


不 管 怎 样 ， 与 消 轧 队列 所 面临 的 情况 不 同 ， 苦 代 System V 信 号 量 的 
不 多 ， 其 结果 是 在 很 多 情况 下 都 必须 要 用 到 它们 。 信 号 量 的 一 个 蔡 
































代 方 案 是 记录 锁 ， 在 第 55 章 中 将 会 对 此 予以 介绍 。 此 外 ， 从 内 核 2.6 以 
及 之 后 的 版 本 开始 ，Linux 文 持 使 用 POSIX 信 号 量 来 进行 进程 同步 。 第 


53 章 将 会 介绍 POSIX 信 和 号 量 。 


47.12 ”总 结 


System V 信 号 量 允 许 进程 同步 它们 的 动作 。 这 在 当 一 个 进程 必须 要 
获取 对 茶 些 共 孚 资源 〈 如 一 块 共 吾 内 存 区 域 ) 的 互 斥 性 访问 时 是 比较 有 
用 的 。 


信号 量 的 创建 和 操作 是 以 集合 为 单位 的 ， 一 个 集合 包 合 一 个 或 多 个 
信号 量 。 集 合 中 的 每 个 信和 与 量 都 是 一 个 整数 ， 其 值 永远 大 于 或 等 于 0。 
semop0 〇 系统 调用 允许 调用 者 在 一 个 信号 量 上 加 上 一 个 整数 、 从 一 个 信 
号 量 中 减 去 一 个 整数 、 或 等 待 一 个 信号 量 等 于 0。 后 两 个 操作 可 能 会 寻 
Vil AL MAZE 


证 写 量 实现 无 需 对 一 个 新 信号 量 集中 的 成 员 进 行 初 始 化 ， 因 此 应 用 
程序 就 必须 要 在 创建 完 之 后 对 它们 进行 初始 化 。 当 一 些 地 位 平等 的 进程 
中 任意 一 个 进程 试图 创建 和 初始 化 信号 量 时 就 需要 特别 小 心 以 防止 因 这 
两 个 步骤 是 通过 单独 的 系统 调用 来 完成 的 而 可 能 出 现 的 竞争 条 件 。 


如 果 多 个 进程 对 该 信号 量 减 去 的 值 是 一 样 的 ， 那 么 当 条 件 允 许 时 到 
底 哪 个 进程 会 首先 被 允许 执行 操作 十 不 确定 的 。 但 如 果 多 个 进程 对 信和 号 
量 减 去 的 值 是 不 同 的 ， 那 么 会 按照 先 满足 条 件 先 服务 的 顺序 来 进行 并 且 
需要 小 心 避免 出 现 一 个 进程 因 信 号 量 永远 无 法 达到 允许 进程 操作 继续 往 
前 执行 的 值 而 猴 死 的 情况 。 


SEM_UNDO 标 记 人 允许 一 个 进程 的 信号 量 操作 在 进程 终止 时 自动 撤 
销 。 这 对 于 防止 出 现 进程 意外 终止 而 引起 的 信号 量 处 于 一 个 会 导致 其 他 
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System V 信 号 量 的 分 配 和 操作 是 以 集合 为 单位 的 ， 并 且 对 其 增加 和 
减 小 的 数量 可 以 是 任意 的 。 它 们 提供 的 功能 要 多 于 大 多 数 应 用 程序 所 需 
的 功能 。 对 信号 量 常见 的 要 求 是 单个 二 元 信号 量 ， 它 的 取 值 只 能 是 0 和 
1。 本 章 介绍 了 如 何以 System V 信 号 量 为 基础 实现 一 个 二 元 信号 量 。 


更 多 信息 


[Bovet & Cesati, 2005] 和 [Maxwell 1999] 提 供 了 一 些 有 关 Linux 上 信 

















号 量 实现 的 背景 信息 。[Dijkstra, 1968] 是 早期 有 关 信 和 号 量 理论 的 一 片 经 
典 论文 。 


47.13 “习题 


47-1. 试验 程序 清单 47-8 中 的 程序 〈(svsem_op.O 来 确认 对 semop0) 
系统 调用 的 理解 。 


47-2. 修改 程序 清单 24-6 中 的 程序 (fork_sig_sync.c) 使 之 使 用 信 
号 量 来 将 代 信 和 号 完成 父 进程 和 子 进程 之 间 的 同步 。 


47-3. 试验 程序 清单 47-8 中 的 程序 (svsem_op.c) 和 本 章 中 提供 的 
其 他 有 关 信 号 量 的 程序 来 检查 当 一 个 既 有 进程 对 一 个 信号 量 执行 了 一 
SEM_UNDO 调 整 时 sempid 值 会 发 生 什么 情况 。 


47-4. 在 程序 清单 47-10 给 出 的 代码 (binary_sems.c〉 中 增加 一 个 
reserveSemNBO 函 数 来 使 用 IPC_NOWAIT 标 记 实 现 有 条 件 的 预 留 操作 。 


47-5. 在 VMS 操 作 系 统 上 ，Digital 提 供 了 一 种 类 似 于 三 元 信号 量 的 
同步 方法 ， 它 被 称 为 事件 标记 (event flag) 。 一 个 事件 标记 可 以 取 两 个 
值 clear 和 set， 并 且 在 其 之 上 可 以 执行 下 面 4 种 操作 : setEventFlag 来 设置 
标记 ; clearEventFlag 来 清除 标记 waitForEventFlag 阻 塞 直 到 标记 被 设 
置 ，getFlagState 获 取 标 记 的 当前 状态 。 使 用 System V 信 号 量 为 事件 标记 
设计 一 种 实现 。 这 个 实现 要 求 上 面 每 个 函数 都 接收 两 个 参数 : 一 个 是 信 
号 量 标识 符 ， 一 个 是 信号 量 序号 。【〈 在 考虑 waitForEventFlag 操 作 时 将 
会 及 现 为 dear 和 set 状 态 取 值 不 是 一 件 容易 的 事情 。) 


47-6. 使 用 命名 管道 实现 一 个 二 元 信号 量 协议 。 提 供 函 数 来 预 留 、 
释放 以 及 有 条 件 地 预 留 信号 量 。 


47-7. 编写 一 个 与 程序 清单 46-6 中 给 出 的 程序 Csvmsg_lIs.c) 类似 
的 程序 使 之 使 用 semctl() SEM_INFO 和 SEM_STAT 操 作 来 获取 和 显示 系 
统 上 所 有 信号 量 集 列 表 。 









































第 48 章 ”System V 共 至 内 存 


本 章 将 介绍 System V 共 享 内 存 。 共 享 内 存 允 许 两 个 或 多 个 进程 共享 
物理 内 存 的 同一 块 区域 (通常 被 和 尔 为 段 ，”。 由 于 一 个 共享 内 存 段 会 成 为 
一 个 进程 用 户 空间 内 存 的 一 部 分 因此 这 种 IPC 机 制 无 需 内 核 介 入 。 所 
有 需要 做 的 就 是 让 一 个 进程 将 数据 复制 进 共 LEAH, 并 且 这 部 分 数据 
会 对 其 他 所 有 共享 同一 个 段 的 进程 可 用 。 与 管道 或 消息 队列 要 求 发 送 进 
程 将 数据 从 用 户 空间 的 缓冲 区 复制 进 内 核 内 存 和 接收 进程 将 数据 从 内 核 
内 存 复 制 进 用 户 空间 的 缓冲 区 的 做 法 相 比 ， oe 

(每 个 进程 也 存在 通过 系统 调用 来 执行 复制 操作 的 开销 。 


男 一 方面 ， 共 享 内 存 这 种 IPC 机 制 不 由 内 核 控 制 意 味 着 通常 需要 通 
过 某 些 同步 方法 使 得 进程 不 会 出 现 同时 访问 共享 内 存 的 情况 〈 如 两 个 进 
程 同 时 执行 更 新 操作 或 者 一 个 进程 在 从 共享 内 存 中 获取 数据 的 同时 另 一 
个 进程 正在 更 新 这 些 数据 ) 。System V 信 号 量 天 生 就 是 用 来 完成 这 种 同 
步 的 一 种 方法 。 当 然 ， 还 可 以 使 用 其 他 方法 ， 如 POSIX 信 号 量 (第 53 
章 ) 和 文件 锁 (第 55 章 ) 。 

















在 mmap0 术 语 中 ， 一 块 内 存 区 域 会 被 映射 到 一 个 地 
址 ， 而 在 System V 术 语 中 ， 一 个 共享 内 存 段 是 被 附加 到 一 
个 地 址 上 的 。 这 些 术语 是 等 价 的 ， 它 们 在 术语 上 之 所 以 存 
在 差异 是 因为 这 两 组 API 的 起 源 不 同 。 





48.1 概述 
为 使 用 一 个 共享 内 存 段 通常 需要 执行 下 面 的 步骤 。 


。 调用 shmget() 创 建 一 个 新 共享 内 存 段 或 取得 一 个 既 有 共享 内 存 段 的 
标识 符 《〈 即 由 其 他 进程 创建 的 共享 内 存 段 ) 。 这 个 调用 将 返回 后 续 
调用 中 需要 用 到 的 共享 内 存 标识 符 。 
人 
一部分。 

此 刻 在 程序 中 可 以 像 对 竺 其 他 可 用 内 存 那样 对 符 这 个 共享 内 存 段 。 
为 引用 这 块 共享 内 存 ， 程 序 需要 使 用 由 shmat() 调 用 返回 的 addr 值 ， 
它 是 一 个 指向 进程 的 虚拟 地 址 空间 中 该 共享 内 存 段 的 起 点 的 指针 。 
调用 shmdt0 来 分 离 共享 内 存 段 。 在 这 个 调用 之 后 ， 进 程 就 无 法 再 引 
a 
DEE T 

调用 shmctl0 来 删除 共享 内 存 段 。 只 有 当当 前 所 有 附加 内 存 段 的 进 
程 都 与 之 分 离 之 后 内 存 段 才 会 被 销毁 。 只 有 一 个 进程 需要 执行 这 一 


ZV o 














48.2 ”创建 或 打开 一 个 共 圣 内 存 段 


shmgetO 系 统 调用 创建 一 个 新 共享 内 存 段 或 获取 一 个 既 有 段 的 标识 
人 符 。 新 创建 的 内 存 段 中 的 内 容 会 被 初始 化 为 0。 








#include <sys/types.h> /* For portability */ 
#include <sys/shm.h> 


int shmget(key_t key, size_t size, int shmfle); 


Returns shared memory segment identifier on success, or -1 on error 











key 参 数 是 使 用 在 45.2 节 中 介绍 的 其 中 一 种 方法 〈 即 通常 是 
IPC_PRIVATE 值 或 由 ftokO 返 回 的 键 )》 生 成 的 键 。 

当 使 用 shmgetO 创 建 一 个 新 共享 内 存 段 时 ，size 则 是 一 个 正 整 数 ， 它 
表示 需 分 配 的 段 的 字 市 数 。 内 核 是 以 系统 分 页 大 小 的 整数 倍 来 分 配 共享 
内 存 的 ， 因 此 实际 上 size 会 被 提升 到 最 近 的 系统 分 页 大 小 的 整数 倍 。 如 
果 使 用 shmget0 来 获取 一 个 既 有 段 的 标识 符 ， 那 么 size 对 段 不 会 产生 任何 
效果 ， 但 它 必 须要 小 于 或 等 于 段 的 大 小 。 


shmflg 参 数 执行 的 任务 与 其 在 其 他 IPC get 调 用 中 执行 的 任务 一 样 ， 
即 指定 施加 于 新 共享 内 存 段 上 的 权限 或 需 检查 的 既 有 内 存 段 的 权限 〈 表 
15-4) 。 此 外 ， 在 shmflg 中 还 可 以 对 下 列 标记 中 的 零 个 或 多 个 取 OR 来 控 
制 shmget() 的 操作 。 


IPC_CREAT 
如 果 不 存 在 与 指定 的 key 对 应 的 段 ， 那 么 就 创建 一 个 新 段 。 


IPC_EXCL 


如 果 同 时 指定 了 IPC_CREAT 并 且 与 指定 的 key 对 应 的 段 已 经 存在 ， 
那么 返回 EEXIST 错 误 。 


45.1 节 对 上 述 标记 进行 了 详细 的 介绍 。 此 外 ，Linux 还 允许 使 用 下 列 
非 标准 标记 。 


SHM_HUGETLB ( 自 Linux 2.6 起 ) 











特权 (CAP_IPC_LOCK) 进程 能 够 使 用 这 个 标记 创建 一 个 使 用 巨 
页 Chuge page) 的 共享 内 存 段 。 巨 页 是 很 多 现代 便 件 架构 提供 的 一 项 特 
性 用 来 管理 使 用 超大 分 页 尺寸 的 内 存 。〈 如 x86-32 人 允许 使 用 4MB 的 分 页 
大 小 来 蔡 代 4KB 的 分 页 大 小 。) 在 那些 拥有 大 量 内 存 的 系统 上 并 且 应 用 
程序 需要 使 用 大 量 内 存 块 时 ， 使 用 巨 页 可 以 降低 硬件 内 存 管 理 单 元 的 超 
前 转换 缓冲 器 (translation look-aside buffer, TLB) 中 的 条 目 数 量 。 这 
之 所 以 会 种 来 益处 是 因为 TLB 中 的 条 目 通 常 是 一 种 稀缺 资源 。 更 多 信息 
可 参考 内 核 源 文件 Documentation/vm/ hugetlbpage.txt。 











SHM_NORESERVE ( 自 Linux 2.6.15 起 ) 





这 个 标记 在 shmgetO 中 所 起 的 作用 与 MAP_NORESERVE 标 记 在 
mmap0O 中 所 起 的 作用 一 样 ， 具 体 可 参见 49.9 节 。 


shmget() 在 成 功 时 返回 新 或 既 有 共享 内 存 段 的 标识 符 。 





48.3 ”使 用 共有 至 内 和 存 


shmat() 系 统 调用 将 shmid 标 识 的 共 至 内 存 段 附加 a 到 调用 进程 的 虚拟 
地 址 空间 中 。 





#include <sys/types.h> /* For portability */ 
#include <sys/shm.h> 
void *shmat(int shmzd, const void *shmaddr, int shmfie); 


Returns address at which shared memory is attached on success, 
or (void *) -1 on crror 











shmaddr 参 数 和 shmflg 位 掩 码 参数 中 SHM_RND 位 的 设置 控制 着 段 是 
如 何 被 附加 上 去 的 。 


e 如 果 shmaddr 是 NULL， 那 么 段 会 被 附加 到 内 核 所 选择 的 一 个 合适 的 
地 址 处 。 这 是 附加 一 个 段 的 优选 方法 。 

如 有 果 shmaddr 不 为 NULL 并 且 没 有 设置 SHM_RND， 那 么 段 会 被 附加 
到 由 shmaddr 指 定 的 地 址 处 ， 它 必须 是 系统 分 页 大 小 的 一 个 倍数 
(否则 会 发 生 EINVAL 错 误 ) 。 

如 果 shmaddr 不 为 NULL 并 且 设 置 了 SHM_RND， 那 么 段 会 被 映射 到 
的 地 址 为 在 shmaddr 中 提供 的 地 址 被 舍 入 到 最 近 的 常量 

SHMLBA (shared memory low boundary address) 的 倍数 。 这 个 各 
量 等 于 系统 分 页 大 小 的 某 个 倍数 。 将 一 个 段 附 加 到 值 为 SHMLBA 的 
倍数 的 地 址 处 在 一 些 架构 上 是 有 必要 的 ， 因 为 这 样 才能 够 提升 CPU 
的 快速 缓冲 性 能 和 防止 出 现 同 一 个 段 的 不 同 附加 操作 在 CPU 快速 组 
冲 中 存在 不 一 致 的 视图 的 情况 。 


在 x86 架 构 上 ，SHMLBA 的 值 与 系统 分 页 大 小 是 一 样 
的 ， 这 意味 着 此 类 缓冲 不 一 致 性 不 可 能 在 那些 架构 上 出 
现 。 


为 shmaddr 指 定 一 个 非 NULL 值 〈 即 上 面 列 出 的 第 二 种 和 第 三 种 情 
况 ) 不 是 一 种 推荐 的 做 法 ， 其 原因 如 下 。 


。 它 降低 了 一 个 应 用 程序 的 可 移植 性 。 在 一 个 UNIX 实 现 上 有 效 的 地 
址 在 另 一 个 实现 上 可 能 是 无 效 的 。 

试图 将 一 个 共享 内 存 段 附 加 到 一 个 正在 使 用 中 的 特定 地 址 处 的 操作 
会 失败 。 例 如 ， 当 一 个 应 用 程序 〈 可 能 在 一 个 库 函 数 中 ) 已 经 在 该 
地 址 处 附加 了 男 一 个 段 或 创建 一 个 内 存 映 冉 时 就 会 发 生 这 种 情况 。 


shmat() 的 函数 结果 是 返回 附加 共 至 内 存 段 的 地 址 。 开 发 人 员 可 以 像 
对 竺 普通 的 C 指 针 那 样 对 待 这 个 值 ， 段 与 进程 的 虚拟 内 存 的 其 他 部 分 看 
起 来 变 无 兰 异 。 通 营 会 将 shmatO0 的 返回 值 赋 给 一 个 指 同 茶 个 由 程序 员 定 
人 (参见 程序 清单 48-2 中 给 出 的 
IF) o 


要 附加 一 个 共享 内 存 段 以 供 只 读 访 问 ， 那 么 就 需要 在 shmflg 中 指定 
SHM_RDONLY 标 记 。 试 图 更 新 只 读 段 中 的 内 容 会 导致 段 错误 
(SIGSEGV 信 和 号) 的 发 生 。 如 果 没 有 指定 SHM_RDONLY， 那 么 就 既 可 
以 读 取 内 存 又 可 以 修改 内 存 。 


一 个 进程 要 附加 一 个 共享 内 存 段 就 需要 在 该 段 上 具备 读 和 写 权 限 ， 
除非 指定 了 SHM_RDONLY 标 记 ， 那 样 的 话 就 只 需要 具备 读 权 限 即 可 。 











在 一 个 进程 中 可 以 多 次 附加 同一 个 共 且 内存 段 ， 即 使 
一 个 附加 操作 是 只 读 的 而 为 一 个 是 读 写 的 也 没有 关系 。 
个 附加 点 上 内 存 中 的 内 容 都 是 一 样 的 ， 因 为 进程 虚拟 内 存 
页 表 中 的 不 同 条 目 引 用 的 是 同样 的 内 存 物 理 页 面 。 


最 后 一 个 可 以 在 shmflg 中 指定 的 值 是 SHM_REMAP。 在 指定 了 这 个 
标记 之 后 shmaddr 的 值 必须 为 韭 NULL。 这 个 标记 要 求 shhmat0 调 用 蔡 换 起 
点 在 shmaddr 处 长 度 为 共享 内 存 段 的 长 度 的 任何 既 有 共享 内 存 段 或 内 存 
了 映射 。 一 般 来 讲 ， 如 果 试 图 将 一 个 共享 内 存 段 附 加 到 一 个 已 经 在 用 的 地 





址 范围 时 将 会 导致 EINVAL 错 误 的 发 生 。SHM_REMAP 是 一 个 非 标准 的 
Linux} FE. 


表 48-1 对 shmat() 的 shmflg 参 数 中 能 取 OR 的 常量 进行 了 总 结 。 


表 48-1: shmat() 的 shmflg 位 掩 码 值 























SHM_RDONLY 附加 只 读 段 
SHM_REMAP 替换 位 于 shmaddr 处 的 任意 既 有 了 映射 
SHM_RND 将 shmaddr 四 合 五 入 为 SHMLBA 字 节 的 倍数 











当 一 个 进程 不 再 需要 访问 一 个 共 胖 内 存 段 时 就 可 以 调用 shmdtO 来 讲 
该 段 分 离 出 其 虚拟 地 址 空间 了 。shmaddr 参 数 标识 出 了 竺 分 离 的 段 ， 它 
应 该 是 由 之 前 的 shmatO 调 用 返回 的 一 个 值 。 








#include <sys/types.h> /* For portability */ 
#include <sys/shm.h> 


int shmdt(const void *shmaddr); 


Returns 0 on success, or -1 on error 











分 离 一 个 共享 内 存 段 与 删除 它 是 不 同 的 。 删 除 是 通过 48.7 节 中 介绍 
的 shmctl0 IPC_RMID 操 作 来 完成 的 。 


通过 forkO 创 建 的 子 进程 会 继承 其 父 进程 附加 的 共享 内 存 段 。 因 
共享 内 存 为 父 进程 和 子 进程 之 间 的 通 重信 提供 了 一 种 简单 的 IPC 方 
+ 





在 一 个 exec0O 中 ， k 享 内 存 段 都 会 被 分 离 。 在 进程 终止 
之 后 共享 内 存 段 也 会 自动 被 分 离 


48.4 示例 : 通过 共享 内 存 传输 数据 


下 面 介 绍 一 个 使 用 System V 共 至 内 存 和 信号 量 的 示例 程序 。 这 个 应 
用 程序 由 两 个 程序 构成: 写 者 和 读者 。 写 者 从 标准 输入 中 读 取 数 据 块 并 
将 数据 复制 OS") 到 一 个 共 至 内 存 段 中 。 读 者 将 共 译 内 存 段 中 的 数据 
块 复制 ( ise) 到 标准 输出 中 ，。 实际 上 ， 程 序 在 茶 种 程度 上 将 共 至 内 存 
当成 了 管道 来 处 理 。 


两 个 程序 使 用 了 二 元 信号 量 协议 《在 47.9 节 中 定义 的 
initSemAvailable(). initSemInUse(). reserveSem()VA XreleaseSem() ci 


数 ) 中 的 一 对 System V 信 和 号 量 来 确保 : 


。 一 次 只 有 一 个 进程 访问 共享 内 存 段 ; 
。 进程 交 蔡 地 访问 段 〈 即 写 者 写 入 一 些 数据 ， 然 后 读者 读 取 这 些 数 
据 ， 然 后 写 者 再 次 写 入 数据 ， 以 此 类 推 ) 。 
图 48-1 概 述 了 这 两 个 信号 量 的 使 用 。 注 意 写 者 对 两 个 信号 量 进行 了 
初始 化 ， 这 样 它 束 成 为 两 个 程序 中 第 一 个 能 够 访问 共享 内 存 段 的 程序 
ss ee 而 读者 的 信号 量 初始 时 是 正在 被 













































reserveSem( WRITE_SEM); reserveSem( REA D_SEM); 
将 数据 块 从 stdin 将 数据 块 从 共享 
拷贝 至 共享 内 存 | | 内 存 找 贝 至 stdout 

releaseSem(READ_SEM); releaseSem( WRITE_SEM); 


图 48-1: (BEALS Be RT EAN EAE E V e 


这 个 应 用 程序 的 源 代 码 由 三 个 文件 构成 。 第 一 个 文件 是 由 读者 程序 
和 写 者 程序 共享 的 头 文件 ， 如 程序 清单 48-1 所 示 。 这 个 头 文件 定义 了 
shmseg 结 构 ， 程 序 使 用 了 这 个 结构 来 声明 指 癌 共享 内 存 段 的 指针 ， 这 样 
就 能 给 共享 内 存 段 中 的 字 节 规定 一 种 结构 。 











程序 清单 48-1: svshm_xfr_ writer.c 和 svshm_xfr_ reader.c 的 头 文件 





svshm/svshm_xfr.h 


#include <sys/types.h> 

#include <sys/stat.h> 

#include <sys/sem.h> 

#include <sys/shm.h> 

#include "binary _sems.h" /* Declares our binary semaphore functions */ 
#include "tlpi_hdr.h" 


#define SHM KEY 0x1234 /* Key for shared memory segment */ 
#define SEM KEY 0x5678 /* Key for semaphore set */ 


#define OBJ_PERMS (S_IRUSR | S_IWUSR | S_IRGRP | S_IWGRP) 
/* Permissions for our IPC objects */ 


#define WRITE SEM 0 /* Writer has access to shared memory */ 

#tdefine READ SEM 1 /* Reader has access to shared memory */ 

#ifndef BUF_SIZE /* Allow "cc -D" to override definition */ 

#define BUF_SIZE 1024 /* Size of transfer buffer */ 

#endif 

struct shmseg { /* Defines structure of shared memory segment */ 
int cnt; /* Number of bytes used in 'buf' */ 
char buf[BUF_SIZE]; /* Data being transferred */ 


svshm/svshm xfr.h 


程序 清单 48-2 是 写 者 程序 。 这 个 程序 按 序 完成 下 列 任务 。 


S ， 写 者 和 读者 程序 会 使 用 这 两 个 信 
量 来 确保 它们 交 蔡 地 访问 共享 内 存 段 册 。 信 号 量 被 初始 化 为 使 写 
老 首 先 访问 其 % 吝 内 存 段 。 由 于 是 由 写 者 来 创建 信号 量 集 的 ， 因 此 必 


须 在 启动 读者 之 前 启动 写 者 。 
。 创建 共享 内 存 段 并 将 其 附加 到 写 者 的 虚拟 地 址 空间 中 系统 所 选择 的 
一 个 地 址 处 @。 


。 进入 一 个 循环 将 数据 从 标准 输入 传输 到 共享 内 存 段 @。 每 个 循环 迭 
代 需 要 按 序 完成 下 面 的 任务 : 
o HA ( 减 小 ) 写 者 的 信号 量 
。 从 标准 输入 中 读 取 数据 并 将 数据 复制 到 共 EEA FES). 
o 释放 (增加 ) 读者 的 信号 量 @。 

。 当 标 准 输入 中 没有 可 用 的 数据 时 循环 终止 @。 在 最 后 一 次 循环 中 ， 
写 者 通过 传递 一 个 长 度 为 0 的 数据 块 〈shmp->cnt 为 0) 来 通知 读者 
没有 更 多 的 数据 了 。 

















。 在 退出 循环 时 ， 写 者 再 次 预 留 其 信号 量 ， 这 样 它 惑 能 知道 读者 已 经 
完成 了 对 共享 内 存 的 最 后 一 次 访问 了 号 。 写 者 随后 删除 了 共享 内 存 
RME SERO. 


REPT 48-3 AIET CRAEN FE BCH EY ti RAE Fa ERE 
输出 中 。 该 者 按 序 完成 了 下 面 的 任务 。 


。 获取 写 者 程序 创建 的 信号 量 集合 共享 内 存 段 的 IDGD。 
。 附加 共享 内 存 段 供 只 读 访 问 字 。 
© 进入 一 个 循环 从 共享 内 存 段 中 传输 数据 外。 在 每 个 循环 迭代 中 需要 
按 序 完成 下 面 的 任务 。 
o 预 留 ( 减 小 ) 读者 的 信号 量 由 。 
o 检查 shmp->cnt 是 否 为 0， 如 果 为 0 就 退出 循环 名 。 
o 将 共享 内 存 段 中 的 数据 块 写 入 标准 输出 中 (@)。 
o 释放 (增加 〉 写 者 的 信号 量 @。 
。 在 退出 循环 之 后 分 离 共 享 内 存 段 @) 并 释放 写 者 的 信号 量 @， 这 样 写 
者 程序 就 能 够 删除 IPC 对 象 了 。 


程序 清单 48-2: 将 stdin 中 的 数据 块 传输 到 一 个 System V 共 享 内 存 段 中 





























svshm/svshn_xfr_writer.c 


#include “semun.h" /* Definition of semun union */ 
#include "svshm_xfr.h" 


int 
main(int argc, char *argv[]) 


int semid, shmid, bytes, xfrs; 
struct shmseg *shmp; 
union semun dummy ; 


© semid = semget(SEM_KEY, 2, IPC_CREAT | 0B]_PERMS ) ; 
if (semid == -1) 
errExit("semget"); 


OO 


if (initSemAvailable(semid, WRITE_SEM) == -1) 
errExit("initSemAvailable") ; 

if (initSemInUse(semid, READ SEM) == -1) 
errExit("initSemInUse") ; 


shmid = shmget(SHM KEY, sizeof(struct shmseg), IPC_CREAT | OBJ PERMS); 
if (shmid == -1) 
errExit("“shmget"); 


shmp = shmat(shmid, NULL, 0); 
if (shmp == (void *) -1) 
errExit("shmat"); 


/* Transfer blocks of data from stdin to shared memory */ 


for (xfrs = 0, bytes = 0; ; xfrs++, bytes += shmp->cnt) { 
if (reserveSem(semid, WRITE SEM) == -1) /* Wait for our turn */ 
errExit("reserveSem") ; 


shmp->cnt = read(STDIN_FILENO, shmp->buf, BUF_SIZE); 
if (shmp->cnt == -1) 
errExit("read"); 


if (releaseSem(semid, READ SEM) == -1) /* Give reader a turn */ 
errExit("releaseSem") ; 


/* Have we reached EOF? We test this after giving the reader 
a turn so that it can see the 0 value in shmp->cnt. */ 


if (shmp->cnt == 0) 
break; 


} 


/* Wait until reader has let us have one more turn. We then know 
reader has finished, and so we can delete the IPC objects. */ 


if (reserveSem(semid, WRITE_SEM) == -1) 
errExit("reserveSem" ); 


if (semctl(semid, 0, IPC RMID, dummy) == -1) 
errExit(“semctl"); 

if (shmdt{shmp) == -1) 
errExit("shmdt"); 

if (shmctl(shmid, IPC_RMID, 0) == -1) 
errExit("shmctl"); 


fprintf(stderr, "Sent %d bytes (%d xfrs)\n", bytes, xfrs); 
exit(EXIT_SUCCESS); 


svshm/svshm_xfr_writer.c 




















程序 清单 48-3: 将 一 个 System V 共 译 内 存 段 中 的 数据 块 传输 到 stdout9 


SIO 


svshm/svshm_xfr_reader.c 
#include "svshm xfr.h" 


int 
main(int argc, char *argv[]) 


int semid, shmid, xfrs, bytes; 
struct shmseg *shmp; 


/* Get IDs for semaphore set and shared memory created by writer */ 


semid = semget(SEM_KEY, 0, 0); 
if (semid == -1) 
errExit("semget”) ; 


shmid = shmget(SHM_KEY, 0, 0); 
if (shmid == -1) 
errExit("shmget"); 


shmp = shmat(shmid, NULL, SHM_RDONLY); 
if (shmp == (void *) -1) 
errExit("shmat") ; 


/* Transfer blocks of data from shared memory to stdout */ 


for (xfrs = 0, bytes = 0; ; xfrs++) { 
if (reserveSem(semid, READ SEM) == -1) /* Wait for our turn */ 
errExit("reserveSem" ); 


if (shmp->cnt == 0) /* Writer encountered EOF */ 
break; 
bytes += shmp->cnt; 


if (write(STDOUT FILENO, shmp->buf, shmp->cnt) != shmp->cnt) 
fatal("partial/failed write"); 


if (releaseSem(semid, WRITE SEM) == -1) /* Give writer a turn */ 
errExit("releaseSem"); 


} 


if (shmdt(shmp) == -1) 
errExit("shmdt"); 


/* Give writer one more turn, so it can clean up */ 


if (releaseSem(semid, WRITE_SEM) == -1) 
errExit("releaseSem"); 


fprintf(stderr, "Received %d bytes (%d xfrs)\n", bytes, xfrs); 
exit(EXIT SUCCESS); 


svshm/svshm_xfr_reader.c 


下 面 的 shell 会 话 演示 了 如 何 使 用 程序 清单 48-2 和 程序 清单 46-9 中 的 
程序 。 这 里 在 调用 读者 时 将 文件 /etc/services 作 为 输入 ， 然 后 调用 了 读者 
并 将 其 输出 定向 到 为 一 个 文件 中 。 
$ wc -c /etc/services Display size of test file 


764360 /etc/services 
$ ./svshm_xfr_writer < /etc/services & 


[1] 9403 

$ ./svshm_xfr_reader > out.txt 

Received 764360 bytes (747 xfrs) Message from reader 
Sent 764360 bytes (747 xfrs) Message from writer 
[1]+ Done ./svshm_xfr_writer < /etc/services 

$ diff /etc/services out.txt 

$ 


diff 命 令 不 产生 任何 输出 ， 这 说 明 读 者 产生 的 输出 文件 中 的 内 容 与 
写 者 使 用 的 输入 文件 中 的 内 容 是 一 样 的 。 


48.5 ”共享 内 存在 虚拟 内 存 中 的 位 置 


在 6.3 节 中 介绍 了 一 个 进程 的 各 个 部 分 在 虚拟 内 存 中 的 布局 。 现 在 
在 介绍 附加 System V 共 享 内 存 段 的 时 候 重 温 一 下 这 个 主题 是 比较 有 帮助 
的 。 如 果 遵 循 所 推荐 的 方法 ， 即 允许 内 核 选择 在 何 处 附加 共享 内 存 段 ， 
那么 《在 x86-32 架 构 上 〉 内 存 布局 怠 会 像 图 48-2 中 所 示 的 那样 ， 段 被 附 
加 在 向 上 增长 的 堆 和 向 下 增长 的 栈 之 间 未 被 分 配 的 空间 中 。 为 给 堆 和 栈 
的 增长 腾 出 空间 ， 附 加 共享 内 存 段 的 虚拟 地 址 从 0x40000000 开 始 。 内 存 
a k 享 库 〈 第 41 和 42 章 ) 也 是 被 放置 在 这 个 区 域 中 的 。 

共享 内 存 映 射 和 内 存 段 默认 被 放置 的 位 置 可 能 会 有 些 不 同 ， 这 依赖 于 
ea ea ) 


虚拟 内 存 地 址 
(十 六 进 制 ) 


0xC0000000 


共享 内 存 、 内 存 映 射 和 
共享 库 位 于 此 处 


0x40000000 
TASK_UNMAPPED_BASE 
为 堆 扩展 保留 


未 初始 化 数据 (bss) 
初始 化 数据 


文本 (程序 代 体 ) 


虚拟 地 址 递增 方向 


0x08048000 





0x00000000 


图 48-2: 共享 内 存 、 内 存 映 射 、 以 及 共享 库 的 位 置 (x86-32) 














地 址 0x40000000 被 定义 成 了 内 核 常 量 
TASK_UNMAPPED_ BASE。 通 过 将 这 个 常量 定义 成 一 个 不 
同 的 值 并 且 重 建 内 核 可 以 修改 这 个 地 址 的 值 。 





如 果 在 调用 shmat() 〈 或 mmapO0) 时 采用 了 不 推荐 的 方 
法 ， 即 显 式 地 指定 一 个 地 址 ， 那 么 一 个 共享 内 存 段 (或 内 
存 映射 ) 可 以 被 放置 在 低 于 TASK_UNMAPPED _ BASE 的 地 
址 处 。 


通过 Linux 特 有 的 /proc/PID/maps 文 件 能 够 看 到 一 个 程序 映射 的 共享 
内 存 段 和 共享 库 的 位 置 ， 如 下 面 的 shell 会 话 所 示 。 


从 内 核 2.6.14 开 始 ，Linux 还 提供 了 /proc/PID/smaps 文 
件 ， 它 给 出 了 有 关 一 个 进程 中 各 个 映射 的 内 存 消耗 方面 的 
更 多 信息 。 更 多 细节 可 参考 proc(5) 手 册 。 


在 下 面 的 shell 会 话 中 使 用 了 三 个 在 本 章 中 没有 给 出 的 程序 ， 读 者 可 
以 在 本 书 随 融 的 源 代 码 的 svshm 子 目录 中 找到 这 三 个 程序 。 这 些 程序 执 
行 了 下 面 的 任务 。 


e svshm_create.c 程 序 创 建 了 一 个 共享 内 存 段 。 这 个 程序 与 在 介绍 消 忠 
队列 “程序 清单 46.1)》 和 信号 量 时 给 出 的 相应 程序 接收 同样 的 命令 
行 选 项 ， 但 它 包 含 了 一 个 额外 的 用 来 规定 段 大 小 的 参数 。 

svshm_attach.c 程 序 附加 通过 其 命令 行 参数 指定 的 共享 内 存 段 。 每 个 
参数 都 由 一 对 用 分 号 隔 开 的 数字 构成 ， 两 个 数字 分 别 是 共享 内 存 标 
识 符 和 附加 地 址 。 将 附加 地 址 指定 为 0 表示 系统 应 该 选择 地 址 。 程 





序 会 显示 出 实际 附加 内 存 段 的 地 址 。 此 外 ， 为 提供 更 多 的 有 用 信 
息 ， 程 序 还 显示 出 了 SHMLBA 常 量 的 值 和 运行 这 个 程序 的 进程 的 进 
程 ID。 

e svshm_rm.c 程 序 删除 通过 其 命令 行 参数 指定 的 共享 内 存 段 。 


首先 在 shell 中 创建 两 个 共享 内 存 段 (大 小 分 别 为 100kB 和 
3200kB) 。 








$ ./svshm_create -p 102400 
9633796 
$ ./svshm_create -p 3276800 
9666565 
$ ./svshm_create -p 102400 
1015817 
$ ./svshm_create -p 3276800 
1048586 


然后 局 动 一 个 将 这 两 个 段 附 加 到 由 内 核 选择 的 地 址 处 的 程序 。 


$ ./svshm_attach 9633796:0 9666565:0 
SHMLBA = 4096 (0x1000), PID = 9903 
1: 9633796:0 ==> 0xb7f0d000 

2: 9666565:0 ==> Oxb7bed000 

Sleeping 5 seconds 


从 上 面 的 输出 中 可 以 看 出 附加 这 两 个 段 的 地 址 。 在 程序 完成 睡眠 之 
前 挂 起 这 个 程序 ， 然 后 检查 相应 的 /procPID/Amaps 文 件 中 的 内 容 。 
Type Control-Z to suspend program 


[1]+ Stopped -/svshm attach 9633796:0 9666565:0 
$ cat /proc/9903/maps 


程序 清单 48-4 给 出 了 cat 命 令 产 生 的 输出 。 


程序 清单 48-4: 示例 /proc/PID/maps 的 内 容 





























$ cat /proc/9903/maps 
® 08048000-0804a000 r-xp 


00000000 08:05 5526989 


0804a000-0804b000 r--p 00001000 08:05 5526989 
0804b000-0804c000 rw-p 00002000 08:05 5526989 


@ b7bed000-b7f0d000 rw-s 
b7fod000- 
b7#26000-b7£27000 rw-p 

© b7#27000-b8064000 r-xp 
b8064000- 
b8066000- 
b8067000-b806b000 rw-p 
b8082000-b8083000 rw-p 

@ b8083000-b809e000 r-xp 
b809e000- 
b809f000- 

©) bfd8a000-bfdao000 rw-p 

© ffffe000-fffffOOO r-xp 


00000000 00:09 9666565 


b7#26000 rw-s 00000000 00:09 9633796 


b7#26000 00:00 0 
00000000 08:06 122031 


b8066000 r--p 0013d000 08:06 122031 
b8067000 rw-p 0013f000 08:06 122031 


b8067000 00:00 0 
b8082000 00:00 0 
00000000 08:06 122125 


b809f000 r--p 0001a000 08:06 122125 
b80a0000 rw-p 0001b000 08:06 122125 


bffea000 00:00 0 
00000000 00:00 0 


/home/mtk/svshm_attach 
/home/mtk/svshm_attach 
/home/mtk/svshm attach 
/SYSV00000000 (deleted) 
/SYSV00000000 (deleted) 


/lib/libc-2.8.s0 
/lib/libc-2.8.s0 
/lib/libc-2.8.s0 


/lib/1d-2.8.s0 
/lib/1d-2.8.s0 
/lib/1d-2.8.s0 
[stack] 

[vdso] 





从 程序 清单 48-4 中 给 出 的 /proc/PID/maps 文 件 的 输出 可 以 看 出 : 








。 有 三 行 是 与 主 程序 shm_attach 相 关 的 。 它们 对 应 于 程序 的 文本 和 数 


HRO, RFE ITE 
页 。 


一 个 保存 程序 所 使 用 的 字符 串 锦 


量 的 只 读 分 


。 有 两 行 是 与 被 附加 的 System V 共 享 内 存 段 相关 的 @。 
享 库 的 段 对 应 。 其 中 一 行 是 标准 C 库 (libc- 


。 有 几 行 与 两 个 共 


version.so) (8)， 其 他 的 则 是 在 41.4.3 节 中 介 


ENAT HERO. 
[vdsol6)。 它 是 用 来 表示 linuxgate 虚拟 动态 


version.so) (4). 


。 一 行 被 标记 为 [stack]， 


。 一行 包含 的 标签 
象 (DSO) 的 一 
核 中 。 有 关 这 个 





绍 的 动态 链接 右 dd- 








共享 对 





个 条 目 。 这 个 条 目 只 出 现在 了 2.6.12 以 及 之 后 的 内 
条 目的 更 多 信息 可 参 


ae johan/2005/08/linux-gate/。 
下 面 是 /procPID/maps 文 件 中 每 行 所 包含 的 列 ， 其 顺序 为 从 左 


右 。 


1， 一 对 用 连 字符 隔 开 的 数字 ， 


拟 地 址 范围 《以 十 六 进 制 表示 ) 和 段 结 


2. 内 存 段 的 保护 位 和 标记 位 。 前 三 个 字母 表示 段 的 保护 位 : i 
使 用 连 字 符 〈-) 来 痊 换 其 中 任意 字母 
表示 禁用 相应 的 保护 位 。 最 后 一 个 字母 表示 内 存 段 的 映射 标记 ， 


Mm) . & Cw) 以 及 执行 (x) 。 


它们 分 别 表 示 内 存 段 被 映射 到 的 虚 


电 之 后 第 一 个 字 节 的 地 址 。 





Wh 
on 





其 取 值 


要 么 是 私有 (p) ， 要 么 是 共享 (8) 。 有 关 这 些 标记 的 详细 解释 可 参见 
第 49.2 节 中 对 MAP_PRIVATE 和 MAP_SHARED 标 记 的 描述 。 (System 
V 共 享 内 存 段 总 是 被 标记 为 共享 。) 


3. 段 在 对 应 的 映射 文件 中 的 十 六 进 制 偏 移 量 (以 字 节 计数 ) 。 这 
个 列 以 及 随后 的 两 列 的 含义 在 第 49 章 中 介绍 mmapO 系 统 调 用 时 会 变 得 更 
加 清晰 。 对 于 System V 共 享 内 存 段 来 讲 ， 偏 移 量 总 是 为 0。 


4. 相应 的 映射 文件 所 位 于 的 设备 的 设备 号 《〈 主 要 和 次 要 ID) 。 
5. 了 映射 文件 的 inode 号 或 System V 共 享 内 存 段 的 标识 符 。 


6. 与 这 个 内 存 段 相关 联 的 文件 名 或 其 他 标识 标签 。 对 于 System V 
共享 内 存 段 来 讲 ， 这 一 列 由 字符 串 SYSV 后 面 接 上 这 个 的 段 的 shmget0 键 
《以 十 六 进 制 表示 ) 构成。 在 本 例 中 ，SYSV 后 面 跟着 零 ， 这 是 因为 在 
创建 段 时 使 用 了 IPC_PRIVATE 键 (其 值 为 0; 。System V 共 享 内 存 段 的 
SYSV 字 上 段 后 面 的 字符 串 (deleted) 是 共享 内 存 段 实现 的 产物 。 这 种 段 
会 被 创建 成 不 可 见 的 tmpfs 文 件 系统 (14.1077) 中 的 映射 文件 ， 然 后 再 
被 解除 链接 。 共 享 匿 名 内 存 映 射 也 是 采用 同样 的 方式 实现 的 。〈 在 第 49 
章 中 将 会 介绍 映射 文件 和 共享 匿名 内 存 映 射 。) 

















48.6 在 共享 内 存 中 存储 指针 


每 个 进程 者 可 能 会 用 到 不 同 的 共享 库 和 内 存 映 射 ， 并 且 可 能 会 附加 
不 同 的 共 孚 内 存 段 集 。 因 此 如 宋 遵 循 推荐 的 做 法 ， 让 内 核 来 选择 将 共 衬 
内 存 段 附加 到 何 处 ， 那 么 一 个 段 在 各 个 进程 中 可 能 会 被 附加 到 不 同 的 地 
址 上 。 正 因为 这 个 原因 ， 在 共 吝 内存 段 中 存储 指 回 段 中 其 他 地 址 的 引用 
时 应 该 使 用 (相对 ) 偏 移 量 ， 而 不 是 绝对 ) 指针 。 


例如 ， 假 设 一 个 共享 内 存 段 的 起 始 地 址 为 baseaddr 〈 即 baseaddr 的 值 
为 shmatO 的 返回 值 ) 。 再 假设 需要 在 p 指 同 的 位 置 处 存储 一 个 指针 ， 该 
指针 指 同 的 位 置 与 target 指 癌 的 位 置 相 同 ， 如 图 48-3 所 示 。 如 果 在 段 中 构 
建 一 个 链表 或 二 又 树 ， 那 么 这 种 操作 就 是 非常 典型 的 一 种 操作 。 在 C 中 
设置 *p 的 传统 做 法 如 下 所 示 。 














共享 内 存 段 


target i 


p-r 


baseaddr —> 


图 48-3: 在 共享 内 存 段 中 使 用 指针 








*p = target; /* Place pointer in *p (WRONG!) */ 


上 面 这 段 代码 存在 的 问题 是 当 共享 内 存 段 被 附加 到 另 一 个 进程 中 时 
target 指 向 的 位 置 可 能 会 位 于 一 个 不 同 的 虚拟 地 址 处 ， 这 意味 着 在 那个 
进程 中 那个 策划 中 存储 在 ep 中 的 值 是 是 无 意义 的 。 正 确 的 做 法 是 在 *p 中 
存储 一 个 偏 移 量 ， 如 下 所 示 。 


*p = (target - baseaddr); /* Place offset in *p */ 
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target = baseaddr + *p; /* Interpret offset */ 


这 里 假设 在 各 个 进程 中 baseaddr 指 向 共 译 内 存 段 的 起 始 位 置 ( 即 各 
个 进程 中 shmatO 的 返回 值 ) 。 给 定 这 种 假设 ， 那 么 就 能 正确 地 对 侦 移 量 
值 进行 解释 ， 不 管 共享 内 存 段 被 附加 在 进程 的 虚拟 地 址 空间 中 的 何 处 。 


或 者 如 果 是 将 一 组 固定 大 小 的 结构 链接 起 来 的 话 束 可 以 将 共享 内 存 
段 (或 部 分 共享 内 存 段 〉 强 制 转换 成 一 个 数组 ， 然 后 使 用 下 标 数 作 
为 “指针 ”来 在 一 个 结构 中 引用 男 一 个 结构 。 








48.7 ”共享 内 存 控 制 操作 
shmctl() 系 统 调用 在 shmid 标 识 的 共享 内 存 段 上 执行 一 组 控制 操作 。 





#include <sys/types.h> /* For portability */ 
#include <sys/shm.h> 


int shmctl(int shmed, int cmd, struct shmid_ds *buf); 


Returns 0 on success, or -1 on error 











cmd 参 数 规定 了 待 执行 的 控制 操作 。buf 参 数 是 IPC_STAT 和 
IPC_SET 操 作 〈( 稍 后 介绍 ) 会 用 到 的 ， 并 且 在 执行 其 他 操作 时 需要 将 这 
个 参数 的 值 指 定 为 NULL。 


在 本 节余 下 的 部 分 中 将 介绍 通过 cmd 可 指定 的 各 种 操作 。 
常规 控制 操作 


下 列 操作 与 其 他 System V IPC 对 象 上 的 操作 是 一 样 的 。 有 关 这 些 操 
Ee area er R AR 
述 。 


IPC_RMID 


标记 这 个 共享 内 存 段 及 其 关联 shmid_ds 数 据 结构 以 便 删 除 。 如 果 当 
前 没有 进程 附加 该 段 ， 那 么 融会 执行 删除 操作 ， 人 否则 融 在 所 有 进程 都 已 
经 与 该 段 分 离 〈 即 当 shmid_ds 数 据 结构 中 shm_nattch 字 段 的 值 为 0 时 ) 之 
后 再 执行 删除 操作 。 在 一 些 应 用 程序 中 可 以 通过 在 所 有 进程 将 共享 内 存 
段 附加 到 其 虚拟 地 址 空间 之 后 立即 使 用 shmat0) 将 共享 内 存 段 标记 为 删除 
来 确保 在 应 用 程序 退出 时 于 净 地 清除 共享 内 存 段 。 这 种 做 法 与 在 打开 一 
个 文件 之 后 立即 断 开 到 该 文件 的 链接 的 做 法 是 类 似 的 。 








在 Linux 上 ， 如 果 已 经 使 用 IPC_RMID 将 一 个 共享 段 标 
记 为 删除 ， 但 因为 还 存在 一 些 进程 仍然 附加 了 该 段 而 没有 


删除 该 段 ， 那 么 其 他 进程 还 能 够 附加 访 段 。 但 这 种 行为 是 
不 可 移植 的 : 大 多 数 UNIX 实 现 会 阻止 进程 将 被 标记 为 删除 
的 段 附 加 到 上 自己 的 地 址 空间 中 。 (SUSv3 并 没有 对 这 种 情 
况 的 处 理 方 式 进行 规定 。) 一 些 Linux 应 用 程序 已 经 依赖 了 
这 种 行为 ， 这 也 是 Linux 为 何不 改变 这 种 行为 以 与 其 他 
UNIX 实 现 匹 配 的 原因 。 





IPC_STAT 


将 与 这 个 共享 内 存 段 关联 的 shmid_ds 数 据 结 构 的 一 个 副本 防止 到 buf 
指向 的 缓冲 区 中 。 (在 48.8 闻 中 将 介绍 这 个 数据 结构 。) 


IPC_SET 


使 用 buf 指 向 的 缓冲 区 中 的 值 来 更 新 与 这 个 共 圣 内 存 段 相关 联 的 
shmid_ds 数 据 结 构 中 被 选中 的 字段 。 


加 锁 和 人 解锁 共享 内 存 


一 个 共享 内 存 段 可 以 被 锁 进 RAM 中 ， 这 样 它 就 永远 不 会 被 交换 出 
去 了 。 这 种 做 法 能 够 带 来 性 能 上 的 提升 ， 因 为 一 旦 段 中 的 所 有 分 页 都 驻 
留 在 内 存 中 ， 束 能 够 确保 一 个 应 用 程序 在 访问 分 页 时 永远 不 会 因 发 生 分 
页 故障 而 被 延迟 。 通 过 shmctl0 可 以 完成 两 种 锁 操 作 。 


e SHM_LOCK 操 作 将 一 个 共享 内 存 段 锁 进 内 存 。 
e SHM_UNLOCK 操 作为 共享 内 存 段 解锁 以 允许 它 被 交换 出 去 。 


SUSv3 并 没有 规定 这 些 操作 ， 并 且 所 有 UNIX 实 现 也 都 没有 提供 这 
些 操作 。 


在 版 本 号 小 于 2.6.10 的 Linux 上 只 有 特权 CCAP_IPC_LOCK) 进程 才 
能 够 将 一 个 共享 内 存 段 锁 进 内 存 。 自 Linux 2.6.10 开 始 ， 非 特权 进程 能 够 
在 一 个 共享 内 存 段 上 执行 加 锁 和 解锁 操作 ， 其 前 提 是 进程 的 有 效用 户 ID 
与 段 的 所 有 者 或 创建 者 的 用 户 ID 匹配 并 且 “【〈 在 执行 SHM_LOCK 操 作 的 
情况 下 ) 进程 具备 足够 高 的 RLIMIT_MEMLOCK 资 源 限 制 ， 细 节 信 息 可 








参考 50.2 节 。 


锁 住 一 个 共享 内 存 段 无 法 确保 在 shmctlO 调 用 结束 时 段 的 所 有 分 页 
都 驻 留 在 内 存 中 。 非 驻 留 分 页 会 在 附加 该 共享 内 存 段 的 进程 引用 这 些 分 
页 时 因 分 页 故障 而 一 个 一 个 地 被 锁 进 内 存 。 一 旦 分 页 因 分 页 故障 而 被 锁 
进 了 内 存 ， 那 么 分 页 就 会 一 直 驻 留 在 内 存 中 直到 被 解锁 为 止 ， 即 使 所 有 
进程 都 与 该 段 分 离 之 后 也 不 会 发 生 改 变 。〈 换 名 话说 ，SHM_LOCK 操 
1 ) 





因 分 页 故障 而 加 载 进 内 存 表 示 当 进程 引用 了 一 个 非 驻 
留 页 面 时 会 发 生 一 个 分 页 故障 。 这 时 如 果 分 页 在 区 换 区 域 
中 ， 那 么 它 将 会 被 重新 加 载 进 内 存 。 如 宁 分 页 是 首次 被 引 
用 ， 那 么 在 交换 文件 中 就 不 存在 对 应 的 分 页 。 因 此 内 核 会 
在 物理 内 存 中 分 配 一 个 新 分 页 并 调整 进程 的 页 表 以 及 共享 
内 存 段 的 短 记 数据 结构 。 





作为 给 内 存 加 锁 的 一 种 丛 代 方法 ， 可 以 使 用 mlock()， 它 的 语义 与 内 
存 加 锁 稍 微 有 些 不 同 ，50.2 节 对 此 进行 了 介绍 。 


48.8 FEA TRY 
每 个 共享 内 存 段 都 有 一 个 关联 的 shmid_ds 数 据 结构 ， 其 形式 如 下 。 


struct shmid ds { 
struct ipc_perm shm perm; /* Ownership and permissions */ 


size t shm segsz; /* Size of segment in bytes */ 

time t shm atime; /* Time of last shmat() */ 

time t shm dtime; /* Time of last shmdt() */ 

time t shm ctime; /* Time of last change */ 

pid t shm_cpid; /* PID of creator */ 

pid t shm_Ipid; /* PID of last shmat() / shmdt() */ 

shmatt_t shm_nattch; /* Number of currently attached processes */ 


SUSv3 要 求实 现 提 供 上 面 给 出 的 所 有 字段 。 其 他 一 些 UNIX 实 现在 
shmid ds 结构 中 包含 了 额外 的 非 标准 字段 。 


各 种 共享 内 存 系统 调用 会 隐 式 地 更 新 shmid_ds 结 构 中 的 字段 ， 使 用 
~ 可 以 显 式 地 更 新 shm_perm 字 段 中 的 特定 子 字段 。 
细 市 信息 如 下 。 


shm_perm 


在 创建 共享 内 存 段 之 后 会 像 45.3 节 中 描述 的 那样 对 这 个 子 结构 中 的 
字段 进行 初始 化 。uid、gid 以 及 〔 低 9 位 〉mode 子 字段 是 通过 IPC_SET 
来 更 新 的 。 除 了 常规 的 权限 位 之 外 ，shm_perm.mode 字 段 还 有 两 个 只 读 
位 掩 码 标记 。 其 中 第 一 个 是 SHM_DEST (H) ， 它 表示 当 所 有 进程 的 
地 址 空间 都 与 该 段 分 离 之 后 是 否 将 该 段 标记 为 删除 (通过 shmctl0 
IPC_RMID 操 作 ) 。 另 一 个 标记 是 SHM_LOCKED， 它 表示 是 否 将 段 锁 
进 物理 内 存 中 (通过 shmctl() SHM_LOCK 操 作 ) 。 这 两 个 标记 都 没有 在 
SUSv3 中 被 标准 化 ， 并 且 只 有 一 些 UNIX 实 现 提 供 了 与 这 两 个 标记 等 价 
的 标记 ， 同 时 有 些 实现 上 的 名 称 也 是 不 同 的 。 


shm_segsz 


在 创建 共享 内 存 段 时 这 个 字段 会 被 设置 成 段 所 需要 的 字 节 数 《〈 即 
shmget() 调 用 中 size 参 数 的 值 )。 在 48.2 节 中 提 到 过 共享 内 存 是 以 分 页 为 
单位 来 分 配 的 ， 因 此 段 所 需 的 实际 大 小 可 能 会 大 于 这 个 值 。 








shm_atime 


在 创建 共 诗 内 存 段 时 会 将 这 个 字段 设置 为 0%， 当 一 个 进程 附加 该 段 
IY Cshmat()) 会 将 这 个 字段 设置 为 当前 时 间 。 这 个 字段 以 及 shmid_ds 绪 
人 
EY BL 


shm_dtime 


”在 创建 共 对 内存 段 时 会 将 这 个 字段 设置 为 0%， 当 一 个 进程 与 该 段 分 
离 〈(shmdt()) 之 后 会 将 这 个 字段 设置 为 当前 时 间 。 





shm_ctime 

当 段 被 创建 时 以 及 每 个 成 功 的 IPC_SET 操 作 都 会 将 这 个 字段 设置 为 
当前 时 间 。 
shm_cpid 

这 个 字段 会 被 设置 成 使 用 shmgetO 创 建 这 个 段 的 进程 的 进程 ID。 
shm_lpid 


在 创建 共享 内 存 段 时 会 将 这 个 字段 设置 为 0， 后 续 每 个 成 功 的 
shmatO 或 shmdtO 调 用 会 将 这 个 字段 设置 成 调用 进程 的 进程 ID。 


shm_nattch 


这 个 字段 统计 当前 附加 该 段 的 进程 数 。 在 创建 段 时 会 将 这 个 字段 初 
始 化 为 0， 然 后 每 次 成 功 的 shmatO 调 用 会 递增 这 个 字段 的 值 ， 每 次 成 功 
的 shmdtO 调 用 会 递减 这 个 字段 的 值 。 用 来 定义 这 个 字段 的 shmatt_t 数 据 
类 型 是 一 个 无 符号 整 型 ，SUSvV3 要 求 这 个 类 型 的 大 小 最 少 为 unsigned 
short. 在 Linux 上 这 个 类 型 被 定义 成 了 unsigned long. ) 











48.9 ”共享 内 存 的 限制 


大 多 数 UNIX 实 现 会 对 System V 共 至 内 存 施 加 各 种 各 样 的 限制 。 下 
面 是 一 份 Linux 共 至 内 存 的 限制 列表 。 括 号 中 列 出 了 当 限 制 达到 时 受 影 
啊 的 系统 调用 及 其 返回 的 错误 。 


SHMMNI 


这 是 一 个 系统 级 别 的 限制 ， 它 限制 了 所 能 创建 的 共享 内 存 标识 符 
〈 换 名 话说 是 共享 内 存 段 ) 的 数量 。 (shmget(), ENOSPC) 


SHMMIN 


eS PTE EAE BUN ADA FEZO 0 IAS Hl ABE MC 
成 了 1《〈 无 法 修改 这 个 值 ) ， 但 实际 的 限制 是 系统 分 页 大 小 〈shmget0， 
EINVAL) 。 


SHMMAX 


这 个 是 一 个 共享 内 存 段 的 最 大 大 小 〈 字 节 数 ) 。SHMMAX 的 实际 
上 限 依赖 于 可 用 的 RAM 和 交换 空间 。 (shmget(), EINVAL) 


SHMALL 


这 是 一 个 系统 级 别 的 限制 ， 它 限制 了 共享 内 存 中 的 分 页 总 数 。 其 他 
大 多 数 UNIX 实 现 并 没有 提供 这 个 限制 。SHMALL 的 实际 上 限 依 赖 于 可 
用 的 RAM 和 交换 空间 。 (shmget(), ENOSPC) 


其 他 一 些 UNIX 实 现 还 施加 了 下 列 限 制 (Linux 并 没有 实现 这 些 限 





iil) ) 
SHMSEG 
这 个 是 进程 级 别 的 限制 ， 筷 限制 了 所 能 附加 的 共享 内 存 段 数量 。 
在 系统 局 动 时 共享 内 存 限制 会 被 设置 成 默认 值 。《〈 这 些 默 认 值 在 不 


同 的 内 核 版 本 中 可 能 存在 差异 ， 一 些 发 行 厂商 发 行 的 内 核 中 的 默认 设置 
与 vanilla 内 核 中 的 默认 设置 是 不 同 的 。) 在 Linux 上 ， 可 以 通过 /proc 文 件 











系统 中 的 文件 来 查看 其 中 一 些 限 制 。 表 48-2 列 出 了 与 各 个 限制 对 应 
的 /proc 文 件 。 下 面 是 Linux 2.6.31 在 x86-32 系 统 上 的 默认 限制 。 


$ cd /proc/sys/kernel 
$ cat shmmni 


r. shmmax 
33554432 
$ cat shmall 
2097152 


Linux 特 有 的 shmctl() IPC_INFO 操 作 返 回 一 个 类 型 为 shminfo 的 结 
构 ， 它 包含 了 各 个 共享 内 存 限 制 的 值 。 


struct shminfo buf; 





shmct1(0, IPC INFO, (struct shmid ds *) &buf); 


相关 的 Linux 特 有 的 SHM_INFO 操 作 返 回 一 个 类 型 为 shm_info 的 结 
构 ， 它 包含 了 共享 内 存 对 象 所 消耗 的 实际 资源 相关 的 信息 。 本 书 随 市 的 
源 代码 的 svshm/svshm_info.c 文 件 中 提供 了 一 个 使 用 SHM_INFO 的 例子 。 


有 关 IPC_INFO、SHM_INFO 以 及 shminfo 和 shm_info 结 构 的 细节 可 
以 在 shmct1(2) 手 册 中 找到 。 





= 


#248-2: System V 共 享 内 存 限 种 


thi) 最 大 值 (x86-32) /proc/sys/kernel 中 对 应 的 文件 














32768 (IPCMNI) 
依赖 于 可 用 内 存 
依赖 于 可 用 内 存 











48.10 “总结 


共享 内 存 允 许 两 个 或 多 个 进程 共享 内 存 的 同一 个 分 页 。 通 过 共 宇 内 
存 交 换 数据 无 需 内 核 干涉。 一 旦 一 个 进程 将 数据 复制 进 一 个 共享 内 存 段 
中 之 后 ， 数 据 将 会 立即 对 其 他 进程 可 见 。 共 享 内 存 是 一 种 快速 的 IPC 机 
制 ， 尽 管 这 种 速度 上 的 提升 通 间 会 因 必须 要 使 用 茶 种 同步 技术 而 被 抵消 
掉 一 部 分 ， 如 使 用 一 个 System V 信 号 量 来 同步 对 共享 内 存 的 访问 。 


在 附加 一 个 共享 内 存 段 时 推荐 的 做 法 是 允许 内 核 选择 将 段 附 加 在 进 
程 的 虚拟 地 址 空间 的 何 处 。 这 意味 着 段 在 不 同 进程 中 虚拟 地 址 可 能 是 不 
同 的 。 正 因为 这 个 原因 ， 所 有 对 段 中 地 址 的 引用 都 应 该 表示 成 为 相对 偏 
移 量 ， 而 不 是 一 个 绝对 指针 。 


更 多 信息 


[Bovet & Cesati, 2005] 介 绍 了 Linux 内 存 管理 模式 和 一 些 共 享 内 存 实 
现 方面 的 细节 。 

















48.11 习题 


48-1. 使 用 事件 标记 来 蔡 换 程序 清单 48-2 (svshm_xfr_writer.c) 和 
程序 清单 48-3 (svshm xfr reader.c) 中 的 二 元 信号 量 


48-2. 解释 为 何 程序 清单 48-3 在 for 循 环 被 修改 成 如 下 形式 时 会 错误 
地 报告 了 传输 字 节 数 。 


for (xfrs = 0, bytes = 0; shmp->cnt != 0; xfrs++, bytes += shmp->cnt) { 
reserveSem(semid, READ SEM); /* Wait for our turn */ 


if (write(STDOUT FILENO, shmp->buf, shmp->cnt) != shmp->cnt) 
fatal ("write"); 


releaseSem(semid, WRITE SEM); /* Give writer a turn */ 


48-3. 尝试 为 程序 清单 48-2 (svshm_xfr_writer.c) 和 程序 清单 48- 
3 (svshm_xfr_reader.c) 中 的 程序 中 用 来 交换 数据 的 缓冲 区 指定 不 同 大 
小 (由 常量 BUF_SIZE 定 义 ) 并 编译 这 两 个 程序 。 记 录 在 各 种 缓冲 区 大 
小 下 svshm_xfr_reader.c 的 执行 时 间 。 


48-4. 编写 一 个 程序 显示 与 共享 内 存 段 关联 的 shmid_ ds atti 2 吉 构 
(48,8 节 ) 中 的 内 容 。 段 的 标识 符 应 该 通过 命令 行 参数 来 指定 。 (Bl 
i 的 程序 ， 它 在 System V 信 号 量 上 执行 ut a ern 的 任 
>o ) 


48-5. 编写 一 个 日 录 服 务 使 之 使 用 一 个 共 圣 内 行 段 来 发 布 名 称 - 值 
对 。 程 序 需要 提供 一 个 API 来 允许 调用 者 创建 新 名 称 、 修 改 一 个 既 有 名 
称 、 删 除 一 个 既 有 名 称 以 及 获取 与 一 个 名 条 称 相关 联 的 值 。 使 用 信号 量 ; 
确保 一 个 执行 共享 内 存 段 更 新 操作 的 进程 能 够 互 斥 地 访问 段 。 


48-6. 编写 一 个 程序 (类 似 于 程序 清单 46-6 中 的 程序 ) 使 之 使 用 
shmctl() SHM_INFO 和 SHM_STAT 操 作 来 获取 和 显示 系统 中 所 有 共享 内 
存 段 列表 。 











第 49 章 ”内 人 存 映 射 


any + 可 
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用 于 see cian T 前 首先 概述 一 些 
基础 概念 。 





49.1 概述 


mmap0 〇 系统 调 用 在 调用 进程 的 虚拟 地 址 空间 中 创建 一 个 新 内 存 映 
财 。 映 冉 分 为 两 种 。 


文件 映 财 : 文件 映射 将 一 个 文件 的 一 部 分 直接 映射 到 调用 进程 的 虚 
拟 内 存 中 。 一 旦 一 个 文件 被 映射 之 后 就 可 以 通过 在 相应 的 内 存 区 域 
中 操作 字 节 来 访问 文件 内 容 了 。 了 映射 的 分 页 会 在 需要 的 时 候 从 文件 
人 
匿名 映射 : 一 个 匿名 映射 没有 对 应 的 文件 。 相 反 ， 这 种 映射 的 分 页 
会 被 初始 化 为 0。 


为 一 种 看 竺 匿名 映射 的 角度 “并 且 也 接近 于 事实 ) 是 
把 它 看 成 是 一 个 内 容 总 是 被 初始 化 为 0 的 虚拟 文件 的 映射 。 


一 个 进程 的 映射 中 的 内 存 可 以 与 其 他 进程 中 的 映射 共享 “ 即 各 个 进 
人 





E gee ene peer rst ee 

目 同 分 页 。 

。 通过 forkO 创 建 的 子 进 程 会 继承 其 父 进程 的 映射 的 副本 ， 并 且 这 些 
映射 所 引用 的 物理 内 存 分 页 与 父 进程 中 相应 映射 所 引用 的 分 页 相 
同 。 





当 两 个 或 更 多 个 进程 共享 相同 分 页 时 ， 每 个 进程 都 有 可 能 会 看 到 其 
人 


。 私 有 了 映射 CMAP PRIVATE) : 在 映射 内 容 上 发 生 的 变更 对 其 他 进 


程 不 可 见 ， 对 于 文件 映射 来 讲 ， 变 更 将 不 会 在 底层 文件 上 进行 。 尽 
管 一 个 私有 映射 的 分 页 在 上 面 介绍 的 情况 中 初始 时 是 共享 的 ， 但 对 
映射 内 容 所 做 出 的 变更 对 各 个 进程 来 讲 则 是 私有 的 。 内 核 使 用 了 写 
时 复制 (copy-on-write》 技 术 完 成 了 这 个 任务 (参见 24.2.3 节 ) 。 这 
意味 着 每 当 一 个 进程 试图 修改 一 个 分 页 的 内 容 时 ， 内 核 首 先 会 为 该 
进程 创建 一 个 新 分 页 并 将 需 修改 的 分 页 中 的 内 容 复 制 到 新 分 页 中 

(以 及 调整 进程 的 页 表 )〉 。 正 因为 这 个 原因 ，MAP_PRIVATE 映 射 
有 时候 会 被 称 为 私有 、 写 时 复制 映射 。 

共享 映射 CMAP SHARED) : 在 映射 内 容 上 发 生 的 变更 对 所 有 共 
享 同一 个 映射 的 其 他 进程 都 可 见 ， 对 于 文件 映射 来 讲 ， 变 更 将 会 发 
生 在 底层 的 文件 上 。 


上 面 介绍 的 两 个 映射 特性 (文件 与 匿名 以 及 私有 和 共 圣 〉 可 以 以 四 





种 不 同 的 方式 加 以 组 合 ， 表 49-1 对 此 进行 了 总 结 。 





表 49-1: 各 种 内 存 映射 的 用 途 






































内 存 映 射 TO;， 进程 间 共 享 内 存 CPC) 进程 间 共 享 内 存 (IPC) 














这 四 种 不 同 的 内 存 映 射 的 创建 和 使 用 方式 如 下 所 述 。 


私有 文件 映射 : 映射 的 内 容 被 初始 化 为 一 个 文件 区 域 中 的 内 容 。 多 
个 映射 同一 个 文件 的 进程 初始 时 会 共享 同样 的 内 存 物理 分 页 ， 但 系 
统 使 用 写 时 复制 技术 使 得 一 个 进程 对 映射 所 做 出 的 变更 对 其 他 进程 
不 可 见 。 这 种 映射 的 主要 用 途 是 使 用 一 个 文件 的 内 容 来 初始 化 一 块 
内 存 区 域 。 一 些 常 见 的 例子 包括 根据 二 进 制 可 执行 文件 或 共享 库 文 
件 的 相应 部 分 来 初始 化 一 个 进程 的 文本 和 数据 段 。 

私有 匿名 映射 : 每 次 调用 mmap0O 创 建 一 个 私有 匿名 映射 时 都 会 产生 
一 个 新 映射 ， 该 映射 与 同一 《或 不 同 ) 进程 创建 的 其 他 匿名 映射 是 
不 同 的 〈 即 不 会 共享 物理 分 页 ) 。 尽 管子 进程 会 继承 其 父 进程 的 映 
射 ， 但 写 时 复制 语义 确保 在 fork0 之 后 父 进 程 和 子 进程 不 会 看 到 其 
他 进程 对 上 映射 所 做 出 的 变更 。 私 有 匿名 映射 的 主要 用 途 是 为 一 个 进 
Res Boer CASI) 内 存 〈 如 在 分 配 大 块 内 存 时 mallocO 会 为 此 
而 使 用 mmapO) 。 








共享 文件 映射 : 所 有 映射 一 个 文件 的 同一 区 域 的 进程 会 共享 同样 的 
内 存 物 理 分 页 ， 这 些 分 页 的 内 容 将 被 初始 化 为 该 文件 区 域 。 对 映射 
内 容 的 修改 将 直接 在 文件 中 进行 。 这 种 映射 主要 用 于 两 个 用 途 。 第 
一 ， 它 允许 内 存 映射 IO， 这 表示 一 个 文件 会 被 加 载 到 进程 的 虚拟 
内 存 中 的 一 个 区 域 中 并 且 对 该 块 内 容 的 变更 会 自动 被 写 入 到 这 个 文 
件 中 。 因 此 ， 内 存 映射 TO 为 使 用 read0 和 write0) 来 执行 文件 MO 这 种 
做 法 提供 了 一 种 替代 方案 。 这 种 映射 的 第 二 种 用 途 是 允许 无 关 进 程 
共享 一 块 内 容 以 便 以 一 种 类 似 于 System V 共 享 内 存 段 〈 第 48 章 ) 的 
FARHAT CR) IPC. 

共享 匿名 映射 : 与 私有 匿名 映射 一 样 ， 每 次 调用 mmapO 创 建 一 个 共 
享 匿 名 上 映射 时 都 会 产生 一 个 新 的 、 与 任何 其 他 映射 不 共享 分 页 的 截 
然 不 同 的 映射 。 这 里 的 差别 在 于 映射 的 分 页 不 会 被 写 时 复制 。 这 意 
味 着 当 一 个 子 进 程 在 fork0 之 后 继承 映射 时 ， 父 进程 和 子 进程 共享 
同样 的 RAM 分 页 ， 并 且 一 个 进程 对 映射 内 容 所 做 出 的 变更 会 对 其 
他 进程 可 见 。 共 享 匿名 映射 允许 以 一 种 类 似 于 System V 共 享 内 存 段 
的 方式 来 进行 IPC， 但 只 有 相关 进程 之 间 才 能 这 么 做 。 


在 本 章 余 下 的 部 分 中 将 分 别 介绍 各 种 映射 的 细节 信息 。 
一 个 进程 在 执行 execO 时 映射 会 丢失 ， 但 通过 fork0O 创 建 的 子 进程 会 








继承 映射 ， 映 射 类 型 CMAP PRIVATE 或 MAP SHARED) 也 会 被 继 


TK « 


与 一 





通过 Linux 特 有 的 /procPID/mmaps 文 件 能 够 查看 在 48.5 节 中 介绍 过 的 
个 进程 的 映射 有 关 的 所 有 信息 。 


mmap() 的 男 一 个 用 途 是 与 POSIX 共 享 内 存 对 象 一 起 使 
用 ， 它 允许 无 关 进 程 在 不 创建 关联 磁盘 文件 〈 共 享 文件 上映 
射 需要 这 样 的 文件 ) 的 情况 下 共享 一 块 内 存 区 域 。 第 54 章 
将 会 介绍 POSIX 共 享 内 存 对 象 。 


49.2 ”创建 一 个 映射 mmap() 
mmap() 系 统 调用 在 调用 进程 的 虚拟 地 址 空间 中 创建 一 个 新 映射 。 





#include <sys/mman.h> 


void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset); 








Returns starting address of mapping on success, or MAP_FAILED on error 





addr 参 数 指定 了 映射 被 放置 的 虚拟 地 址 。 如 果 将 addr 指 定 为 
NULL， 那 么 内 核 会 为 映射 选择 一 个 合适 的 地 址 。 这 是 创建 映射 的 首选 
做 法 。 或 者 在 addr 中 指定 一 个 非 NULL 值 时 ， 内 核 会 在 选择 将 映射 放置 
在 何 处 时 将 这 个 参数 值 作 为 一 个 提示 信息 来 处 理 。 在 实践 中 ， 内 核 至 少 
会 将 指定 的 地 址 舍 入 到 最 近 的 一 个 分 页 边界 处 。 不 管 采 用 何 种 方式 ， 内 
核 会 选择 一 个 不 与 任何 既 有 了 映射 冲突 的 地 址 。 (如 果 在 flags 包 含 了 
MAP_FIXED， 那 么 addr 必 须 是 分 页 对 齐 的 。 在 49.10 节 中 将 会 对 这 个 标 
记 进 行 介 绍 。) 


成 功 时 mmap0O 会 返回 新 映射 的 起 始 地 址 。 发 生 错 误 时 mmap0O 会 返 
回 MAP_FAILED。 


fELinux 〈 以 及 大 多 数 其 他 UNIX 实 现 ) E, 
MAP_FAILED 常 量 等 同 于 ((void *) -1)。 但 SUSv3 规 定 了 这 
个 常量 值 ， 因 为 C 标 准 无 法 确保 能 够 将 ((void *) -1) 与 成 功 
的 mmapO 调 用 的 返回 值 区 分 开 来 。 





length 参 数 指定 了 映射 的 字 节 数 。 尺 管 length 无 需 是 一 个 系统 分 页 大 
小 (sysconf(_SC_PAGESIZE) 返 回 值 ) 的 倍数 ， 但 内 核 会 以 分 页 大 小 为 
ae 因此 实际 上 length 会 被 向 上 提升 为 分 页 大 小 的 下 一 个 


prot 参 数 是 一 个 位 掩 码 ， 它 指定 了 施加 于 映射 之 上 的 保护 信息 ， 其 
取 值 要 么 是 PROT_NONE， 要 么 是 表 49-2 中 列 出 的 其 他 三 个 标记 的 组 合 
(WOR) 。 


表 49-2: 内 存 保护 值 


PROT_NONE 区 域 无 法 访问 


PROT_READ 区 域内 容 可 读 取 
PROT_WRITE 区 域内 容 可 修改 
PROT_EXEC 区 域内 容 可 执行 











flags 参 数 是 一 个 控制 映射 操作 各 个 方面 的 选项 的 位 掩 码 。 这 个 掩 码 
必须 只 包含 下 列 值 中 一 个 。 


MAP_PRIVATE 


创建 一 个 私有 映射。 区 域 中 内 容 上 所 发 生 的 变更 对 使 用 同一 映射 的 
A 
RE Es 


MAP_SHARED 


创建 一 个 共享 映射 。 区 域 中 内 容 上 所 发 生 的 变更 对 使 用 
MAP_SHARED 特 性 映射 同一 区 域 的 进程 是 可 见 的 ， 对 于 文件 映射 来 
讲 ， 所 发 生 的 变更 将 直接 反应 在 底层 文件 上 。 对 文件 的 更 新 将 无 法 确保 
立即 生效 ， 有 具体 可 参加 49.5 节 中 对 msync0O 系 统 调用 的 介绍 。 








除了 MAP_PRIVATE 和 MAP_SHARED 之 外 ， 在 flags 中 还 可 以 有 选 
择 地 对 其 他 标记 取 OR。 在 49.6 和 49.10 节 中 将 会 对 这 些 标记 进行 介绍 。 


剩余 的 参数 rdt 和 offset 是 用 于 文件 映射 的 “匿名 映射 将 忽略 它们 ) 。 
fd 参数 是 一 个 标识 被 映射 的 文件 的 文件 撕 述 符 。offset 参 数 指定 了 映射 在 
文件 中 的 起 点 ， 它 必须 是 系统 分 页 大 小 的 倍数 。 要 映射 整个 文件 就 需要 
将 offset 指 定 为 0 并 且 将 length 指 定 为 文件 大 小 。 在 49.5 市 中 将 会 介绍 更 多 








有 关 文 件 映射 的 内 容 。 
有 关内 存 保护 的 更 多 细节 


前 面 提 过 mmap0 prot 参 数 指定 了 新 内 存 映射 上 的 保护 信息 。 这 个 参 
数 可 以 取 PROT_NONE 或 者 PROT_READ、PROT _ WRITE、 以 及 
PROT_EXEC 中 一 个 或 多 个 标记 的 掩 码 。 如 果 一 个 进程 在 访问 一 个 内 存 
区 域 时 违反 了 该 区 域 上 的 保护 位 ， 那 么 内 核 会 回 该 进程 发 送 一 个 
SIGSEGV 信 号 。 





尽管 SUSv3 规 定 SIGSEGV 应 该 被 用 来 通知 内 存 保护 违 
背 ， 但 在 一 些 实 现 上 使 用 的 则 是 SIGBUS 。 


标记 为 PROT_NONE 的 分 页 内 存 的 一 个 用 途 是 作为 一 个 进程 分 配 的 
内 存 区 域 的 起 始 位 置 或 结束 位 置 的 守护 分 页 。 如 果 进 程 意外 地 访问 了 其 
中 一 个 被 标记 为 PROT_NONE 的 分 页 ， 那 么 内 核 会 通过 生成 一 个 
SIGSEGV 信 号 来 通知 该 进程 这 样 一 个 事实 。 


内 存 保护 信息 驻 留 在 进程 私有 的 虚拟 内 存 表 中 。 因 此 ， 不 同 的 进程 
可 能 会 使 用 不 同 的 保护 位 来 映射 同一 个 内 存 区 域 。 


使 用 mprotect0 系 统 调用 〈50.1 节 ) 能 够 修改 内 存 保护 位 。 


在 一 些 UNIX 实 现 上 ， 实 际 施 加 于 一 个 映射 分 页 上 的 保护 位 于 在 prot 
中 指定 的 信息 可 能 不 完全 一 致 。 特 别 地 ， 底 层 硬件 在 保护 粒度 上 的 限制 
(如 老式 的 x86-32 架 构 ) 意味 着 在 很 多 UNIX 实 现 上 PROT_READ 会 隐 舍 
PROT_EXEC， 反 之 亦 然 ， 并 且 在 一 些 实现 上 指定 PROT_WRITE 会 隐 合 
PROT_READ。 但 应 用 程序 不 应 该 依赖 于 这 种 行为 ;prot 指 定 的 信息 应 
该 总 是 与 所 需 的 内 存 保护 信息 一 致 。 








现代 x86-32 架 构 为 将 页 表 标 记 为 NX (no execute) 提供 


了 硬件 支持 ， 并 且 自 内 核 2.6.8 起 ，Linux 利 用 这 个 特性 来 合 
适 地 分 隔 Linux/x86-32 上 的 PROT_READ 和 PROT_EXEC 权 
限 。 


标准 中 规定 的 对 offset 和 addr 的 对 齐 约 束 


SUSv3 规 定 mmapO 的 offset 参 数 必 须要 与 分 页 对 齐 ， 而 addr 参 数 在 指 
定 了 MAP_FIXED 的 情况 下 也 必须 要 与 分 页 对 齐 。Linux 遵 循 了 这 些 要 
求 ， 但 后 面 又 发 现 SUSv3 的 要 求 与 之 前 的 标准 提出 的 要 求 是 不 同 的 ， 之 
前 的 标准 对 这 些 参 数 的 要 求 要 低 一 些 。SUSv3 中 的 措辞 会 (不 必要 地 ) 
导致 一 些 之 前 符合 标准 的 实现 变 得 不 符合 标准 了 。SUSv4 则 放宽 了 这 方 
面 的 要 求 : 


e 一 个 实现 可 能 会 要 求 offset 为 系统 分 页 大 小 的 倍数 。 

e 如 果 指 定 了 MAP_FIXED， 那 么 一 个 实现 可 能 会 要 求 addr 是 分 页 对 
齐 的 。 

e 如 果 指 定 了 MAP _FIXED 并 且 addr 为 非 零 值 ， 那 么 addr 和 offset 除 以 
系统 分 页 大 小 所 得 的 余数 应 该 相等 。 











mprotect(). msync() LA &munmap()'# Haddar A Ath EE 
类 似 的 情况 。SUSv3 规 定 这 个 参数 必须 是 分 页 对 齐 的 。 
SUSv4 表 示 一 个 实现 可 以 要 求 这 个 参数 是 分 页 对 齐 的 。 


示例 程序 
程序 清单 49-1 演 示 了 如 何 使 用 mmap(0 来 创建 一 个 私有 文件 映射 。 这 
个 程序 是 一 个 简单 版 本 的 cat(1D)， 它 将 映射 通过 命令 行 参 数 指定 的 〈 整 
个 ) 文件 ， 然 后 将 映射 中 的 内 容 写 入 到 标准 输出 中 。 
程序 清单 49-1: 使 用 mmap0 创 建 一 个 私有 文件 映射 














#include <sys/mman.h> 
#include <sys/stat.h> 
#include <fcntl.h> 

#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


char *addr; 
int fd; 
struct stat sb; 


if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s file\n", argv[0o]); 


fd = open(argv[1], O_RDONLY); 
if (fd == -1) 
errExit("open"); 
/* Obtain the size of the file and use it to specify the size of 
the mapping and the size of the buffer to be written */ 


if (fstat(fd, &sb) == -1) 
errExit("fstat"); 


addr = mmap(NULL, sb.st_size, PROT READ, MAP PRIVATE, fd, 0); 
if (addr == MAP FAILED) 
errExit("mmap"); 


if (write(STDOUT FILENO, addr, sb.st size) != sb.st size) 
fatal("partial/failed write"); 
exit(EXIT SUCCESS); 


mnap/mmcat.c 


mnap/mmcat.c 


49.3 解除 映射 区 域 : munmap() 


munmapO 系 统 调 用 执行 与 nmap(O0 相 反 的 操作 ， 即 从 调用 进程 的 虚 
拟 地 址 空间 中 删除 一 个 映射 。 





#include <sys/mman.h> 


int munmap(void *addr, size_t length); 


Returns 0 on success, or -1 on error 











addr 人 参数 是 竺 解除 映射 的 地 址 范围 的 起 始 地 址 ， 它 必须 与 一 个 分 页 
边界 对 齐 。 〈SUSv3 规 定 addr 必 须 是 分 页 对 齐 的 。SUSv4 表 示 一 个 实现 
可 以 要 求 这 个 参数 是 分 页 对 齐 的 。) 


length 参 数 古 一 个 非 负 整数 ， 它 指定 了 答 解 除 映 射 区 域 的 大 小 〈 字 
= o WA AY ART KKI BM ac HE A E > BRR 


一 般 来 讲 通常 会 解除 整个 映射 。 因 此 可 以 将 addr 指 定 为 上 一 个 
mmapO 调 用 返回 的 地 址 ， 并 且 length 的 值 与 nmapO 调 用 中 使 用 的 length 
的 值 一 样 。 下 面 是 一 个 例子 。 
addr = mmap(NULL, length, PROT_ READ | PROT WRITE, MAP_PRIVATE, fd, 0); 


if (addr == MAP_FAILED) 
errExit("mmap"); 


/* Code for working with mapped region */ 


if (munmap(addr, length) == -1) 
errExit("munmap"); 


RA tH, BY DA ARE RT EB BRD, OPE JOR RT BR Seu 
给 ， 要 么 会 被 分 成 两 个 ， 这 取决 于 在 何 处 开始 解除 映射 。 还 可 以 指定 一 
个 路 越 多 个 映射 的 地 址 范围 ， 这 样 的 话 所 有 在 范围 内 的 映射 都 会 被 解 
除 。 


如 果 在 由 addr 和 length 指 定 的 地 址 范围 中 不 存在 映射 ， 那 么 
munmap() 将 不 起 任何 作用 并 返回 0 (表示 成 功 )。 


在 解除 映射 期 间 ， 内 核 会 删除 进程 持 有 的 在 指定 地 址 范围 内 的 所 有 
内 存 锁 。 〈 内 存 锁 是 通过 mlock0 或 mlockall0) 来 建立 的 ，50.2 节 将 会 对 此 
予以 介绍 。) 

当 一 个 进程 终止 或 执行 了 一 个 exec() 之 后 进程 中 所 有 的 映射 会 自动 
被 解除 。 

为 确保 一 个 共享 文件 映射 的 内 容 会 被 写 入 到 底层 文件 中 ， 在 使 用 
munmap0O 解 除 一 个 映射 之 前 需要 调用 msyncO 《参见 49.5 节 ) 。 


49.4 文件 映射 

要 创建 一 个 文件 映射 需要 执行 下 面 的 步骤 。 

1. 获取 文件 的 一 个 描述 符 ， 通 常 通过 调用 open() 来 完成 。 

2. 将 文件 描述 符 作 为 fd 参数 传 入 mmap0 调 用 。 

执行 上 述 步 又 之 后 mmap0 会 将 打开 的 文件 的 内 容 映 射 到 调用 进程 的 
地 址 空间 中 。 一 旦 mmap0) 被 调用 之 后 就 能 够 关闭 文件 描述 符 了 ， 而 不 会 


对 映射 产生 任何 影响 。 但 在 一 些 情况 下 ， 将 这 个 文件 描述 符 保 持 在 打开 
状态 可 能 是 有 用 的 一 一 如 参见 程序 清单 49-1 以 及 参见 第 54 草 。 











除了 普通 的 磁盘 文件 ， 使 用 mmap(O 还 能 够 映射 各 种 真 
实 和 虚拟 设备 的 内 容 ， 如 硬盘 、 光 盘 以 及 /dewmenm。 





在 打开 描述 符 fd 引 用 的 文件 时 必须 要 具备 与 prot 和 flags 参 数值 下 配 
的 权限 。 特 别 地 ， 文 件 必 须 总 是 被 打开 以 允许 读 取 ， 并 且 如 果 在 flags 中 
指定 了 PROT_WRITE 和 MAP SHARED， 那 么 文件 必须 总 是 被 打开 以 允 
许 读 取 和 写 入 。 


offset 参 数 指定 了 从 文件 区 域 中 的 哪个 字 市 开始 映射 ， 它 必须 是 系 
统 分 页 大 小 的 倍数 。 将 offset 指 定 为 0 会 导致 从 文件 的 起 始 位 置 开 始 映 
射 。length 人 参数 指 定 了 映射 的 字 节 数 。offset 和 length 参 数 一 起 确定 了 文 
件 的 哪个 区 域 会 被 映射 进 内 存 ， 如 图 49-1 所 示 。 


进程 虚拟 内 存 
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\ 


内 存 地 址 递增 方向 
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图 49-1: 内 存 映射 文件 概览 


在 Linux 上 ， 一 个 文件 映射 的 分 页 会 在 首次 被 访问 时 被 
映射 进 内 存 。 这 意味 着 如 果 在 mmap0O 调 用 之 后 修改 了 文件 
区 域 ， 但 映射 的 对 应 部 分 〈 即 分 页 ) 还 没有 被 访问 过 ， 那 
么 如 果 相 应 分 页 还 没有 被 加 载 进 内 存 的话 ， 变 更 对 这 个 进 
程 可 能 是 可 见 的 。 这 个 行为 是 依赖 于 实现 的 ， 可 移植 的 应 
用 程序 应 该 避免 依赖 条 个 特定 内 核 在 这 种 场景 中 的 行为 。 








49.4.1 私有 文件 映射 
私有 文件 映射 最 常见 的 两 个 用 途 如 下 所 述 。 
© 人 允许 多 个 执行 同一 个 程序 或 使 用 同一 个 共享 库 的 进程 共享 同样 的 


CREK) 文本 段 ， 它 是 从 后 层 可 执行 文件 或 库 文件 的 相应 部 分 映 
射 而 来 的 。 








尽管 可 执行 文件 的 文本 段 通常 是 被 保护 成 只 允许 读 取 
和 执行 访问 (PROT_READ | PROT_EXEC) ， 但 在 被 映射 
时 仍然 使 用 了 MAP_PRIVATE 而 不 是 MAP_SHARED， 这 是 
因为 调试 器 或 自修 改 的 程序 能 够 修改 程序 文本 在 修改 了 
内 存 上 的 保护 信息 之 后 ) ， 而 这 样 的 变更 是 不 应 该 发 生 在 
底层 文件 上 或 影响 到 其 他 进程 的 。 











。 映射 一 个 可 执行 文件 或 共 至 库 的 初始 化 数据 段 。 这 种 映射 会 被 处 理 
成 私有 使 得 对 映射 数据 段 内 容 的 变更 不 会 发 生 在 抵 层 文件 上 。 


mmap() 的 这 两 种 用 法 通常 对 程序 是 不 可 见 的 ， 因 为 这 些 上 映射 是 由 程 
序 加 载 器 和 动态 链接 器 创建 的 。 读 者 可 以 在 48.5 节 中 给 出 
的 /procPID/maps 的 输出 中 发 现 这 两 种 映射 。 


私有 文件 映射 的 另 一 个 不 太 钊 见 的 用 途 是 简化 程序 的 文件 输入 多 
辑 。 这 与 使 用 共 孚 文件 映射 来 完成 彤 存 映射 TO《〈 下 一 布 将 子 以 介绍 ) 
类 似 ， 但 它 只 允许 文件 输入 。 


49.4.2 ”共享 文件 映射 


当 多 个 进程 创建 了 同一 个 文件 区 域 的 共 侍 映 射 时 ， 它 们 会 共享 同样 
的 内 存 物理 分 页 。 此 外 ， 对 映射 内 容 的 变更 将 会 反应 到 文件 上 。 实 际 
上 ， 这 个 文件 被 当成 了 该 块 内 存 区 域 的 分 页 存储 ， 如 图 49-2 所 示 。〈 这 
幅 图 是 简化 过 的 ， 它 并 没有 指出 映射 分 页 在 物理 内 存 中 通常 是 不 连续 的 
这 样 一 个 事实 。) 
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图 49-2: 两 个 进程 和 一 个 文件 的 同一 区 域 的 共享 映射 


共享 文件 映射 存在 两 个 用 途 : 内 存 映 射 17O 和 IPC。 下 面 将 分 别 介绍 
这 两 种 用 途 。 


内 存 映 射 VO 


由 于 共享 文件 映射 中 的 内 容 是 从 文件 初始 化 而 来 的 ， 并 且 对 映射 内 
容 所 做 出 的 变更 都 会 自动 反应 到 文件 上 ， 因 此 可 以 简单 地 通过 访问 内 存 
中 的 字 节 来 执行 文件 1O， 而 依靠 内 核 来 确保 对 内 存 的 变更 会 被 传递 到 
映射 文件 中 。 一般 来 讲 ， 一 个 程序 会 定义 一 个 结构 化 数据 类 型 来 与 磁 
盘 文 件 中 的 内 容 对 应 起 来 ， 然 后 使 用 该 数据 类 型 来 转换 映射 的 内 容 。) 
这 项 技术 被 称 为 内 存 映射 LO， 它 是 使 用 read() 和 write() 来 访问 文件 内 容 
这 种 方法 的 蔡 代 方 案 。 


内 存 映射 UO 具备 两 个 潜在 的 优势 。 
。 使 用 内 存 访问 来 取代 read0 和 write0 系 统 调 用 能 够 简化 一 些 应 用 程序 








的 逻辑 。 
在 一 些 情况 下 ， 它 能 够 比 使 用 传统 的 WO 系统 调用 执行 文件 WO 这 种 
做 法 提供 更 好 的 性 能 。 


内 存 映射 7O 之 所 以 能 够 带 来 性 能 优势 的 原因 如 下 。 


正常 的 read0 或 write0) 需 要 两 次 传输 : 一 次 是 在 文件 和 内 核 高 速 绥 剖 
区 之 间 ， 另 一 次 是 在 高 速 缓冲 区 和 用 户 空 间 绥 冲 区 之 间 。 使 用 
mmap() 束 无 需 第 二 次 传输 了 。 对 于 输入 来 讲 ， 一 旦 内 核 将 相应 的 文 
件 块 映 射 进 内 存 之 后 用 户 进 程 束 能 够 使 用 这 些 数据 了 。 对 于 输出 来 
讲 ， 用 户 进 程 仅 仪 需要 修改 内 存 中 的 内 容 ， 然 后 可 以 依靠 内 核 内 存 
管理 器 来 自动 更 新 底层 的 文件 。 

除了 节省 了 内 核 空间 和 用 户 空间 之 间 的 一 次 传输 之 外 ，mmap0 还 能 
够 通过 减少 所 需 使 用 的 内 存 来 提升 性 能 。 当 使 用 read0 或 write(O) 时 ， 
数据 将 被 保存 在 两 个 缓冲 区 中 : 一 个 位 于 用 户 空间 ， 另 一 个 位 于 内 
核 空 间 。 当 使 用 mmapO 时 ， 内 核 空 间 和 用 户 空 间 会 共享 同一 个 绥 冲 
区 。 此 外 ， 如 果 多 个 进程 正在 在 同一 个 文件 上 执行 WO， 那 么 它们 
Sea R 
子 的 消耗 。 


内 存 上 映射 TO 所 带 来 的 性 能 优势 在 在 大 型 文件 中 执行 重复 随机 访问 
时 最 有 可 能 体现 出 来 。 如 果 顺 序 地 访问 一 个 文件 ， 并 假设 执行 WO 时 使 
用 的 绥 冲 区 大 小 足够 大 以 至 于 能 够 避免 执行 大 量 的 VO 系统 调用 ， 那 么 
与 read0 和 write0 相 比 ，mmap0 带 来 的 性 能 上 的 提升 就 非常 有 限 或 者 说 
根本 就 没有 带 来 性 能 上 的 提升 。 性 能 提升 的 幅度 之 所 以 非常 有 限 的 原因 
是 不 管 使 用 何 种 技术 ， 整 个 文件 的 内 容 在 磁盘 和 内 存 之 间 只 传输 一 次 ， 
效率 的 提高 主要 得 益 于 减少 了 用 户 空 间 和 内 核 空 间 之 间 的 一 次 数据 传 
I aaa 内 存 使 用 量 的 降低 通常 是 可 以 忽 























内 存 映 射 7O 也 有 一 些 缺 点 。 对 于 小 数据 量 IVO 来 讲 ， 内 
存 映 射 /O 的 开销 〈 即 映射 、 分 页 故障 、 解 除 映射 以 及 更 新 
硬件 内 存 管理 单元 的 超前 转换 缓冲 器 ) 实际 上 要 比 简单 的 
read0 或 write0 大 。 上 此外， 有些 时 候 内 核 难 以 高 效 地 处 理 可 


写 入 映射 的 回 写 (在 这 种 情况 下 ， 使 用 msync0 或 
sync_file_range() 有 助 于 提高 效率 )。 


使 用 共享 文件 映射 的 IPC 


由 于 所 有 使 用 同样 文件 区 域 的 共享 映射 的 进程 共享 同样 的 内 存 物理 
分 页 ， 因 此 共享 文件 映射 的 第 二 个 用 途 是 作为 一 种 《快速 的 ) IPC 方 
法 。 这 种 共享 内 存 区 域 与 System V 共 享 内 存 对 象 〈 第 48 章 ) 之 间 的 区 别 
在 于 区 域 中 内 容 上 的 变更 会 反应 到 搬 层 的 映射 文件 上 。 这 种 特性 对 那些 
a e a aero arcane 
古 非 常 ‘J 


示例 程序 


程序 清单 49-2 提 供 了 一 个 简单 的 例子 来 演示 如 何 使 用 mmapO 创 建 一 
个 共享 文件 映射 。 这 个 程序 首先 映射 一 个 名 称 通过 第 一 个 命令 行 参数 指 
定 的 文件 ， 然 后 打印 出 映射 区 域 起 始 位 置 的 字符 串 值 。 最 后 ， 如 果 提 供 
了 第 二 个 命令 行 参 数 ， 那 么 该 字符 串 会 被 复制 进 共 享 内 存 区 域 中 。 

下 面 的 shell 会 话 日 志 演 示 了 如 何 使 用 这 个 程序 。 下 面 首先 创建 了 一 
个 大 小 为 1024 字 节 的 文件 并 在 其 中 填 满 夫 。 
$ dd if=/dev/zero of=s.txt bs=1 count=1024 


1024+0 Tecords in 
1024+0 records out 


然后 使 用 程序 映射 这 个 文件 并 将 一 个 字符 串 复 制 进 映射 区 域 中 。 
$ ./t_mmap s.txt hello 


Current string= 
Copied "hello" to shared memory 


程序 在 打印 当前 字符 串 时 不 会 显示 任何 内 容 ， 因 为 映射 文件 的 初始 
值 是 以 null 字 节 打 头 的 〈《 即 长 度 为 零 的 字符 串 ) 。 


接 铸 再 次 使 用 程序 映射 这 个 文件 并 复制 一 个 新 字符 串 到 映射 区 域 























$ ./t_mmap s.txt goodbye 
Current string=hello 
Copied "goodbye" to shared memory 


最 后 通过 输出 文件 的 内 容 来 对 其 中 的 内 容 进行 验证 ， 每 行 显示 了 8 
个 字符 。 
$ od -c -w8 s.txt 


0000000 g o o d b y enul 


0000010 nul nul nul nul nul nul nul nul 
* 


0002000 

这 个 简单 的 程序 没有 使 用 任何 机 制 来 同步 多 个 进程 对 映射 文件 的 访 
问 。 但 现实 世界 中 的 应 用 程序 通常 需要 同步 对 共享 映射 的 访问 。 这 可 以 
通过 使 用 各 种 技术 来 完成 ， 包 括 信 号 量 〈 第 47 和 53 章 ) 和 文件 加 锁 《〈 第 
55 章 ) 。 


在 49.5 节 中 将 会 对 程序 清单 49-2 中 用 到 的 msyncO 系 统 调用 进行 解 





FE- 





程序 清单 49-2: 使 用 mmap0O 创 建 一 个 共享 文件 映射 





mnap/t_mmap.c 


#include <sys/mman.h> 
#include <fcntl.h> 
#include "tlpi_hdr.h" 


#define MEM SIZE 10 


int 
main(int argc, char *argv[]) 


char *addr; 
int fd; 


if (argc < 2 || strcemp(argv[1], "--help") == 0) 
usageErr("%s file [new-value]\n", argv[o]); 


fd = open(argv[1], O_RDWR); 
if (fd == -1) 
errExit("open"); 


addr = mmap{NULL, MEM SIZE，PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0); 
if (addr == MAP FAILED) 
errExit("mmap"); 


if (close(fd) == -1) /* No longer need “fd */ 
errExit("close"); 


printf("Current string=%.*s\n", MEM SIZE, addr); 
/* Secure practice: output at most MEM SIZE bytes */ 


if (argc > 2) { /* Update contents of region */ 
if (strlen(argv[2]) >= MEM SIZE) 
cmdLineErr("'new-value’ too large\n"); 


memset(addr, 0, MEM SIZE); /* Zero out region */ 

strncpy(addr, argv[2], MEM SIZE - 1); 

if (msync(addr, MEM SIZE, MS_SYNC) == -1) 
errExit("msync"); 


printf("Copied \"%s\" to shared memory\n", argv[2]); 
} 


exit(EXIT_ SUCCESS); 
— map/t mmap.c 
49.4.3 ”边界 情况 
在 很 多 情况 下 ， 一 个 映射 的 大 小 是 系统 分 页 大 小 的 整数 倍 ， 并 且 映 
射 会 完全 落 入 映射 文件 的 范围 之 内 。 但 这 种 要 求 不 是 必需 的 ， 下 面 来 看 
一 下 当 这 些 条 件 不 满足 时 会 发 生 什么 事情 。 
图 49-3 摘 给 了 映射 完全 落 入 映射 文件 的 范围 之 内 但 区 域 的 大 小 并 不 


是 系统 分 页 大 小 的 一 个 整数 倍 的 情况 (在 这 个 讨论 中 假设 分 页 大 小 为 
4096 字 节 ) 。 











mmap(0, 6000, prot, MAP_SHARED, fd, 0); 








字 节 偏 移 : 0 5999 6000 8191 8192 
~« P | -q4 p 
可 访问 ; 映射 到 文件 产生 SIGSEGV 


的 引用 


映射 文件 i 
(9500 字 节 ) 文件 的 真实 映射 区 域 未 被 映射 


文件 偏 移 : 0 8191 8192 9499 











图 49-3: length 不 是 系统 分 页 大 小 的 整数 倍 的 内 存 映射 


由 于 映射 的 大 小 不 是 系统 分 页 大 小 的 整数 倍 ， 因 此 它 会 被 句 上 舍 入 
到 系统 分 页 大 小 的 下 一 个 整数 倍 。 由 于 文件 的 大 小 要 大 于 这 个 被 同上 会 
入 的 大 小 ， 因 此 文件 中 对 应 字 节 会 像 图 49-3 中 那样 被 映射 。 


试图 访问 映射 结尾 之 外 的 字 节 将 会 导致 SIGSEGV 信 号 的 产生 《〈 假 
设 在 该 位 置 处 不 存在 其 他 映射 ) 。 这 个 信号 的 默认 动作 是 终止 进程 并 打 
印 出 一 个 core dump。 


当 上 映射 扩充 过 了 底层 文件 的 结尾 处 时 《参见 图 49-4) 情况 就 变 得 更 
加 复杂 了 。 与 之 前 一 样 ， 由 于 映射 的 大 小 不 是 系统 分 页 大 小 的 整数 倍 ， 
因此 筷 会 被 同上 舍 入 。 但 在 这 种 情况 下 ， 虽 然 在 同上 舍 入 区 域 “ 即 图 中 
2200 字 节 和 4095 字 节 ) 中 的 字 节 是 可 访问 的 ， 但 它们 不 会 被 映射 到 展 层 
文件 上 《由 于 在 文件 中 不 存在 对 应 的 字 节 ) ， 并 且 它 们 会 被 初始 化 为 
0 (SUSV3 对 此 进行 了 规定 )。 当 然 ， 这 些 字 市 也 不 会 与 映射 同一 个 文 
件 的 其 他 进程 共 圣 ， 即 使 它们 指定 了 足够 大 的 length 参 数 。 对 这 些 字 市 
做 出 的 变更 不 会 被 写 入 到 文件 中 。 











mmap(0, 8192, prot, MAP_SHARED, fd, 0); 
字 节 偏 移 : 0 2199 2200 4095 4096 8191 8192 


内 存 区 域 





人 se 


| 可 访问 : 被 | 可 访问 : 没有 被 产生 SIGBUS 产生 SIGSEGV 
| 映射 到 文件 ， ”映射 到 文件 的 引用 的 引用 
| | 
| | 
映射 文件 
(2200 字 节 ) 
文件 偏 移 。 0 2199 


图 49-4: 内 存 映射 扩充 过 了 映射 文件 的 结尾 


如 果 映 射 中 包含 了 超出 向 上 舍 入 区 域 中 ( 即 图 49-4 中 4096 以 及 之 后 
的 字 节 ) 的 分 页 ， 那 么 试图 访问 这 些 分 页 中 的 地 址 将 会 导致 SIGBUS 信 
号 量 的 产生 ， 即 警告 进程 文件 中 没有 区 域 与 这 些 地 址 对 应 。 与 之 前 一 
样 ， 试 图 访问 超过 映射 结尾 处 的 地 址 将 会 导致 SIGSEGV 信 号 的 产生 。 


从 上 面 的 摘 述 中 可 以 看 出 ， 创 建 一 个 大 小 超过 底层 文件 大 小 的 映射 
可 能 是 无 意义 的 。 但 通过 扩展 文件 的 大 小 《如 使 用 ftruncate0) 或 
write()) ， 可 以 使 得 这 种 映射 中 之 前 不 可 访问 的 部 分 变 得 可 用 。 


49.4.4 内 存 保 护 和 文件 访问 模式 交互 


到 目前 为 止 还 没有 详细 解释 的 一 点 是 通过 mmap0 prot 参 数 指定 的 内 
存 保护 与 映射 文件 被 打开 的 模式 之 间 的 交互 。 从 一 般 原则 来 讲 ， 
PROT_ READ 和 PROT_EXEC 保 护 要 求 被 映射 的 文件 使 用 O_RDONLY 或 
O_RDWR 打 开 ， 而 PROT_ WRITE 保护 要 求 被 映射 的 文件 使 用 
O_WRONLY 或 O_RDWR 打开 。 


然而 ， 由 于 一 些 硬件 架构 提供 的 内 存 保护 粒度 有 限 ， 因 此 情况 会 变 
得 复杂 起 来 “参见 49.2 行 )。 对 于 这 种 架构 ， 下 列 结论 是 和 运用 的 。 


。 所 有 内 存 保 护 组 合 与 使 用 O_RDWR 标记 打开 文件 是 兼容 的 。 

。 没有 内 存 保护 组 合 一 一 哪怕 仅 仪 是 PROT_WRITE 一 一 与 使 用 
O_WRONLY 标 记 打 开 的 文件 是 兼容 的 (导致 EACCES 错 误 的 发 
Æ) 。 这 与 一 些 硬件 架构 不 允许 对 一 个 分 页 的 只 写 访 问 这 样 一 个 事 





实 是 一 致 的 。 在 49.2 节 中 指出 过 在 那些 架构 上 PROT_WRITE 隐 含 
PROT_READ， 这 意味 着 如 果 分 页 可 写 入 ， 那 么 它 也 能 被 读 取 。 而 
Oey 该 操作 是 不 能 暴露 文件 的 初 
H Zr Jo 

使 用 O_RDONLY 标 记 打 开 一 个 文件 的 结果 依赖 于 在 调用 mmapO 时 
是 否 指 定 了 MAP_PRIVATE 或 MAP SHARED。 对 于 一 个 
MAP_PRIVATE 映 射 来 讲 ， 在 mmap0 中 可 以 指定 任意 的 内 存 保 护 组 
合 一 一 因为 对 MAP_PRIVATE 分 页 内 容 做 出 的 变更 不 会 被 写 入 到 文 
件 中 ， 因 此 无 法 写 入 文件 不 会 成 为 问题 。 对 于 一 个 MAP_SHARED 
映射 来 讲 ， 唯 一 与 O_RDONLY 兼 容 的 内 存 保护 是 PROT_REA 和 和 
(PROT_READ | PROT_EXEC)。 这 是 符合 逻辑 的 ， 因 为 一 个 
PROT_WRITE, MAP _ SHARED 映射 允许 更 新 被 映射 的 文件 。 


49.5 ”同步 映射 区 域 : msync() 


内 核 会 自动 将 发 生 在 MAP_SHARED 了 映射 内 容 上 的 变更 写 入 到 底层 
文件 中 ， 但 在 默认 情况 下 ， 内 核 不 保证 这 种 同步 操作 会 在 何 时 发 生 。 
(SUSvV3 要 求 一 个 实现 提供 这 种 保证 。) 


msync() 系 统 调用 让 应 用 程序 能 够 显 式 地 控制 何 时 完成 共享 映射 与 
映射 文件 之 间 的 同步 。 同 步 一 个 映射 与 底层 文件 在 多 种 情况 下 都 是 非常 
有 用 的 。 如 ， 为 确保 数据 完整 性 ， 一 个 数据 库 应 用 程序 可 能 会 调用 
msync0 强 制 将 数据 写 入 到 磁盘 上 。 调 用 msync() 还 允许 一 个 应 用 程序 确 
保 在 可 写 入 映射 上 发 生 的 更 新 会 对 在 该 文件 上 执行 read() 的 其 他 进程 可 


见 。 














#include <sys/mman.h> 


int msync(void *addr, size_t length, int flags); 


Returns 0 on success, or -1 on error 











传 给 msyncO 的 addr 和 length 参 数 指定 了 需 同 步 的 内 存 区 域 的 起 始 地 
址 和 大 小 。 在 addr 中 指定 的 地 址 必须 是 分 页 对 齐 的 ，lengh 会 被 同上 会 
入 到 系统 分 页 大 小 的 下 一 个 整数 倍 。 (SUSv3 规 定 addr 必 须要 分 页 对 
齐 。SUSv4 表 示 一 个 实现 可 以 要 求 这 个 参数 是 分 页 对 齐 的 。) 


flags 参 数 的 可 取 值 为 下 列 值 中 的 一 个 。 
MS_SYNC 


执行 一 个 同步 的 文件 写 入 。 这 个 调用 会 阻塞 直 到 内 存 区 域 中 所 有 被 
修改 过 的 分 页 航 写 入 到 撒 盘 为 止 。 


MS_ASYNC 


执行 一 个 异步 的 文件 写 入 。 内 存 区 域 中 被 修改 过 的 分 页 会 在 后 面 茶 
个 时 刻 被 写 入 磁盘 并 立即 对 在 相应 文件 区 域 中 执行 read0 的 其 他 进程 可 
见 。 








男 一 种 区 分 这 两 个 值 的 方式 可 以 表述 为 在 MS_SYNC 操 作 之 后 ， 内 





存 区 域 会 与 磁盘 同步 ， 而 在 MS_ASYNC 操 作 之 后 ， 内 存 区 域 仅 仅 是 与 
内 核 高 速 缓冲 区 同步 。 


如 果 在 MS_ASYNC 操 作 之 后 不 采取 进一步 的 动作 ， 那 
么 内 存 区 域 中 被 修改 过 的 分 页 最 终 会 作为 由 pdflush 内 核 线 
程 〈 在 Linux 2.4 以 及 之 前 的 版 本 上 是 kupdated) 执行 的 上 自动 
绥 冲 区 刷新 的 一 部 分 被 写 入 到 磁盘 。 在 Linux 上 存在 两 种 更 
快 的 发 动 输出 的 《〈 非 标准 ) 方法 。 在 msync() 调 用 之 后 可 以 
在 映射 对 应 的 文件 换 述 符 上 调用 一 个 fsync() (或 
fdatasync()) 。 这 个 调用 会 阻塞 直到 快速 缓冲 区 与 磁盘 同步 
为 止 。 或 者 可 以 使 用 posix_fadvise() 
POSIX_FADV_DONTNEED 操 作 启 动 一 个 异步 的 分 页 写 
入 。 (Linux 特 有 的 这 两 个 操作 并 没有 在 SUSv3 中 了 予以 规 
fee) 





在 flags 参 数 中 还 可 以 加 上 下 面 这 个 值 。 


MS_INVALIDATE 


使 映射 数据 的 缓存 副本 失效 。 当 内 存 区 域 中 所 有 被 修改 过 的 分 页 被 
同步 到 文件 中 之 后 ， 内 存 区 域 中 所 有 与 底层 文件 不 一 致 的 分 页 会 航标 记 
为 无 效 。 当 下 次 引用 这 些 分 页 时 会 从 文件 的 相应 位 置 处 复制 相应 的 分 页 
内 容 ， 其 结果 是 其 他 进程 对 文件 做 出 的 所 有 更 新 将 会 在 内 存 区域 中 可 


She 














与 很 多 其 他 现代 UNIX 实 现 一 样 ，Linux 提 供 了 一 个 所 谓 的 同一 虚拟 
内 存 系统 。 这 表示 内 存 映 财 和 电 速 缓冲 区 块 会 尽 可 能 地 共享 同样 的 物理 
内 存 分 页 。 因 此 通过 映射 获取 的 文件 视图 与 通过 IO 系统 调用 (read()、 
write() 等 ) 获 得 的 文件 视图 总 是 一 致 的 ， 而 msync0O 的 唯一 用 途 就 是 强制 
将 一 个 映射 区 域 中 的 内 容 写 入 到 磁盘 。 





不 管 怎样 ，SUSv3 并 没有 要 求实 现 统 一 虚拟 内 存 系统 ， 并 且 并 不 是 
所 有 的 UNIX 实 现 都 提供 了 同一 虚拟 内 存 系统 。 在 这 类 系统 上 需要 调用 
msync() 来 使 得 一 个 映射 上 发 生 的 变更 对 其 他 read0O) 该 文件 的 进程 可 见 ， 
并 有 旦 在 执行 逆 操 作 时 需要 使 用 MS_INVALIDATE 标 记 来 使 得 其 他 进程 对 
文件 所 做 出 的 写 入 对 映射 区 域 可 见 。 使 用 mmap0 和 IO 系统 调用 操作 同 
一 个 文件 的 多 进程 应 用 程序 如 果 和 希望 可 被 移植 到 不 具备 统一 虚拟 内 存 系 
统 的 系统 之 上 的 话 就 需要 恰当 使 用 msync0)。 





49.6 ”其 他 mmap0 标 记 


除了 MAP_PRIVATE 和 MAP_SHARED 之 外 ，Linux 人 允许 在 mmap() 
flags 参 数 中 包含 其 他 一 些 值 ( 取 OR)。 表 49-3 对 这 些 值 进行 了 总 结 。 除 
了 MAP_PRIVATE 和 MAP_SHARED 之 外 ， 在 SUSv3 中 仪 规定 了 
MAP_FIXED 标 记 。 


表 49-3: mmap() flags 参 数 的 位 掩 码 值 


MAP_FIXED 原样 解释 addr 参 数 (49.1075) 
将 映射 分 页 锁 进 内 存 〔 自 Linux 2.6 起 ) 


MAP HUGETLB 创建 一 个 使 用 巨 页 的 映射 〈 自 Linux 2.6.32 起 ) [4 
MAP NORESERVE 空 制 交换 空间 的 预 留 (49.945) sy 


























对 映射 数据 的 修改 是 私有 的 
填充 一 个 映射 的 分 页 CE Linux 2.6 起 ) 


发 生 在 映射 数据 上 的 变更 对 其 他 进程 可 见 3 

映 到 底层 文件 上 (与 MAP_PRIVATE 相 反 ) 
MAP_UNINITIALIZED | 不 清除 匿名 映射 〈 自 Linux 2.6.33 起 ) [ | 

下 面 提 供 了 与 表 49-3 中 列 出 的 fags 值 有 关 的 更 多 细节 信息 〈 不 包含 


MAP _ PRIVATE 和 MAP_SHARED， 因 为 之 前 已 经 介绍 过 这 两 个 标记 
lon 


MAP_ANONYMOUS 


CSE“ A RT, BARR CHP RS. 49.70 HR oe 
对 这 个 标记 进行 深入 介绍 。 


MAP_FIXED 





















































在 49.10 节 中 将 会 对 这 个 标记 进行 介绍 。 


MAP_HUGETLB ( 自 Linux 2.6.32 起 ) 


这 个 标记 在 mmapO 上 所 起 的 作用 与 SHM_HUGETLB 标 记 在 System V 
共享 内 存 段 中 所 起 的 作用 一 样 。 参 见 48.2 节 。 


MAP LOCKED ( 自 Linux 2.6 起 ) 


按照 mlockO 的 方式 预 加 载 映 射 分 页 并 将 映射 分 页 锁 进 内 存 。 在 50.2 
节 中 将 会 对 使 用 这 个 标记 所 需 的 特权 以 及 管理 其 操作 的 限制 进行 介绍 。 


MAP_NORESERVE 


这 个 标记 用 来 控制 是 否 提 前 为 映射 的 交换 空间 执行 预 留 操作 。 细 节 
信息 请 参见 49.9 节 。 


MAP POPULATE ( 自 Linux 2.6 起 ) 


填充 一 个 映 冉 的 分 页 。 对 于 文件 映 冉 来 讲 ， 这 将 会 在 文件 上 执行 一 
个 超前 读 取 。 这 意味 看 后 续 对 映射 内 容 的 访问 不 会 因 分 页 故障 而 发 生 阻 
答 ( 假 设 此 时 不 会 因 内 存 压力 而 导致 分 页 被 交换 出 去 ) 。 


MAP_UNINITIALIZED ( # Linux 2.6.33 起 ) 


指定 这 个 标记 会 防止 一 个 匿名 映射 被 清 零 。 它 能 够 带 来 性 能 上 的 提 
升 ， 但 同时 也 带 来 了 安全 风险 ， 因 为 已 分 配 的 分 页 中 可 能 会 包含 上 一 个 
进程 留 下 来 的 敏感 信息 。 因 此 这 个 标记 一 般 只 供 租 入 式 系 统 使 用 ， 因 为 
在 这 种 系统 中 性 能 是 一 个 至 关 重 要 的 因素 ， 并 且 整 个 系统 都 处 于 艇 入 式 
应 用 程序 的 控制 之 下 。 这 个 标记 只 有 在 使 用 
CONFIG_MMAP _ALLOW_UNINITIALIZED 选 项 配置 内 核 时 才 会 生 
效 。 








49.7 匿名 映射 


匿名 映射 是 没有 对 应 文件 的 一 ne 本 节 将 介绍 如 何 创 建 匿名 映 
射 以 及 私有 和 共享 匿名 映射 的 用 途 


MAP_ANONYMOUS 和 /dev/zero 


; 在 Linuxz 上 ， 使 用 mmapO 创 建 匿 名 映射 存在 两 种 不 同 但 等 价 的 方 
法 。 








。 在 flags 中 指定 MAP_ANONYMOUS 并 将 fd 指定 为 -1。 (Linux 
上 ， 当 指定 了 MAP_ANONYMOUS 之 后 会 忽略 fd 的 值 。 但 一 些 
UNIX 实 现 要 求 在 使 用 MAP_ANONYMOUS 时 将 fd 指定 为 -1， 因 此 
可 移植 的 应 用 程序 应 该 确保 它们 这 样 做 了 。 ) 





要 从 <sys/mman.h> 中 获得 MAP_ANONYMOUS 的 定义 
必须 要 定义 _BSD_SOURCE 特 性 测试 宏 或 _SVID_SOURCE 
特性 测试 宏 。Linux 提 供 了 常量 MAP_ANON 作 为 
MAP_ANONYMOUS 的 一 个 同义词 ， 其 目的 是 为 了 与 其 他 
一 些 采 用 这 种 命名 方式 的 UNIX 实 现 保持 兼容 。 


。 打开 /dev/zero 设 备 文 件 并 将 得 到 的 文件 描述 符 传 递 给 mmap0。 


/dev/zero 是 一 个 虚拟 设备 ， 当 从 中 读 取 数据 时 它 总 
会 返回 0， 而 写 入 到 这 个 设备 中 的 数据 总 会 被 丢 
弃 。/dev/zero 的 一 个 常见 用 途 是 使 用 0 来 组 装 一 个 文件 (如 
使 用 dd(1) 命 令 ) 


不 管 是 使 用 MAP_ANONYMOUS 还 是 使 用 /dev/zero 技 术 ， 得 到 的 映 
射 中 的 字 节 会 被 初始 化 为 0。 在 两 种 技术 中 ，offset 参 数 都 会 被 忽略 CA 
ae 所 以 也 无 从 指定 偏 移 量 ) 。 稍 后 将 会 介绍 使 用 这 两 种 
的 例子 。 





MAP_ANONYMOUS 和 /devzero 技 术 并 没有 在 SUSv3 
进行 规定 ， 尽 管 大 多 数 UNIX 实 现 都 支持 其 中 一 种 或 两 种 。 
之 所 以 存在 两 种 不 同 的 技术 实现 同样 的 语义 的 原因 是 其 中 
一 种 (MAP_ANONYMOUS) 源 自 BSD， 而 另 一 种 
(/dev/zero) JV A System V。 





MAP _ PRIVATE 匿名 映射 


MAP_PRIVATE 匿 名 映射 用 来 分 配 进程 私有 的 内 存 块 并 将 其 中 的 内 
容 初始 化 为 0。 下 面 的 代码 使 用 /dev/zero 技 术 创 建 了 一 个 MAP_PRIVATE 
匿名 映射 。 
fd = open("/dev/zero", O_RDWR); 
if (fd == -1) 

errExit("open"); 
addy = mmap(NULL, length, PROT_READ | PROT_WRITE, MAP_PRIVATE, fd, 0); 
if (addr == MAP FAILED) 

errExit("mmap"); 


glibc 中 的 malloc0 实 现 使 用 MAP_PRIVATE 匿 名 映射 来 
分 配 大 小 大 于 MMAP_THRESHOLD 字 节 的 内 存 块 。 这 样 在 
后 面 将 这 些 内 存 块 传递 给 free0 之 后 就 能 高 效 地 释放 这 些 块 
(通过 munmap()) 。〔 它 还 降低 了 重复 分 配 和 释放 大 内 存 


块 而 导致 内 存 分 片 的 可 能 性 。) MMAP_THRESHOLD 在 默 
认 情 况 下 是 128 kB， 但 可 以 通过 malloptO 库 函数 来 调整 这 个 
参数 。 


MAP_ SHARED 匿名 映射 


MAP_SHARED 匿 名 映射 允许 相关 进程 (如 父 进 程 和 子 进程 共享 
一 块 内 存 区 域 而 无 需 一 个 对 应 的 映射 文件 。 


MAP_SHARED 匿 名 映射 只 在 Linux 2.4 以 及 之 后 的 版 本 
上 可 用 。 


下 面 的 代码 使 用 MAP_ANONYMOUS 技 术 创 建 了 一 个 
MAP_SHARED 匿 名 映射 。 


addr = mmap(NULL, length, PROT_READ | PROT WRITE, 
MAP_SHARED | MAP_ANONYMOUS, -1, 0); 
if (addr == MAP FAILED) 
errExit("mmap"); 


如 果 在 上 面 的 代码 之 后 加 上 一 个 对 fork() 的 调用 ， 那 么 由 于 通过 
forkO 创 建 的 子 进程 会 继承 映射 ， 两 个 进程 就 会 共享 和 内存 区 域 。 


示例 程序 


程序 清单 49-3 演 示 了 如 何 使 用 MAP_ANONYMOUS 或 /dewzero 技 术 
来 在 父 进程 和 子 进程 之 间 共 享 一 个 映射 区 域 。 至 于 到 底 该 选择 何 种 技术 
则 由 在 编译 程序 时 是 否定 义 了 USE_MAP_ANON 来 确定 。 父 进程 在 调用 
fork0 之 前 将 共享 区 域 中 的 一 个 整数 初始 化 为 1。 然 后 子 进程 递增 这 个 共 
享 整数 并 退出 ， 而 父 进程 则 等 待 子 进程 退出 ， 然 后 打印 出 该 整数 的 值 。 
运行 这 个 程序 之 后 能 看 到 下 面 这 样 的 输出 。 








$ ./anon_mmap 
Child started, value = 1 
In parent, value = 2 




















程序 清单 49-3: 在 父 进程 和 子 进 程 之 间 共 享 一 个 匿名 映射 








mmap/anon_mmap.c 


#ifdef USE_MAP_ANON 

#define BSD SOURCE /* Get MAP_ANONYMOUS definition */ 
#endif 

#include <sys/wait.h> 

#include <sys/mman.h> 

#include <fcntl.h> 

#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int *addr; /* Pointer to shared memory region */ 


#ifdef USE MAP ANON /* Use MAP ANONYMOUS */ 
addr = mmap(NULL, sizeof(int), PROT_READ | PROT WRITE, 
MAP SHARED | MAP ANONYMOUS, -1, 0); 
if (addr == MAP_FAILED) 
errExit("mmap"); 


#else /* Map /dev/zero */ 
int fd; 


fd = open("/dev/zero", O RDWR); 
if (fd == -1) 
errExit("open"); 


addr = mmap(NULL, sizeof(int), PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0); 
if (addr == MAP_FAILED) 
errExit("mmap"); 


if (close(fd) == -1) /* No longer needed */ 
errExit("close"); 
#endif 
*addr = 1; /* Initialize integer in mapped region */ 
switch (fork()) { /* Parent and child share mapping */ 
case -1: 


errExit("fork"); 


case 0: /* Child: increment shared integer and exit */ 
printf("Child started, value = %d\n", *addr); 
(*addr)++; 
if (munmap(addr, sizeof(int)) == -1) 


errExit("munmap"); 
exit(EXIT_SUCCESS) ; 


default: /* Parent: wait for child to terminate */ 
if (wait(NULL) == -1) 
errExit ("wait"); 
printf("In parent, value = %d\n", *addr); 


if (munmap(addr, sizeof(int)) == -1) 
errExit("munmap" ); 
exit (EXIT SUCCESS); 


mmap/anon_mmap.c 


49.8 重新 映射 一 个 映射 区 域 : mremap() 


在 大 多 数 UNIX 实 现 上 一 旦 映射 被 创建 ， 其 位 置 和 大 小 就 无 法 改变 
了 。 但 Linux 提 供 了 (不 可 移植 的 ) mremap() 系 统 调用 来 执行 此 类 变 
更 。 





#define GNU SOURCE 
#include <sys/mman.h> 
void *mremap(void *old_address, size_t old_size, size_t new size, int flags, ...); 


Returns starting address of remapped region on success, 
or MAP_FAILED on error 














old_address 和 old_size 参 数 指定 了 需 扩 展 或 收缩 的 既 有 映射 的 位 置 和 
大 小 。 在 old_address 中 指定 的 地 址 必须 是 分 页 对 齐 的 ， 并 且 通 稼 是 一 个 
由 之 前 的 mmap0 调 用 返回 的 值 。 映 射 预 期 的 新 大 小 会 通过 new_size 参 数 
指定 。 在 old_size 和 new_size 中 指定 的 值 都 会 被 回 上 舍 入 到 系统 分 页 大 小 
的 下 一 个 整数 倍 。 


在 执行 重 映射 的 过 程 中 内 核 可 能 会 为 映射 在 进程 的 虚拟 地 址 空间 中 
重新 指定 一 个 位 置 ， 而 是 否 多 许 这 种 行为 则 是 由 flags 参 数 来 控制 的 。 它 
是 一 个 位 掩 码 ， 其 值 要 么 是 0， 要 么 包含 下 列 几 个 值 。 


MREMAP_MAYMOVE 

如 果 指 定 了 这 个 标记 ， 那 么 根据 空间 要 求 的 指令 ， 内 核 可 能 会 为 映 
射 在 进程 的 虚拟 地 址 空间 中 重新 指定 一 个 位 置 。 如 采 没 有 指定 这 个 标 
记 ， 并 且 在 当前 位 置 处 没有 足够 的 空间 来 扩展 这 个 映射 ， 那 么 就 返回 
ENOMEM 错 误 。 








MREMAP FIXED ( # Linux 2.4 起 ) 


这 个 标记 只 能 与 MREMAP_MAYMOVE 一 起 使 用 。 它 在 mremap() 中 
所 起 的 作用 与 MAP_FIXED 在 mmap() (49.1077) 中 所 起 的 作用 类 似 。 如 
果 指 定 了 这 个 标记 ， 那 么 mremap0 会 接收 一 个 额外 的 参数 void 
*new_address， 该 参数 指定 了 一 个 分 页 对 齐 的 地 址 ， 并 且 映 射 将 会 被 迁 
移 至 该 地 址 处 。 所 有 之 前 在 由 new_address 和 new_size 确 定 的 地 址 范围 之 


内 的 映射 将 会 被 解除 映射 。 


mremapO 在 成 功 时 会 返回 映射 的 起 始 地 址 。 由 于 《如果 指定 了 
MREMAP MAYMOVE 标 记 ) 这 个 地 址 可 能 与 之 前 的 起 始 地 址 不 同 ， 从 
而 导致 指 癌 这 个 区 域 中 的 指针 可 能 会 变 得 无 效 ， 因 此 使 用 mremapO 的 应 
用 程序 在 引用 映射 区 域 中 的 地 址 时 应 该 只 使 用 偏 移 量 (不 是 绝对 指针 ) 

(参见 48.6 节 ) 。 





在 Linux 上 ，realloc0) 函 数 使 用 mremap() 来 高 效 地 为 
malloc0 之 前 使 用 mmap0 MAP_ANONYMOUS 分 配 的 大 内 
存 块 重新 指定 位 置 。( 在 49.7 节 中 介绍 glibc mallocO 实 现 的 
时 候 曾 提 及 过 这 个 特性 。) 使 用 mremap0 来 完成 这 种 任务 
使 得 在 重新 分 配 空间 的 过 程 中 避免 复制 字 节 成 为 可 能 。 


49.9 MAP NORESERVE 和 过 度 利用 交换 空间 


一 些 应 用 程序 会 创建 大 〈 通 冲 是 私有 匿名 的 ) 映射 ， 但 只 使 用 映射 
区 域 中 的 一 小 部 分 。 如 特定 的 科学 应 用 程序 会 分 配 非 常 大 的 数组 ， 但 只 
使 用 其 中 一 些 散 落 在 数组 各 处 的 元 素 〈 所 谓 的 黎 踢 数组 ) 。 


如 果 内 核 总 是 为 此 类 映射 分 配 〈 或 预 留 ) 足够 的 交换 空间 ， 那 么 很 
多 交换 空间 可 能 会 被 浪 费 。 相 反 ， 内 核 可 以 只 在 需要 用 到 映射 分 页 的 时 
候 〈 即 当 应 用 程序 访问 分 页 时 ) 为 它们 预 留 交换 空间 。 这 种 方法 被 称 为 
懒 交 换 预 留 (azy swap reservation) ， 它 的 一 个 优点 是 应 用 程序 总 共 使 
用 的 虚拟 内 存量 能 够 超过 RAM 加 上 交换 空间 的 总 量 。 


换个 角度 来 看 ， 懒 交换 预 留 允许 交换 空间 被 过 度 利 用 。 这 种 方式 能 
够 很 好 地 工作 ， 只 要 所 有 进程 都 不 试图 访问 整个 映射 。 但 如 果 所 有 应 用 
程序 都 试图 访问 整个 映射 ， 那 么 RAM 和 交换 空间 就 被 耗 尽 。 在 这 种 情 
况 下 ， 内 核 会 通过 杀 死 系统 中 的 一 个 或 多 个 进程 来 降低 内 存 压 力 。 在 理 
想 情 况 下 ， 内 核 会 尝试 选择 引起 内 存 问 题 的 进程 〈 参 见 下 面 对 OOM 杀 
手 的 讨论 ) ， 但 这 是 无 法 保证 的 。 正 因为 这 个 原因 ， 有 时 候 可 能 会 选择 
防止 懒 交 换 预 留 ， 转 而 强制 系统 在 映射 被 创建 时 分 配 所 有 所 需 的 交换 空 
间 。 

内 核 如 何 处 理 交 换 空 间 的 预 留 是 由 调用 mmap(O 时 是 否 使 用 了 
MAP_NORESERVE 标 记 以 及 影响 系统 层面 的 交换 空间 过 度 利 用 操作 
的 /proc 接 口 来 控制 的 。 表 49-4 对 这 些 因素 进行 了 总 结 。 


表 49-4: 在 mmap(0 中 处 理 交 换 空间 预 留 


是 否 在 mmap() 调 用 指定 了 MAP_NORESERVE 
overcommit _ memory 值 = = 
拒绝 明显 的 过 度 利 用 允许 过 度 利用 






























































允许 过 度 利用 允许 过 度 利用 
2 irmas (PARAL 











Linux 特 有 的 /proc/sys/vmy/overcommit _ memory 文件 包含 了 一 个 整数 
值 ， 它 控制 着 内 核对 交换 空间 过 度 利用 的 处 理 。 在 2.6 之 前 的 Linux 上 这 
个 文件 中 的 整数 只 能 取 两 个 值 ，0 表 示 拒 绝 明 显 的 过 度 利用 (遵从 





e ， 大 于 0 表示 在 所 有 情况 下 都 允许 过 度 
| 用 。 


拒绝 过 度 利 用 意味 着 大 小 不 超过 当前 可 用 空 亲 内 存 的 映射 是 被 允许 
的 既 有 的 分 配 可 能 会 被 过 度 利用 《因为 它们 可 能 不 会 使 用 映射 的 所 有 
ori) 


从 Linux 2.6 起 ，1 的 含义 与 之 前 的 内 核 中 正 数 的 含义 一 样 ， 但 2 Cok 
EK) 则 会 导致 使 用 采用 严格 的 过 度 利 用 。 在 这 种 情况 下 ， 内 核 会 在 所 
有 mmap0) 分 配 上 执行 严格 的 记 账 并 将 系统 中 此 类 分 配 的 总 量 控制 在 小 于 


H Ben : 








[swap size] + [RAM size] * overcommit_ratio / 100 


overcommit_ratio 的 值 是 一 个 整数 一 一 用 百分比 表示 一 一 它 位 于 
Linux 特 有 的 /proc/sys/vm/ overcommit_ratio 文 件 中 。 这 个 文件 中 包含 的 
默认 值 是 50， 表 示 内 核 最 多 可 分 配 的 空间 为 系统 RAM 总 量 的 50%， 只 要 
所 有 进程 不 同时 试图 全 部 用 完 给 它们 分 配 的 内 存 ， 那 么 这 种 空间 的 分 配 
就 不 会 有 问题 。 


注意 过 度 利用 监控 只 适用 于 下 面 这 些 映射 。 


。 私有 可 写 映射 〈 包 括 文件 和 匿名 映射 ) ， 这 种 映射 的 交换 “开销 ”等 
于 所 有 使 用 该 映射 的 进程 为 该 映射 所 分 配 的 空间 总 和 。 

。 共 衬 匿名 映射 ， 这 种 映射 的 交换 < 开销 ”等 于 映射 的 大 小 《因为 所 有 
进程 共享 该 映射 ) 。 


为 只 读 私 有 映射 预 留 区 换 空 间 是 没有 必要 的 ， 因 为 映射 中 的 内 容 是 
不 可 变更 的 ， 从 而 无 需 使 用 交换 空间 。 共 享 文件 映射 也 不 需要 使 用 交换 
空间 ， 因 为 映射 文件 本 吴 担 当 了 映射 的 交换 空间 。 


当 一 个 子 进程 在 forkO 调 用 中 继承 了 一 个 映射 时 ， 它 将 会 继承 该 映 
射 的 MAP NORESERVE 设 置 。MAP _ NORESERVE 标 记 并 没有 在 SUSv3 
中 予以 规定 ， 它 只 在 其 他 一 些 UNIX 实 现 上 得 到 了 支持 。 














本 市 讨论 了 mmap0 调 用 在 增长 一 个 进程 的 地 址 空间 时 


是 如 何 因 系统 在 RAM 和 交换 空间 上 的 限制 而 可 能 发 生 失 败 
的 。mmap() 调 用 还 可 能 因为 磅 到 了 进程 级 别 的 RLIMIT_AS 
资源 限制 (在 36.3 节 中 了 予以 了 介绍 ) 而 发 生 失 败 ， 该 限制 
给 调用 进程 的 地 址 空间 大 小 规定 了 一 个 上 限 。 


OOM 杀 手 


上 面 提 及 过 当 使 用 知 交 换 预 留 时 ， 如 果 应 用 程序 试图 使 用 整个 映射 
的 话 就 会 导致 内 存 被 耗 尽 。 在 这 种 情况 下 ， 凡 核 会 通过 杀 和 死 进 程 来 缓解 
内 存 消 耗 情况 。 


内 核 中 用 来 在 内 存 被 耗 尽 时 选择 杀 和 死 哪个 进程 的 代码 通常 被 称 为 
out-of-memory (OOM) 杀手 。OOM 和 杀手 会 尝试 选择 杀 死 能 够 缓解 内 存 
消耗 情况 的 最 佳 进程 ， 这 里 的 “最 佳 " 是 由 一 组 因素 来 确定 的 。 如 一 个 进 
程 消耗 的 内 存 越 多 ， 它 就 越 可 能 成 为 OOM 杀 手 的 候选 目标 。 其 他 能 提 
高 一 个 进程 被 选中 的 可 能 性 的 因素 包括 进程 是 否 创建 了 很 多 子 进程 以 及 
eee CBU A TORE) 。 内 核 一 般 不 会 杀 死 下 
列 进 程 。 


。 特权 进程 ， 因 为 它们 可 能 正在 执行 重要 的 任务 。 

。 正在 访问 裸 设备 的 进程 ， 因 为 杀 死 它们 可 能 会 导致 设备 处 理 一 个 不 
可 用 的 状态 。 

。 已 经 运行 了 很 长 时 间或 已 经 消耗 了 大 量 CPU 的 进程 ， 因 为 杀 死 它们 
可 能 会 导致 丢失 很 多 “工作 ”。 


为 杀 死 被 选中 的 进程 OOM 杀手 会 问 其 发 送 一 个 SIGKILL 信 号 。 


从 2.6.11 内 核 开始 ，Linux 特 有 的 /proc/PID/oom_score 文 件 给 出 了 在 
需要 调用 OOM 杀 手 时 内 核 赋 给 每 个 进程 的 权重 。 在 这 个 文件 中 ， 进 程 
的 权重 越 大 ， 那 么 在 必要 的 时 候 被 OOM 杀 手 选中 的 可 能 性 就 越 大 。 同 
样 也 是 从 2.6.11 内 核 开 始 ，Linux 特 有 的 /procPID/oom_adj 文 件 能 够 用 来 
影响 一 个 进程 的 oom_score 值 。 这 个 文件 可 以 被 设置 成 范围 在 -16 到 +15 
之 间 的 任意 一 个 值 ， 其 中 负数 会 减 小 oom_score 值 ， 而 正 数 则 会 增 大 
oom_score 值 。 特 殊 值 -17 会 完全 将 进程 人 OOM 杀手 的 候选 目标 中 市 

















除 。 有 关 这 一 方面 的 更 多 细节 请 参考 proc(5) 手 册 。 


49.10 MAP _ FIXED 标记 


在 mmap( flags 人 参数 中 指定 MAP_FIXED 标 记 会 强制 内 核 原 样 地 解释 
addr 中 的 地 址 ， 而 不 是 只 将 其 作为 一 种 提示 信息 。 如 果 指 定 了 
MAP FIXED， 那么 addr 就 必须 是 分 页 对 齐 的 。 


- 般 来 讲 ， 一 个 可 移植 的 应 用 程序 不 应 该 使 用 MAP_FIXED， 并 且 
需要 将 addr 指 定 为 NULL， 这 样 束 允许 系统 选择 将 映射 放置 在 哪个 地 址 
处 了 。 之 所 以 需要 这 样 做 的 原因 与 48.3 节 中 解释 在 使 用 shmat() 附 加 一 个 
em V 共 享 内 存 段 时 通常 倾向 于 将 shmaddr 指 定 为 NULL 的 原因 是 一 样 


然而 ， 还 是 存在 一 种 可 移植 应 用 程序 需要 使 用 MAP_FIXED 的 情 
况 。 如 果 在 调用 mmap0O0 时 指定 了 MAP_FIXED， 并 且 内 存 区 域 的 起 始 位 
置 为 addr， 禾 再 的 langth 字 节 与 之 前 的 映射 的 分 页 重 登 / ， 那 么 重 登 的 
分 页 会 被 新 映射 答 代 。 使 用 这 个 特性 可 以 可 移植 地 将 一 个 文件 《或 多 个 
文件 ) 的 多 个 部 分 映射 进 一 块 连续 的 内 存 区 域 ， 如 下 所 述 。 


1. 使 用 mmap0 创 建 一 个 匿名 映射 (参见 49.7 市 ) 。 在 mmap() 调 用 
中 将 addr 指 定 为 NULEL 并 且 不 指定 MAP_FIXED 标 记 。 这 样 就 允许 内 核 为 
映射 选择 一 个 地 址 了 。 


2. 使 用 一 系列 指定 了 MAP_FIXED 标 记 的 mmapO 调 用 来 将 文件 区 
WRI GIER) 进 在 上 一 步 中 创建 的 映射 的 不 同 部 分 中 。 


尽管 可 以 忽略 第 一 个 步骤 而 直接 使 用 一 系列 mmap(0 MAP_FIXED 操 
作 来 在 应 用 程序 选中 的 地 址 范围 内 创建 一 组 连续 的 映射 ， 但 这 种 做 法 的 
可 移植 性 与 上 面 这 种 两 步 式 做 法 相 比 就 要 差 一 些 了 。 上 面 提 及 过 ， 一 个 
可 移植 的 应 用 程序 应 该 避免 在 固定 的 地 址 处 创建 新 映射 。 上 面 的 第 一 步 
避免 了 移植 性 问题 的 出 现 ， 因 为 这 一 步 让 内 核 选择 了 一 个 连续 的 地 址 范 
围 ， 然 后 在 该 地 址 范围 中 创建 新 映射 。 


从 Linux 2.6 开 始 ， 使 用 remap_file_pages0 〇 系统 调用 (下 一 节 介 绍 ) 
也 能 够 取得 同样 的 效果 ， 但 使 用 MAP_FIXED 的 可 移植 性 更 强 ， 因 为 
remap_file_ pagesO 是 Linux 特 有 的 。 














49.11 非 线 性 映射 : remap_file_pages() 


使 用 mmap0 创 建 的 文件 映射 是 连续 的 : 映射 文件 的 分 页 与 内 存 区 域 
的 分 页 存在 一 个 顺序 的 、 一 对 一 的 对 应 关系 。 对 于 大 多 数 应 用 程序 来 
讲 ， 线 性 映射 已 经 够 用 了 。 然 而 一 些 应 用 程序 需要 创建 大 量 的 非 线 性 映 
射 一 一 文件 分 页 的 顺序 与 它们 在 连续 内 存 中 出 现 的 顺序 不 同 的 映射 。 图 
49-5 给 出 了 一 种 非 线 性 映射 。 








虚拟 地 址 递增 方向 一 
0x4001a000 0x4001b000 0x4001c000 
内 存 区 域 内 存 区 域 的 映射 页 0 内 存 区 域 的 映射 页 ! | ”内 存 区 域 的 映射 页 2 





(12288 节 字 ) 映射 到 文件 的 页 2 映射 到 文件 的 页 1 里 射 到 文件 的 页 0 


图 49-5: 一 个 非 线 性 文件 映射 


在 上 一 节 中 介绍 了 一 种 创建 非 线 性 映射 的 方法 : 使 用 多 个 带 
MAP_FIXED 标 记 的 mmap0) 调 用 。 然 而 这 种 方法 的 伸缩 性 不 够 好 ， 其 问 
题 在 于 其 中 每 个 mmap0) 调 用 都 会 创建 一 个 独立 的 内 核 虚 拟 内 存 区 域 

(VMA) 数据 结构 。 每 个 VMA 的 配置 需要 花费 时 间 并 且 会 消耗 一 些 不 
可 交换 的 内 核 内 存 。 此 外 ， 大 量 的 VMA 会 降低 虚拟 内 存 管理 器 的 性 
能 。 特 别 地 ， 当 存在 数 以 万 计 的 VMA 时 处 理 每 个 分 页 故障 所 花费 的 时 
间 会 大 幅度 提高 。 (这 对 于 一 些 在 一 个 数据 库 文件 中 维护 多 个 不 同 视图 
的 大 型 数据 库 管理 系统 来 讲 是 一 个 问题 。) 





/procPID/maps 文 件 〈 参 见 48.5 节 ) 中 一 行 表示 一 个 
VMA。 


从 内 核 2.6 开 始 ，Linux 提 供 了 remap_file_pages() 系 统 调用 来 在 无 需 
创建 多 个 VMA 的 情况 下 创建 非 线 性 映射 ， 有 具体 如 下 。 


1. 使 用 mmap0 创 建 一 个 映射 。 
2. 使 用 一 个 或 多 个 remap_file_pages() 调 用 来 调整 内 存 分 页 和 文件 


页 之 间 的 对 应 关系 。 (remap_file_pages() 所 做 的 工作 是 操作 进程 的 页 
S 








#define _GNU SOURCE 
#include <sys/mman.h> 


int remap_file_pages(void *addr, size_t size, int prol, size_t pgoff, int flags); 


Returns 0 on success, or -1 on error 











pgoff 和 size 参 数 标识 了 一 个 在 内 存 中 的 位 置 待 改 变 的 文件 区 域 ， 
pgoff 参 数 指定 了 文件 区 域 的 起 始 位 置 ， 其 单位 是 系统 分 页 代销 
《sysconf(_SC_PAGESIZE) 的 返回 值 ) 。size 参 数 指定 了 文件 区 域 的 长 
度 ， 其 单位 为 字 节 。addr 参 数 起 两 个 作用 。 


。 它 标识 了 分 页 需 调 整 的 既 有 映射 。 换 句 话说 ，addr 必 须 是 一 个 位 于 
之 前 通过 mmapO 了 映射 的 区 域 中 的 地 址 。 
。 它 指定 了 通过 pgoff 和 size 标 识 出 的 文件 分 页 所 处 的 内 存 地 址 。 
addr 和 Size 都 应 该 是 系统 分 页 大 小 的 整数 倍 。 如 果 不 是 ， 那 么 它们 
会 被 向 下 含 入 到 最 近 的 分 页 大 小 的 整数 倍 。 
假设 使 用 了 下 面 的 mmapO 调 用 来 映射 通过 描述 符 fd 引 用 的 打开 着 的 
文件 的 三 个 分 页 ， 并 且 该 调用 将 返回 地 址 0x4001a000 赋 给 了 addr。 


ps = sysconf( SC PAGESIZE); /* Obtain system page size */ 
addr = mmap(0, 3 * ps, PROT READ | PROT WRITE, MAP SHARED, fd, 0); 


下 面 的 调用 将 会 创建 一 个 非 线性 映射 ， 如 图 49-5 所 示 。 





remap_file_pages(addr, ps, 0, 2, 0); 


/* Maps page 0 of file into page 2 of region */ 
remap file pages(addr + 2 * ps, ps, 0, 0, 0); 


/* Maps page 2 of file into page 0 of region */ 


到 现在 为 止 还 没有 对 remap_file_pagesO 中 的 其 他 两 个 参数 进行 介 


绍 。 





。 prot 参 数 会 被 忽略 ， 其 值 必须 是 0。 在 将 来 可 能 能 够 使 用 这 个 参数 来 
修改 受 remap_file_pages0 影 响 的 内 存 区 域 的 保护 信息 。 在 当前 实现 
中 ， 保 护 信 息 保 持 与 整个 VMA 上 的 保护 信息 一 致 。 








虚拟 机 和 垃圾 收集 器 是 其 他 一 些 使 用 多 个 VMA 的 应 用 
程序 ， 其 中 一 些 应 用 程序 需要 能 够 写 保护 单个 分 页 。 因 此 
人 们 预期 remap_file_pages() 将 会 还 允许 修改 一 个 VMA 中 单 
个 分 页 上 的 权限 ， 但 到 目前 为 止 这 种 特性 还 没有 被 实现 。 


。 flags 参 数 当 前 未 被 使 用 。 


在 当前 的 实现 上 ，remap_file_pages() 仪 适用 于 共享 
(MAP SHARED) 映射 。 


remap_file_pagesO0 系 统 调 用 是 Linux 特 有 的 ，SUSv3 并 没有 对 这 个 函 
数 进 行规 定 ， 并 且 其 他 UNIX 实 现 也 没有 提供 这 个 函数 。 


49.12 ”总 结 


mmap0 系 统 调 用 在 调用 进程 的 虚拟 地 址 空间 中 创建 一 个 新 内 存 映 
E whinge nL aN 


了 映射 可 以 分 为 两 种 :基于 文件 的 映射 和 匿名 映射 。 文 件 映 射 将 一 个 
文件 区 域 中 的 内 容 映射 到 进程 的 虚拟 地 址 空间 中 。 匿 名 映射 〈 通 过 使 用 
MAP_ ANONYMOUS 标记 或 映射 /dewzero 来 创建 ) 并 没有 对 应 的 文件 区 
域 ， 该 映射 中 的 字 节 会 被 初始 化 为 0。 


映射 既 可 以 是 私有 的 CMAP PRIVATE) ， 也 可 以 是 共享 的 
(MAP_SHARED) 。 这 种 差别 确定 了 在 共享 内 存 上 发 生 的 变更 的 可 见 
性 ， 对 于 文件 映射 来 讲 ， 这 种 差别 还 确定 了 内 核 是 否 会 将 映射 内 容 上 发 
生 的 变更 传递 到 底层 文件 上 。 当 一 个 进程 使 用 MAP_PRIVATE 映 射 了 一 
个 文件 之 后 ， 在 映射 内 容 上 发 生 的 变更 对 其 他 进程 是 不 可 见 的 ， 并 且 也 
不 会 反应 到 映射 文件 上 。MAP_SHARED 文 件 映 射 的 做 法 则 相反 一 一 在 
映射 上 发 生 的 变更 对 其 他 进程 可 见 并 且 会 反应 到 映射 文件 上 。 


尽管 内 核 会 自动 将 发 生 在 一 个 MAP_SHARED 映 射 内 容 上 的 变更 反 
应 到 底层 文件 上 ， 但 它 不 保证 何 时 会 完成 这 个 操作 。 应 用 程序 可 以 使 用 
msyncO 系 统 调用 来 显 式 地 控制 一 个 映射 的 内 容 何 时 与 映射 文件 进行 同 


ZV o 








内 存 映射 有 很 多 用 途 ， 包 括 : 


。 分 配 进程 私有 的 内 存 〈 私 有 匿名 上 映射) ; 
eee E eee 
BRE); 
。 在 通过 fork0 关 联 起 来 的 进程 之 间 共 享 内 存 〈 共 享 匿名 上 映射) ; 
。 执行 内 存 映 射 TO， 还 可 以 将 其 与 无 关 进 程 之 间 的 内 存 共 享 结 合 起 
来 〈 共 享 文件 映射 ) 。 


在 访问 一 个 映射 的 内 容 时 可 能 会 遇 到 两 个 信号 。 如 果 在 访问 映射 时 
违反 了 映射 之 上 的 保护 规则 (或 访问 一 个 当前 未 被 映射 的 地 址 ) ， 那 么 
就 会 产生 一 个 SIGSEGV 信 号 。 对 于 基于 文件 的 映射 来 讲 ， 如 果 访 问 的 




















映射 部 分 在 文件 中 没有 相关 区 域 与 之 对 应 ( 即 映 射 大 于 底层 文件 ) ADS 
么 就 会 产生 一 个 SIGBUS 信 和 号 。 


交换 空间 过 度 利 用 允许 系统 给 进程 分 配 比 实际 可 用 的 RAM 与 交换 
空间 之 和 更 多 的 内 存 。 过 度 利用 之 所 以 可 能 是 因为 所 有 进程 都 不 会 全 部 
用 完 为 其 分 配 的 内 存 。 使 用 MAP_NORESERVE 标 记 可 以 控制 每 个 
mmapO 调 用 的 过 度 利 用 情况 ， 而 使 用 /proc 文 件 则 可 以 控制 整个 系统 的 
过 度 利 用 情况 。 


mremapO 系 统 调用 允许 调整 一 个 既 有 了 映射 的 大 小 。 
remap_file pagesO 系 统 调用 允许 创建 非 线 性 文件 映射 。 
更 多 信息 


Linux 上 有 关 mmap(0) 的 实现 的 信息 可 以 在 [Bovet &Cesati, 2005] 中 找 
到 。 其 他 UNIX 系 统 上 有 关 mmap() 的 实现 的 信息 可 以 在 [McKusick et al., 
1996] (BSD). [Goodheart & Cox, 1994](System V Release 4) 以 及 [Vahalia, 
1996] (System V Release 4) 中 找到 。 





49.13 “习题 


49-1. 使 用 mmap0 和 memcpyO 调 用 《〈 不 是 read0 或 write0 ) 编写 一 
个 类 似 于 cp(1) 的 程序 来 将 一 个 源 文 件 复制 到 目标 文件 。 使 用 fstat() 获 
取 输 入 文件 的 大 小 ， 然 后 可 以 使 用 这 个 大 小 来 设置 所 需 的 内 存 映射 的 大 
小 ， 使 用 ftruncate0 设 置 输出 文件 的 大 小 。) 


49-2, 重 写 程序 清单 48-2 (svshm_xfr_writer.c) 和 程序 清单 48- 
3 (svshm_xfr_reader.c) 使 它们 使 用 共享 内 存 映 射 来 取代 System VIE 
内 存 o 


49-3. 编写 程序 验证 在 49.4.3 节 中 描述 的 情况 下 会 产生 SIGBUS 和 
SIGSEGV 信 号 。 


49-4. 使 用 49.10 节 中 介绍 的 MAP_FIXED 技 术 编 写 一 个 程序 来 创建 
一 个 与 图 49-5 中 给 出 的 映射 类 似 的 非 线 性 映射 。 


第 50 章 ”虚拟 内 存 操 作 
本 章 介 绍 在 进程 的 虚拟 地 址 空间 上 执行 操作 的 各 个 系统 调用 


mprotect() 系 统 调用 修改 一 块 虚拟 内 存 区域 上 的 保护 信息 。 
mlock0 和 mlockall0O 系 统 调用 将 一 块 虚拟 内 存 区 域 锁 进 物理 内 存 ， 

从 而 防止 它 被 交换 出 去 。 

mincore() 系 统 调 用 让 一 个 进程 能 够 确定 一 块 虚 拟 内 存 区 域 中 的 分 页 
是 否 驻 留 在 物理 内 存 中 。 

madvise() 系 统 调 用 让 一 个 进程 能 够 将 其 对 虚拟 内 存 区 域 的 使 用 模式 
报告 给 内 核 。 


其 中 一 些 系统 调用 只 有 与 共享 内 存 区 域 结 合 起 来 之 后 才能 够 发 挥 特 
别 的 作用 (第 48 章 、 第 49 章 以 及 第 54 章 ) ， 但 它们 可 以 被 应 用 于 一 个 进 
程 的 虚拟 内 存 中 的 任何 区 域 。 





本 章 介绍 的 技术 实际 上 与 PC 一 点 关系 也 没有 ， 之 所 以 
将 本 章 的 内 容 放 在 本 书 的 这 个 部 分 是 因为 有 时 候 将 它们 与 
FOE FE SG BOR EA 





50.1 改变 内 存 保护 : mprotect() 


mprotectO 系 统 调 用 修改 起 始 位 置 为 addr 长 度 为 langth 字 节 的 虚拟 内 
存 区 域 中 分 页 上 的 保护 。 





#include <sys/mman.h> 


int mprotect(void *addr, size_t length, int prot); 


Returns 0 on success, or -1 on error 











addr 的 取 值 必须 是 系统 分 页 大 小 (sysconf(_SC_PAGESIZE) 的 返回 
值 ) 的 整数 倍 。 (SUSv3 规 定 addr 必 须 是 分 页 对 齐 的 。SUSvV4 表 示 一 个 
实现 可 以 要 求 这 个 参数 是 分 页 对 齐 的 。) 由 于 保护 是 设置 在 整个 分 页 上 
的 ， 因 此 实际 上 length 会 被 向 上 舍 入 到 系统 分 页 大 小 的 下 一 个 整数 倍 。 


prot 参 数 是 一 个 位 掩 码 ， 它 指定 了 这 块 内 存 区 域 上 的 新 保护 ， 其 取 
值 是 PROT_NONE 或 PROT_READ、PROT_WRITE、 以 及 PROT_EXEC 
这 三 个 值 中 的 一 个 或 多 个 取 OR。 上 所 有 这 些 值 的 含义 与 它们 在 mmapO 中 
的 含义 是 一 样 的 〈 表 49-2) 。 


如 果 一 个 进程 在 访问 一 块 内 存 区 域 时 违背 了 内 存 保护 ， 那 么 内 核 就 
会 同 该 进程 发 送 一 个 SIGSEGV 信 号 。 


mprotect() 的 一 个 用 途 是 修改 原先 通过 mmap0 调 用 设置 的 映射 内 存 
区 域 上 的 保护 ， 如 程序 清单 50-1 所 示 。 这 个 程序 创建 了 一 个 最 初 拒绝 所 
有 访问 (PROT_NONE) 的 匿名 映射 ， 然 后 将 该 区 域 上 的 保护 修改 为 读 
加 写 。 在 做 出 变更 之 前 和 之 后 ， 程 序 使 用 system() 函 数 执行 了 一 个 shell 
命令 来 打印 出 与 该 映射 区 域 对 应 的 /prooPID/mmaps 文 件 中 的 内 容 ， 这 样 
WAG HS A EIA ERP ERE YS. “其实 通 过 直接 解 
Nt/proc/self/maps#t FESR ALAR a SL, 1 Bz a LAA H system() iid H xe 
ere ) 运行 这 个 程序 之 后 可 以 看 到 下 面 的 输 


$ ./t_mprotect 

Before mprotect() 

b7cde000-b7dde000 ---s 00000000 00:04 18258 /dev/zero (deleted) 
After mprotect() 

b7cde000-b7dde000 rw-s 00000000 00:04 18258 /dev/zero (deleted) 


从 上 面 输 出 的 最 后 一 行 可 以 看 出 mprotect0 已 经 将 内 存 区 域 上 的 权 
限 修 改 为 PROT_READ | PROT_WRITE。 (至 于 在 shell 输 出 中 为 何 
在 /dev/zero 后 面 出 现 了 (deleted) 字 符 串 的 原因 请 参考 48.5 节 。 ) 


程序 清单 50-1: 使 用 mprotect() 修 改 内 存 保护 











一 wmem/t mprotect.c 
#define BSD SOURCE /* Get MAP_ANONYMOUS definition from <sys/mman.h> */ 
#include <sys/mman.h> 

#include "tlpi_hdr.h" 


#tdefine LEN (1024 * 1024) 
#define SHELL FMT "cat /proc/%ld/maps | grep zero" 


#define CMD SIZE (sizeof(SHELL FMT) + 20) 
/* Allow extra space for integer string */ 


int 
main(int argc, char *argv[]) 


char cmd[CMD_SIZE]; 
char *addr; 


/* Create an anonymous mapping with all access denied */ 
addr = mmap(NULL, LEN, PROT_NONE, MAP SHARED | MAP ANONYMOUS, -1, 0); 
if (addr == MAP FAILED) 
errExit("mmap"); 
/* Display line from /proc/self/maps corresponding to mapping */ 
printf("Before mprotect()\n"); 
snprintf(cmd, CMD SIZE, SHELL_FMT, (long) getpid()); 
system(cmd); 


/* Change protection on memory to allow read and write access */ 


if (mprotect(addr, LEN, PROT READ | PROT WRITE) == -1) 
errExit("mprotect"); 


printf("After mprotect()\n"); 
system(cmd); /* Review protection via /proc/self/maps */ 


exit(EXIT SUCCESS); 


vinem/t_mprotect.c 


50.2 AÉ: mlock()#lmlockatt() 


在 一 些 应 用 程序 中 将 一 个 进程 的 虚拟 内 存 的 部 分 或 全 部 锁 进 内 存 以 
确保 它们 总 是 位 于 物理 内 存 中 是 非常 有 用 的 。 之 所 以 需要 这 样 做 的 一 个 
原因 是 它 可 以 提高 性 能 。 对 被 锁 住 的 分 页 的 访问 可 以 确保 永远 不 会 因为 
e 这 对 于 那些 需要 确保 快速 啊 应 时 间 的 应 用 程序 来 
讲 是 1 ‘Jo 


给 内 存 加 锁 的 另 一 个 原因 是 安全 。 如 果 一 个 包含 敏感 数据 的 虚拟 内 
存 分 页 永远 不 会 被 交换 出 去 ， 那 么 该 分 页 的 副本 就 不 会 被 写 入 到 磁盘 。 
如 果 该 分 页 被 写 入 到 了 人 磁盘， 那么 从 理论 上 来 讲 就 可 以 在 后 面 某 个 时 刻 
直接 从 磁盘 中 读 取 该 分 页 。 (攻击 者 可 能 会 故意 通过 运行 一 个 消耗 大 量 
内 存 的 程序 来 构造 这 种 场景 ， 从 而 强制 其 他 进程 占据 的 内 存 被 交换 到 磁 
盘 上 。) 由 于 内 核 不 保证 会 清除 交换 空间 中 保存 的 数据 ， 因 此 即使 在 进 
程 终止 之 后 也 可 能 从 交换 空间 中 读 取信 息 。〔 一 般 来 讲 ， 只 有 特权 进程 
才能 够 从 交换 设备 上 读 取 数 据 。) 























膝 上 型 计算 机 以 及 一 些 宁 面 系统 上 的 挂 起 模式 将 系统 
的 RAM 副 本 保存 到 磁盘 上 ， 不 管 是 否 存在 内 存 锁 。 








本 节 将 介绍 用 于 给 一 个 进程 的 虚拟 内 存 的 部 分 或 全 部 进行 加 锁 和 解 
锁 的 系统 调用 。 下 面 在 开始 介绍 这 些 系统 调用 之 前 首先 看 一 下 管理 内 存 
加 锁 的 资源 限制 。 


RLIMIT MEMLOCK 资 源 限 制 








在 36.3 节 中 对 RLIMIT_MEMLOCK 限 制 进行 了 简要 的 介绍 ， 它 为 一 
个 进程 能 够 锁 进 内 存 的 字 节 数 设 定 了 一 个 上 限 。 下 面 开始 对 这 个 限制 进 
行 详细 介绍 。 


在 2.6.9 之 前 的 Linux 内 核 中 ， 只 有 特权 进程 (CAP_IPC_LOCK) 才 





能 给 内 存 加 锁 ，RLIMIT_ MEMLOCK 软 资源 限制 为 一 个 特权 进程 能 够 锁 
住 的 字 节 数 设 定 一 个 上 限 。 


从 Linux 2.6.9 开 始 ， 内 存 加 锁 模 型 发 生 了 变化 ， 即 允许 非特 权 进 程 
给 一 小 段 内 存 进行 加 锁 。 这 对 于 那些 需要 将 一 小 部 分 敏感 信息 锁 进 内 存 
以 确保 这 些 信息 永远 不 会 被 写 入 到 磁盘 上 的 交换 空间 的 应 用 程序 来 讲 是 
人 
AR RE = 


。 特权 进程 能 够 锁 住 的 内 存 数 量 是 没有 限制 的 〈 即 
RLIMIT_ MEMLOCK 会 被 忽略 ); 
。 非特 权 进 程 能 够 锁 住 的 内 存 数量 上 限 由 软 限制 RLIMIT_MEMLOCK 


软 和 人 硬 RLIMIT_MEMLOCK 限 制 的 默认 值 都 是 8 个 分 页 〈 即 在 x86- 
32 上 是 32768 字 节 ) 。 

















RLIMIT MEMLOCK 限 制 影响 : 


e mlock() 和 mlockallO); 

e mmap() MAP_LOCKED 标 记 ， 该 标记 用 来 在 映射 被 创建 时 将 内 存 映 
射 锁 进 内 存 ， 有 基体 可 参见 49.6 节 中 的 描述 ; 

e shmctl() SHM_LOCK 操 作 ， 该 操作 用 来 给 System V 共 享 内 存 段 加 
锁 ， 有 具体 可 参见 48.7 节 中 的 描述 。 


由 于 虚拟 内 存 的 管理 单位 是 分 页 ， 因 此 内 存 加 锁 会 应 用 于 整个 分 
页 。 在 执行 限制 检查 时 ，RLIMIT MEMLOCK 限 制 会 被 向 下 含 入 到 最 近 
的 系统 分 页 大 小 的 整数 倍 。 


re en 个 〈 软 ) 值 ， 但 实际 上 它 定 义 了 两 个 单独 
和 限制 |， 


e 对 于 mlock()、mlockall0 以 及 mmap() MAP_LOCKED 操 作 来 讲 ， 
RLIMIT_MEMLOCK 定 义 了 一 个 进程 级 别 的 限制 ， 它 限制 了 一 个 进 
程 的 虚拟 地 址 空间 中 能 够 被 锁 进 内 存 的 字 节 数 。 

e 对 于 shmctl() SHM_LOCK 操 作 来 讲 ，RLIMIT_MEMLOCK 定 义 了 一 
个 用 户 级 别 的 限制 ， 它 限制 了 这 个 进程 的 真实 用 户 ID 在 共享 内 存 段 
中 能 够 锁 住 的 字 节 数 。 当 一 个 进程 执行 了 一 个 shmctl() SHM_LOCK 














操作 时 ， 内 核 会 检查 被 调用 进程 的 真实 用 户 ID 锁 住 的 System VIE 
内 存 的 总 字 节 数 。 如 果 待 加 锁 的 段 的 大 小 不 会 导致 总 量 违背 进程 的 
RLIMIT_MEMLOCK 限 制 ， 那 么 操作 就 会 成 功 。 


RLIMIT_MEMLOCK 在 System V 共 享 内 存 上 之 所 以 存在 不 同 语义 是 
因为 共享 内 存 段 即使 在 没有 被 附加 到 任何 一 个 进程 之 上 时 也 是 能 够 继续 
存在 的 。〈 共 享 内 存 段 只 有 在 显 式 的 shmctl( IPC_RMID 操 作 之 后 并 且 
所 有 进程 都 在 它们 的 地 址 空间 中 与 之 分 离 之 后 才 会 被 删除 。) 


给 内 存 区 域 加 锁 和 解锁 
一 个 进程 可 以 使 用 mlock0 和 munlock0 来 给 一 块 内 存 区 域 加 锁 和 解 


锁 。 








#include <sys/mman.h> 


int mlock(void *addr, size_t length); 
int munlock(void *addr, size t length); 


Both return 0 on success, or -1 on error 











mlock0O 系 统 调用 会 锁 住 调用 进程 的 虚拟 地 址 空间 中 起 始 地 址 为 addr 
长 上 度 为 length 字 市 的 区 域 中 的 所 有 分 页 。 与 传 入 其 他 一 些 与 内 存 相 关 的 
系统 调用 中 的 相应 参数 相 比 ， 这 里 的 addr 无 需 是 分 页 对 齐 的 : 内 核 会 从 
addr 下 面 的 下 一 个 分 页 边界 开始 锁 住 分 页 。 然 而 ，SUSv3 人 允许 一 个 实现 
要 求 addr 为 系统 分 页 大 小 的 整数 倍 ， 可 移植 的 应 用 程序 在 调用 mlock() 和 
munlockO 应 该 确保 这 一 点 。 


由 于 加 锁 操作 的 单位 是 分 页 ， 因 此 被 锁 住 的 区 域 的 结束 位 置 为 大 于 
length 加 addr 的 下 一 个 分 页 边界 。 例 如 ， 在 一 个 分 页 大 小 为 4096 字 节 的 
系统 上 ，mlock(2000, 4000) 调 用 会 将 0 到 8191 之 间 的 字 节 锁 住 。 


通过 查看 Linux 特 有 的 /proc/PID/status 文 件 中 的 VmLck 
能 够 找 出 一 个 进程 当前 已 经 锁 住 的 内 存 数量 。 


在 mlockO 调 用 成 功 之 后 就 能 确保 指定 区 域 中 的 分 页 会 被 锁 住 并 驻 留 
在 物理 内 存 中 。 当 没有 足够 的 物理 内 存 来 锁 住 所 有 所 请 求 的 分 页 或 请 求 
违背 RLIMIT_MEMLOCK 软 资源 限制 时 mlock() 系 统 调用 就 会 失败 。 


程序 清单 50-2 给 出 了 一 个 使 用 mlockO 的 例子 。 


munlockO 系 统 调用 执行 的 操作 与 mlockO 相 反 ， 即 删除 之 前 由 调用 
进程 创建 的 内 存 锁 。addr 和 length 参 数 被 解释 的 方式 与 它们 在 munlock() 
中 被 解释 的 方式 是 相同 的 。 给 一 组 分 页 解锁 并 不 能 确保 它们 束 不 会 驻 留 
内 存 中 了 : 只 有 在 其 他 进程 请 求 内 存 的 时 候 才 会 从 RAM 中 删除 分 
页 。 








除了 显 式 地 使 用 munlock0 之 外 ， 内 存 锁 在 下 列 情 况 下 会 被 自动 删 
除 。 


。 在 进程 终止 时 。 
。 当 被 锁 住 的 分 页 通过 munmapO 被 解除 映射 时 。 
。 当 被 锁 住 的 分 页 被 使 用 mmap() MAP_FIXED 标 记 的 映射 覆盖 时 。 


内 存 加 锁 语义 的 细节 信息 
在 下 面 的 几 个 段落 中 将 会 介绍 内 存 锁 语 义 的 一 些 细节 。 


内 存 锁 不 会 被 通过 fork0 创 建 的 子 进 程 继承 ， 也 不 会 在 execO 执 行 期 
间 被 保留 。 


当 多 个 进程 共享 一 组 分 页 时 (如 MAP_SHARED 映 射 )， 只 要 还 存 
在 一 个 进程 持 有 着 这 些 分 页 上 的 内 存 锁 ， 那 么 这 些 分 页 就 会 保持 被 锁 进 
内 存 的 状态 。 


内 存 锁 不 在 单个 进程 上 闭 加 。 如 果 一 个 进程 重复 地 在 一 个 特定 虚拟 
地 址 区 域 上 调用 mlock()， 那 么 只 会 建立 一 个 锁 ， 并 且 只 需要 通过 一 个 
munlockO 调 用 就 能 够 删除 这 个 锁 。 另 一 方面 ， 如 果 使 用 mmap0O 将 同一 
组 分 页 〈 即 同样 的 文件 ) 映射 到 单个 进程 中 的 几 个 不 同 的 位 置 ， 然 后 分 
别 给 所 有 这 些 映 射 加 锁 ， 那 么 这 些 分 页 会 保持 被 锁 进 RAM 的 状态 直到 
所 有 的 映射 都 被 解锁 为 止 。 


内 存 锁 的 加 锁 单 位 为 分 页 以 及 无 法 登 加 的 事实 意味 着 独立 地 将 








mlock0 和 munlockO 调 用 应 用 于 同一 个 虚拟 分 页 上 的 不 同 数据 结构 在 逻 
辑 上 是 不 正确 的 。 如 假设 在 同一 个 虚拟 内 存 分 页 中 存在 两 个 数据 结构 ， 
站 针 pl1 和 p2 分 别 指 问 了 这 两 个 结构 ， 接 着 执行 下 面 的 调用 。 


mlock(*p1, len1); 
mlock(*p2, len2); /* Actually has no effect */ 
munlock(*p1, len1); 


上 面 的 所 有 调用 都 会 成 功 ， 但 最 后 整个 分 页 都 会 被 解锁 ， 即 p2 指 加 
的 数据 结构 将 不 会 被 锁 进 内 存 。 


注意 shmctl() SHM_LOCK 操 作 〈48.7 节 ) 的 语义 与 mlock0 和 
mlockall() 的 语义 是 不 同 的 ， 具 体 如 下 。 


。 在 SHM_LOCK 操 作 之 后 ， 分 页 只 有 在 因 后 续 引 用 而 发 生 故障 时 才 

会 被 锁 进 内 存 。 与 之 相反 的 是 ，mlock0 和 mlockall0 调 用 在 返回 之 

前 会 将 所 有 分 页 锁 进 内 存 。 

SHM_LOCK 操 作 会 设置 共享 内 存 段 的 一 个 属性 ， 而 不 是 进程 的 属 

性 。【〔 正 因为 这 个 原因 ，/proc/PID/status VmLck 字 上 段 的 值 中 并 没有 
包含 使 用 SHM_LOCK 锁 住 的 所 有 附加 System V 共 享 内 存 段 的 大 

小 。) 这 意味 着 分 页 一 旦 因 故 障 被 锁 进 了 内 存 ， 那 么 即使 所 有 进程 
都 与 这 个 共享 内 存 段 分 离 了 ， 分 页 还 是 会 保持 驻 留 在 内 存 中 的 状 

态 。 与 之 相反 的 是 ， 使 用 mlock() 〈 或 mlockall0) 锁 进 内 存 的 区 域 

只 有 在 还 存在 进程 持 有 该 区 域 上 的 锁 时 才 会 保持 被 锁 进 内 存 的 状 











给 一 个 进程 占据 的 所 有 内 存 加 锁 和 解锁 


一 个 进程 可 以 使 用 mlockall0 和 munlockall0 给 它 占据 的 所 有 内 存 加 
锁 和 解锁 。 





#include <sys/mman.h> 


int mlockall(int flags); 
int munlockall (void); 








Both return 0 on success, or -1 on error 





mlockall() 系 统 调 用 根据 flags 位 掩 码 的 取 值 将 一 个 进程 的 虚拟 地 址 空 
间 中 当前 所 有 映射 的 分 页 或 将 来 所 有 了 映射 的 分 页 或 两 者 锁 进 内 存 ， 其 中 


flags 参 数 的 取 值 为 下 面 这 些 常量 中 的 一 个 或 多 个 取 OR。 


MCL_CURRENT 


将 调用 进程 的 虚拟 地 址 空间 中 当前 所 有 了 映射 的 分 页 锁 进 内 存 ， 包 括 
当前 为 程序 文本 段 、 数 据 段 、 内 存 映射 以 及 栈 分 配 的 所 有 分 页 。 当 指定 
了 MCL_CURRENT 标 记 的 调用 成 功 之 后 束 能 够 确保 调用 进程 的 所 有 这 
些 分 页 都 驻 留 在 了 内 存 中 。 这 个 标记 不 会 对 后 续 在 进程 的 虚拟 地 址 空间 
中 分 配 的 分 页 产生 影响 ， 要 控制 这 些 分 页 则 必须 要 使 用 
MCL FUTURE. 


MCL_FUTURE 


将 后 续 映 射 进 调 用 进程 的 虚拟 地 址 空间 的 所 有 分 页 锁 进 内 存 。 例 
如 ， 此 类 分 页 可 能 是 通过 mmap0 或 shmatO 映 射 的 一 个 共享 内 存 区 域 的 
一 部 分 ， 或 回 上 增长 的 堆 或 回 下 增长 的 栈 的 一 部 分 。 指 定 
MCL_FUTURE 标 记 的 结果 是 后 续 的 内 存 分 配 操作 (如 mmap()、sbrk0 或 
malloc()〉 可 能 会 失败 ， 或 者 栈 增长 可 能 会 产生 SIGSEGV 信 号 ， 当 然 前 
提 是 系统 已 经 没有 RAM 分 配给 进程 或 者 已 经 达到 了 
RLIMIT _ MEMLOCK 软 资源 限制 。 


通过 mlockO 创 建 的 内 存 锁 上 有 关 约 束 、 生 命 周期 以 及 继承 性 方面 的 
规则 同样 也 适用 于 通过 mlockall0 创 建 的 内 存 锁 。 


munlockall0 系 统 调 用 将 调用 进程 的 所 有 分 页 解锁 并 撤销 之 前 的 
mlockall(MCL_FUTURE) 调 用 所 产生 的 结果 。 与 munlock() 一 样 ， 这 个 调 
用 无 法 保证 会 从 RAM 中 删除 被 解锁 的 分 页 。 





在 Linux 2.6.9 之 前 ， 调 用 munlockall0 需 要 特权 
(CAP_IPC_LOCK) 《不 一 致 性 ，munlock0 无 需 特 权 ) 。 
从 Linux 2.6.9 开 始 已 经 不 再 需要 特权 了 。 


50.3 ”确定 内 存 驻 留 性 : mincore() 


mincore() 系 统 调 用 是 内 存 加 锁 系 统 调用 的 补充 ， 它 报告 在 一 个 虚拟 
地 址 范围 中 哪些 分 页 当前 驻 留 在 RAM 中 ， 因 此 在 访问 这 些 分 页 时 也 不 
会 导致 分 页 故障 。 


SUSv3 并 没有 规定 mincore0)， 很 多 UNIX 实 现 都 提供 了 这 个 函数 ， 
但 不 是 所 有 的 UNIX 实 现 都 提供 了 这 个 函数 。 在 Linux 上 从 内 核 2.4 开 始 提 
供 了 mincore()。 





#define BSD SOURCE /* Or: #define SVID SOURCE */ 
#include <sys/mman.h> 


int mincore(void *addr, size_t lengih, unsigned char *vec); 


Returns 0 on success, or -1 on error 











mincore() 系 统 调用 返回 起 始 地 址 为 addr 长 上 度 为 length 字 节 的 虚拟 地 
址 范围 中 分 页 的 内 存 驻 留 信息 。addr 中 的 地 址 必须 是 分 页 对 齐 的 ， 并 且 
由 于 返回 的 信息 是 有 关 整 个 分 页 的 ， 因 此 ]length 实 际 上 会 被 回 上 舍 入 到 
系统 分 页 大 小 的 下 一 个 整数 倍 。 


内 存 驻 留 相关 的 信息 会 通过 vec 返 回 ， 它 是 一 个 数组 ， 其 大 小 为 
(length + PAGE _SIZE -1)/PAGE_SIZE 字 节 。 (在 Linux 上 ，vec 的 类 型 
是 unsigned char *; 在 其 他 一 些 UNIX 实 现 上 ，vec 的 类 型 为 char *. ) 
个 字 贡 的 最 低 有 效 位 在 相应 分 页 驻 留 在 内 存 中 时 会 被 设置 ， 而 其 他 位 的 
设置 在 一 些 UNIX 实 现 上 是 未 定义 的 ， 因 此 可 移植 的 应 用 程序 应 该 只 测 
试 最 低 有 效 位 。 


mincoreO 返 回 的 信息 在 执行 调用 的 时 刻 与 检查 vec 中 的 元 素 的 时 刻 
期 间 可 能 会 发 生变 化 。 唯 一 能 够 确保 保持 驻 留 在 内 存 中 的 分 页 是 那些 通 
过 mlock() 或 mlockall(0) 锁 住 的 分 页 。 














在 Linux 2.6.21 之 前 ， 各 种 各 样 的 实现 问题 导致 
mincore() 无 法 正确 地 报告 MAP_PRIVATE 了 映射 和 非 线 性 映 


射 (通过 使 用 remap_file_pages0 创 建 ) 的 内 存 驻 留 信息 。 


程序 清单 50-2 演 示 了 如 何 使 用 mlock0 和 mincoreO0。 这 个 程序 首先 分 
配 并 使 用 mmap0 映 射 了 一 块 内 存 区域 ， 然 后 以 固定 的 时 间 间 隔 使 用 
mlock0) 将 整个 区 域 或 一 组 分 页 锁 进 内 存 。〔 传 给 这 个 程序 的 所 有 命令 行 
参数 的 单位 是 分 页 ， 程 序 会 将 这 些 参 数 转换 成 字 节 ， 因 为 mmap()、 
mlock0O 以 及 mincoreO 使 用 的 是 字 节 。) 在 调用 mlock0 之 前 和 之 后 ， 程 
序 使 用 mincore() 来 获取 这 个 区 域 中 分 页 的 内 存 驻 留 信息 并 图 形 化 地 将 这 
些 信息 展现 了 出 来 。 





程序 清单 50-2: 使 用 mlock() 和 mincore() 








一 wen/memlock.c 

#define BSD SOURCE /* Get mincore() declaration and MAP_ANONYMOUS 
definition from <sys/mman.h> */ 

#include <sys/mman.h> 

#include "tlpi hdr.h" 


/* Display residency of pages in range [addr .. (addr + length - 1)] */ 


static void 
displayMincore(char *addr, size t length) 


unsigned char *vec; 
long pageSize, numPages, j; 


pageSize = sysconf( SC PAGESIZE); 


numPages = (length + pageSize - 1) / pageSize; 
vec = malloc(numPages) ; 
if (vec == NULL) 

errExit("malloc"); 


if (mincore(addr, length, vec) == -1) 
errExit("mincore") ; 


for (j = 0; j < numPages; j++) { 
if (j % 64 == 0) 

printf("%s%10p: ", ( 

1 


=0)?"" : "\n", addr + (j * pageSize)); 
printf("%c", (vec[j] & "aS 


j = 
JT 和 
printf("\n"); 


free(vec); 


} 


int 
main(int argc, char *argv[]) 


char *addr; 
size t len, lockLen; 
long pageSize, stepSize, j; 


if (argc != 4 || strcmp(argv[1], "--help") == 0) 
usageErr("%s num-pages lock-page-step lock-page-len\n", argv[0]); 


pageSize = sysconf(_SC PAGESIZE); 
if (pageSize == -1) 
errExit("sysconf(_ SC PAGESIZE)"); 


len = getInt(argv[1], GN GT 0, “num-pages”) * pageSize; 
stepSize = getInt(argv[2], GN_GT_O, “lock-page-step") * pageSize; 
lockLen = getInt(argv[3], GN GT 0, “lock-page-len") * pageSize; 
addr = mmap(NULL, len, PROT READ, MAP SHARED | MAP ANONYMOUS, -1, 0); 
if (addr == MAP FAILED) 

errExit("mmap") ; 


printf("Allocated %ld (%#1x) bytes starting at %p\n", 
(long) len, (unsigned long) len, addr); 


printf("Before mlock:\n"); 
displayMincore(addr, len); 


/* Lock pages specified by command line arguments into memory */ 
for (j = 0; j + lockLen <= len; j += stepSize) 
if (mlock(addr + j, lockLen) == -1) 


errExit("mlock"); 


printf("After mlock:\n"); 
displayMincore(addr, len); 


exit(EXIT_ SUCCESS); 


vmem/memlock.c 


下 面 的 shell 会 话 给 出 了 运行 程序 清单 50-2 中 的 程序 时 输出 。 在 这 个 
例子 中 分 配 了 32 个 分 页 ， 每 组 为 8 个 分 页 ， 并 给 三 个 连续 分 页 加 锁 。 


$ su Assume privilege 
Password: 

# ./memlock 32 8 3 

Allocated 131072 (0x20000) bytes starting at 0x4014a000 
Before mlock: 

OXAOTAaOOOs sane cis eeu Tae Aare ale CRE eee ates 

After mlock: 

Ox4014a000: *** L... OME ane ERR seus REE 3 vee 


在 程序 输出 中 ， 扣 表示 分 页 不 在 内 存 中 ， 星 写 表示 分 中 驻 留 在 内 存 
a 每 组 8 个 分 页 中 有 3 个 分 页 是 驻 留 在 内 
TP HI 


在 这 个 例子 中 假设 了 超级 用 户 特 权 ， 这 样 程 序 就 能 够 使 用 mlock()。 
从 Linux 2.6.9 开 始 就 无 需 这 种 特权 了 ， 只 要 竺 加 锁 的 内 存量 不 超过 
RLIMIT_ MEMLOCK 软 资源 限制 即 可 。 








50.4 建议 后 续 的 内 存 使 用 模式 : madvise() 


madvise() 系 统 调 用 通过 通知 内 核 调用 进程 对 起 始 地 址 为 addr 长 度 为 
length 字 节 的 范围 之 内 分 页 的 可 能 的 使 用 情况 来 提升 应 用 程序 的 性 能 。 
内 核 可 能 会 使 用 这 种 信息 来 提升 在 分 页 之 下 的 文件 映射 上 执行 的 IO 的 
效率 。 《有关 文 件 映射 的 讨论 可 参考 49.4 季 。) 在 Linux 上 从 内 核 2.4 开 


始 提 供 了 madvise()。 





fidefine BSD SOURCE 
#include <sys/mman.h> 


int madvise(void *addr, size_t length, int advice); 








Returns 0 on success, or -1 on error 





addr 中 的 值 必须 是 分 页 对 齐 的 ，length 实 际 上 会 被 向 上 舍 入 到 系统 
分 页 大 小 的 下 一 个 整数 倍 。advice 参 数 的 取 值 为 下 列 之 一 。 


MADV_NORMAL 


这 是 默认 行为 。 分 页 是 以 艇 的 形式 〈 较 小 的 一 个 系统 分 页 大 小 的 整 
数 倍 ) 传输 的 。 这 个 值 会 导致 一 些 预 匈 读 和 事后 读 。 


MADV_RANDOM 


1“ DX SBA EK a} GU Se BRL TA), OE PRL SE SRE AS ot ORE ATF 
处 ， 因 此 内 核 在 每 次 读 取 时 所 取出 的 数据 量 应 该 尽 可 能 少 。 


MADV_SEQUENTIAL 


在 这 个 范围 中 的 分 页 只 会 被 访问 一 次 ， 并 且 是 顺序 访问 ， 因 此 内 核 
可 以 激进 地 预先 读 ， 并 且 分 页 在 被 访问 之 后 就 可 以 将 其 释放 了 。 
MADV_WILLNEED 

预先 读 取 这 个 区 域 中 的 分 页 以 备 将 来 的 访问 之 需 。 


MADV_WILLNEED 操 作 的 效果 与 Linux 特 有 的 readahead0 系 统 调 用 和 
posix_fadvise() POSIX_FADV_WILLNEED 操 作 的 效果 类 似 。 





MADV_DONTNEED 


调用 进程 不 再 要 求 这 个 区 域 中 的 分 页 驻 留 在 内 存 中 。 这 个 标记 的 精 
确 效 果 在 不 同 UNIX 实 现 上 是 不 同 的 。 下 面 首先 对 其 在 Linux 上 的 行为 予 
以 介绍 。 对 于 MAP_PRIVATE 区 域 来 讲 ， 映 射 分 页 会 显 式 地 被 丢弃， 这 
意味 着 所 有 发 生 在 分 页 上 的 变更 会 丢失 。 虚 拟 内 存 地 址 范围 仍然 可 访 
问 ， 但 对 各 个 分 页 的 下 一 个 访问 将 会 导致 一 个 分 页 故障 和 分 页 的 重新 初 
始 化 ， 这 种 初始 化 要 么 使 用 其 映射 的 文件 内 容 ， 要 么 在 匿名 映射 的 情况 
下 就 使 用 零 来 初始 化 。 这 个 标记 可 以 作为 一 种 显 式 初始 化 一 个 
MAP_PRIVATE 区 域 的 内 容 的 方法 。 对 于 MAP_SHARED 区 域 来 讲 ， 内 
核 在 一 些 情况 下 可 能 会 丢弃 修改 过 的 分 页 ， 这 取决 于 运行 系统 的 架构 
《在 x86 上 不 会 发 生 这 种 行为 ) 。 其 他 一 些 UNIX 实 现 的 行为 方式 与 
Linux 一 样 ， 但 在 一 些 UNIX 实 现 上 ，MADV_DONTNEED 仅 仅 是 通知 内 
核 指 定 的 分 页 在 必要 的 时 候 可 以 被 交换 出 去 。 可 移植 的 应 用 程序 不 应 该 
依赖 于 MADV_DONTNEED 在 Linux 上 的 破坏 性 语义 。 





Linux 2.6.16 增 加 了 三 个 新 的 非 标 准 advice 值 : 
MADV_DONTFORK、MADV_DOFORK 以 及 
MADV_REMOVE。Linux 2.6.32 和 2.6.33 又 增加 了 四 个 非 标 
准 的 advice 值 : MADV_HWPOISON、 

MADV_SOFT_ OFFLINE、MADV_MERGEABLE 以 及 
MADV_UNMERGEABLE。 这 些 值 是 在 特殊 情况 下 使 用 
的 ， 有 基体 可 参考 madvise(2) 手 册 。 





大 多 数 UNIX 实 现 都 提供 了 一 个 madvise0， 它 们 通常 至 少 支持 上 面 
描述 的 advice 常 量 。 然 而 SUSv3 使 用 了 一 个 不 同 的 名 称 来 标准 化 了 这 个 
API， 即 posix_madvise()， 并 且 在 相应 的 advice 常 量 上 加 上 了 一 个 前 级 字 
符 串 POSIX_。 因 此 ， 这 些 常 量变 成 了 POSIX_MADYV_NORMAL.、 
POSIX MADV_RANDOM、POSIX MADV_SEQUENTIAL、 
POSIX_MADV_WILLNEED 以 及 POSIX_MADV_DONTNEED。 在 glibc 
中 (2.2 以 及 之 后 的 版 本 ) 是 通过 调用 madvise() 来 实现 这 个 候选 接口 











的 ， 但 所 有 UNIX 实 现 都 没有 提供 这 个 接口 。 


SUSv3 表 示 posix_madvise0) 不 应 该 影响 一 个 程序 的 语 
义 。 然 而 在 版 本 2.7 之 前 的 glibc 中 ， 
POSIX_MADV_DONTNEED 操 作 是 通过 使 用 madvise() 
MADV_DONTNEED 来 实现 的 ， 而 正如 之 前 描述 的 那样 ， 
这 个 操作 会 影响 一 个 程序 的 语义 。 自 glibc 2.7 开 始 ， 
posix_madvise(O) 包 装 器 将 POSIX_MADV_DONTNEED 实 现 
为 不 做 任何 事情 ， 这 样 它 就 不 会 影响 一 个 程序 的 语义 了 。 


50.5 小结 


本 章 对 可 在 一 个 进程 的 虚拟 内 存 上 执行 的 各 种 操作 进行 了 介绍 。 


mprotect() 系 统 调用 修改 一 块 虚拟 内 存 区 域 上 的 保护 。 

mlock() 和 mlockall0) 系 统 调用 将 一 个 进程 的 虚拟 地 址 空间 中 的 部 分 
或 全 部 分 别 锁 进 物理 内 存 。 

mincore() 系 统 调用 报告 一 块 虚拟 内 存 区 域 中 哪些 分 页 当前 驻 留 在 物 
理 内 存 中 。 

madvise() 系 统 调 用 和 posix_madvise() 函 数 允 许 一 个 进程 将 其 预期 的 
内 存 使 用 模式 报告 给 内 核 。 


50.6 习题 


50-1. 编写 一 个 程序 使 其 为 RLIMIT_MEMLOCK 资 源 限制 设置 一 个 
值 之 后 将 数量 超过 这 个 限制 的 内 存 锁 进 内 存 来 验证 RLIMIT_MEMLOCK 
资源 限制 的 作用 。 


50-2. 写 一 个 程序 来 验证 madvise() MADV_DONTNEED 操 作 在 一 
个 可 写 MAP_PRIVATE 映 射 上 的 操作 。 








第 51 章 POSIX IPPC 介绍 





POSIX.1b 实 时 扩展 定义 了 一 组 IPC 机 制 ， 它 们 与 在 第 45 章 到 第 48 章 


章 中 介绍 的 System V IPC 机 制 类 似 。 (POSIX.1b 的 开发 者 的 其 中 一 个 目 
标 是 设计 出 一 组 能 弥补 System V IPC 工 具 的 不 足 之 处 的 IPC 机 制 。) 这 
些 IPC 机 制 被 统称 为 POSIX IPC。 这 三 种 POSIX IPC 机 制 具 体 如 下 。 


消息 队列 可 以 用 来 在 进程 间 传 递 消 息 。 与 System V 消 息 队 列 一 样 ， 
消息 边界 被 保留 了 下 来 ， 这 样 读者 和 写 者 就 以 消息 为 单位 《与 管道 
提供 的 无 分 隔 符 的 字 节 流 是 不 同 的 ) 进行 通信 了 。 了 POSIX 消 息 队列 
允许 给 每 个 消息 赋 一 个 优先 级 ， 这 样 在 队列 中 优先 级 较 高 的 消息 会 
排 在 优先 级 较 低 的 消息 前 面 。 这 种 功能 从 某 种 程度 上 来 讲 与 System 
V 消 息 中 的 类 型 字段 提供 的 功能 是 一 样 的 。 

信号 量 允 许多 个 进程 同步 各 自 的 动作 。 与 System V 信 号 量 一 样 ， 
POSIX 信 号 量 也 是 一 个 由 内 核 维护 的 整数 ， 其 值 永远 都 不 会 小 于 
0。 与 System V 信 号 量 相 比 ，POSIX 信 号 量 在 用 法 上 要 简单 一 些 : 
它们 是 逐个 分 配 的 (与 System V 信 和 号 量 集 相 比 ) ， 并 且 在 单个 信号 
量 上 只 能 使 用 两 个 操作 来 将 信号 量 的 值 加 1 或 减 1《〈 与 semop(O 系 统 
调用 能 原子 地 在 一 个 System V 信 号 量 集中 的 多 个 信号 量 上 加 上 或 减 
去 一 个 任意 值 相 比 ) 。 

共享 内 存 使 得 多 个 进程 能 够 共享 同一 块 内 存 区 域 。 与 System VEE 
内 存 一 样 ，POSIX 共 享 内 存 提 供 了 一 种 快速 IPC。 一 个 进程 一 旦 更 
新 了 共 吝 门 存 之 后 ， 所 发 生 的 变更 立即 对 夫 阐 同 “ 区 其 的 其 他 进 程 
PJ ILo 


本 章 将 对 各 个 POSIX IPC 工 具 进 行 概述 ， 并 着 重 介 绍 它们 的 共有 特 














51.1 API 概述 


三 种 POSIX IPC 机 制 拥有 很 多 共有 特性 。 表 51-1 对 它们 的 API 进 行 了 
总 结 ， 在 后 面 几 节 中 将 深入 介绍 它们 的 共有 特性 的 细节 信息 。 








除了 在 表 51-1 中 提 及 外 ， 本 章 剩余 的 部 分 将 不 会 特意 
指出 POSIX 信 号 量 存在 两 种 形式 这 个 事实 ; 命名 信号 量 和 
未 命名 信号 量 。 命 名 信和 号 量 与 本 章 介 绍 的 其 他 POSIX IPC 机 
制 类 似 ， 它们 遂 过 一 个 名 他 来 标识 ， 并 且 所 有 具备 在 该 对 
象 上 合适 权限 的 进程 都 能 够 访问 该 对 象 。 未 命名 信号 量 没 
有 关联 的 标识 符 ， 而 是 会 被 放置 在 由 一 组 进程 或 单个 进程 
中 的 多 个 线程 共享 的 内 存 区 域 中 。 在 53 章 将 会 对 这 两 种 信 
写 量 的 细节 予以 介绍 。 




















表 51-1: POSIX IPC 对 象 编程 接口 总 结 
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链 mq_unlinkQ) sem_unlink() shm_unlinkQ) 
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mq_send(), sem_post(), sem_wait(), 在 共享 区 域 中 的 位 置 
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置 特 ; sem_init() 初始 化 未 命名 
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取 特 性 sem_destroy() 销毁 未 命名 
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要 访问 一 个 POSIX IPC 对 象 就 必须 要 通过 某 种 方式 来 识别 出 它 。 在 
SUSv3 中 规定 的 唯一 一 种 用 来 标识 POSIX IPC 对 象 的 可 移植 的 方式 是 使 
用 以 矢 线 打头 后 面 跟着 一 个 或 多 个 非 斜 线 字符 的 名 字 ， 如 /myobject。 
Linux 和 其 他 一 些 实现 〈 如 Solaris) 人 允许 采用 这 种 可 移植 的 命名 方式 来 给 
IPC 对 象 命名 。 


在 Linux 上 ，POSIX 共 译 内 存 和 消 恩 队列 对 象 的 名 字 的 最 大 长 度 为 
NAME_MAX (255) 个 字符 ， 而 信号 量 的 名 字 的 最 大 长 度 要 少 4 个 字 
符 ， 这 是 因为 实现 会 在 信号 量 名 字 前 面 加 上 字符 串 sem.。 


SUSv3 并 没有 禁止 使 用 形式 不 为 /myobject 的 名 字 ， 但 表示 这 种 名 字 
的 语义 是 由 实现 定义 的 。 在 一 些 系统 上 ， 创 建 IPC 对 象 名 字 的 规则 是 不 
同 的 。 如 在 Tru64 5.1 上 ，IPC 对 象 名 字 会 被 创建 成 标准 文件 系统 中 的 名 
字 ， 并 且 名 字 会 被 解释 成 为 一 个 绝对 或 相对 路 径 名 。 如 果 调 用 者 没有 权 
限 在 该 目录 中 创建 文件 ， 那 么 IPC open 调 用 就 会 失败 。 这 意味 着 在 Tru64 
上 非特 权 程 序 无 法 创建 形 如 /myobject 之 类 的 名 字 ， 因 为 非特 权 用 户 通常 
无 法 在 根 目 录 O 中 创建 文件 。 其 他 一 些 实现 在 传递 给 IPC open 调 用 的 
名 字 的 构建 上 也 存在 特定 的 规则 。 因 此 在 可 移植 的 应 用 程序 中 应 该 将 
的 生成 工作 放 在 一 个 根据 目标 实现 裁剪 过 的 单独 的 函数 或 头 
X 5 


创建 或 打开 IPC 对 象 


每 种 IPC 机 制 都 有 一 个 关联 的 open 调 用 (mq_open()、sem_open() 以 
及 shm_open0)) ， 它 与 用 于 打开 文件 的 传统 的 UNIX open0 系 统 调用 类 
似 。 给 定 一 个 IPC 对 象 名 ，IPC open 调 用 会 完成 下 列 两 个 任务 中 的 一 
ie 









































° E 打开 该 对 象 并 返回 该 对 象 的 一 个 
FAA o 

© 打开 一 个 既 有 对 象 并 返回 该 对 象 的 一 个 句柄 。 
IPC open 调 用 返回 的 句柄 与 传统 的 open0O 系 统 调用 返回 的 文件 描述 


类 似 一 一 它 在 后 续 的 调用 中 被 用 来 引用 该 对 象 。 


IPC open 调 用 返 加 的 句柄 的 关 型 依赖 于 对 象 的 关于 。 对 于 消息 队列 
来 讲 返 回 的 是 一 个 消息 队列 描述 符 ， 其 类 型 为 nqd_t。 对 于 信号 量 来 
讲 ， 返 回 的 是 一 个 类 型 为 sm_t*# 的 指针 。 对 于 共享 内 存 来 讲 返 回 的 是 一 
个 文件 描述 符 


所 有 IPC open 调 用 都 至 少 接收 三 个 参数 
一 一 如 下 面 的 shm_open() 调 用 所 示 : 


fd = shm_open{"/mymem", O CREAT | O_RDWR, S_IRUSR | S_IWUSR); 


些 参数 与 传统 的 UNIX open() 系 统 调 用 接收 的 参数 类 似 。name 参 
数 标识 出 了 待 创建 或 待 打开 的 对 象 。oflag 参 数 是 一 个 位 掩 码 ， 在 这 个 参 
数 中 至 少 可 以 包含 下 列 几 种 标记 。 


O_CREAT 


如 果 对 象 不 存在 ， 那 么 就 创建 一 个 对 象 。 如 果 没 有 指定 这 个 标记 并 
且 对 象 不 存在 ， 那 么 就 返回 一 个 错误 (ENOENT) 。 


O_EXCL 


如 果 同 时 也 指定 了 O_CREAT 并 且 对 象 已 经 存在 ， 那 么 就 返回 一 个 
错误 (EEXIST) 。 这 两 步 检查 是 否 存 在 和 创建 一 一 是 原子 操作 
(5.197) 。 这 个 标记 在 不 指定 O_CREAT 时 是 不 起 作用 的 。 


根据 对 象 的 类 型 ， oflagds Fl R247 O_RDONLY. O WRONLY b 
及 O_RDWR 这 三 个 值 中 的 一 个 ， 其 含义 与 它们 在 open0 中 含义 相同 。 
些 IPC 机 制 还 支持 额外 的 标记 。 


剩 下 的 参数 mode 是 一 个 位 掩 码 ， 它 指定 了 在 对 象 被 创建 时 〈 即 指 
定 了 O_CREAT 并 且 对 象 不 存在 ) 施加 于 新 对 象 之 上 的 权限 。mode 参 数 
能 取 的 值 与 其 在 文件 上 的 取 值 一 样 〈 表 15-4) 。 与 open0 系 统 调用 一 
样 ，mode 中 的 权限 掩 码 会 根据 进程 的 umask 〈15.4.6 节 ) WIE. HIPC 
对 象 的 所 有 权 和 组 所 有 权 将 根据 发 起 这 个 IPC open 调 用 的 进程 的 有 效用 
户 ID 和 组 ID 来 确定 。 (严格 来 讲 ， 在 Linux 上 ， 新 POSIX IPC 的 所 有 权 是 
由 进程 的 文件 系统 ID 来 确定 的 ， 而 进程 的 文件 系统 ID 通常 与 相应 的 有 效 
ID 的 值 是 一 样 的 。 参 考 9.5 节 。) 











name、oflag 以 及 mode 














在 那些 IPC 对 象 位 于 标准 文件 系统 中 的 系统 上 ，SUSv3 
允许 实现 将 新 IPC 对 象 的 组 ID 设置 为 父 目 录 的 组 ID。 


关闭 IPC 对 象 


对 于 POSIX 消 轧 队 列 和 信号 量 来 讲 ， 存 在 一 个 IPC close 调 用 来 表明 
调用 进程 己 经 使 用 完 该 对 象 ， 系 统 可 以 释放 之 前 与 该 对 象 关 联 的 所 有 资 
Le POSIX 共 享 内 存 对 象 的 关闭 则 是 通过 使 用 munmapO 解 除 映 射 来 完 


IPC 对 象 在 进程 终止 或 执行 execO 时 会 自动 被 关闭 。 
IPC 对 象 权限 


IPC 对 象 上 的 权限 掩 码 与 文件 上 的 权限 掩 码 是 一 样 的 。 访 问 一 个 IPC 
对 象 的 权限 与 访问 文件 的 权限 (15.4.3 节 )〉 是 类 似 的 ， 但 对 于 POSIX IPC 
对 象 来 讲 ， 执 行 权限 是 没有 意义 的 。 


从 内 核 2.6.19 起 ，Linux 支 持 使 用 访问 控制 列表 (ACL) 来 设置 
POSIX 共 享 内 存 对 象 和 命名 信号 量 上 的 权限 。 目 前 ， 在 POSIX 消 息 队 列 
上 不 支持 ACL。 


IPC 对 象 删除 和 对 象 持久 性 


与 打开 文件 一 样 ，POSIX IPC 对 象 也 有 引用 计数 一 一 内 核 会 维护 对 
象 上 的 打开 引用 计数 。 与 System V IPC 对 象 相 比 ， 这 种 方式 使 得 应 用 程 
序 能 够 更 加 容易 地 确定 何 时 可 以 安全 地 删除 一 个 对 象 。 


每 个 IPC 对 象 都 有 一 个 对 应 的 unlink 调 用 ， 其 操作 类 似 于 应 用 于 文件 
的 传统 的 unlinkO 系 统 调用 。unlink 调 用 会 立即 删除 对 象 的 名 字 ， 然 后 在 
所 有 进程 使 用 完 对 象 〈 即 当 引 用 计数 等 于 0 时 ) 之 后 销毁 该 对 象 。 对 于 
消息 队列 和 信号 量 来 讲 ， 这 意味 着 当 所 有 进程 都 关闭 对 象 之 后 对 象 会 被 
销毁 ;对 于 共享 内 存 来 讲 ， 当 所 有 进程 都 使 用 munmapO 解 除 与 对 象 之 间 
的 映射 关系 之 后 就 会 销 和 股 该 对 象 。 























当 一 个 对 象 被 断 开 链接 之 后 ， 指 定 同一 个 对 象 名 的 IPC open 调 用 将 
会 引用 一 个 新 对 象 〈 在 不 指定 OCREAT 时 会 失败 ) 。 


与 System V IPC 一 样 ，POSIX IPC 对 象 也 拥有 内 核 持 久 性 。 对 象 一 
且 被 创建 ， 就 会 一 直 存 在 直到 被 断 开 链接 或 系统 被 关闭 。 这 样 一 个 进程 
就 能 够 创建 一 个 对 象 、 修 改 其 状态 ， 然 后 退出 并 将 对 象 留 给 在 后 面 某 个 
时 刻 启动 的 一 些 进程 访问 。 


通过 命令 行列 出 和 删除 POSIX IPC 对 象 


System V IPC 提 供 了 两 个 命令 ipcs 和 ipcrm 来 列 出 和 删除 IPC 对 象 。 
对 于 POSIX IPC 对 象 来 讲 ， 不 存在 标准 的 命令 来 执行 类 似 的 任务 。 然 而 
在 很 多 系统 上 上， 包括 Linux，IPC 对 象 是 在 一 个 挂 载 在 根 目 录 (/) FE 
处 的 真实 或 虚拟 文件 系统 中 实现 的 ， 因 此 可 以 使 用 标准 的 ls 和 rm 命令 来 
列 出 和 删除 IPC 对 象 。 (SUSv3 并 没有 规定 使 用 ls 和 rm 来 完成 这 些 任 
务 。) 使 用 这 些 命令 存在 的 主要 问题 是 POSIX IPC 对 象 名 以 及 它们 在 文 
件 系 统 中 所 处 的 位 置 是 不 标准 的 。 


在 Linux 上 ，POSIX IPC 对 象 位 于 挂 载 在 设置 了 粘 沾 位 的 目录 下 的 虚 
拟 文件 系统 中 。 这 个 位 是 一 个 受 限 的 删除 标记 (15.4.5 节 )〉) ， 设 置 该 位 
表示 非特 权 进 程 只 能 够 断 开 它 自己 拥有 的 POSIX IPC 对 象 的 链接 。 
在 Linux 上 编译 使 用 POSIX IPC 的 程序 


在 Linux 上 上 ， 使 用 POSIX IPC 机 制 的 程序 必须 要 与 实时 库 librt 链 接 起 
来 ， 这 可 以 通过 在 cc 命令 中 指定 -rt 选项 来 完成 。 














51.2 System V IPC 与 POSIX IPC 比 较 

F 面 几 个 章节 将 分 别 对 各 种 POSIX IPC 机 制 进行 介绍 ， 同 时 还 会 将 
它们 与 其 在 System V 中 的 对 应 机 制 进行 对 比 。 下 面 考 虑 这 两 种 人 PC 之 间 
的 一 些 常规 比较 。 


与 System V IPC 相 比 ，POSIX IPC 拥 有 下 列 常规 优势 。 





。 POSIX IPC 的 接口 比 System V IPC 接 口 简单 。 

e POSIX IPC 模 型 一 一 使 用 名 字 蔡 代 键 、 使 用 open、close 以 及 unlink 
函数 一 一 与 传统 的 UNIX 文 件 模型 更 加 一 致 。 

。 POSIX IPC 对 象 是 引用 计数 的 。 这 就 简化 了 对 象 删除 ， 因 为 可 以 断 
开 一 个 POSIX IPC 对 象 的 链接 ， 并 且 知 道 当 所 有 进程 都 关闭 该 对 象 
之 后 对 象 就 会 被 销 蝶 。 


然而 System V IPC 具 备 一 个 显著 的 优势 : 可 移植 性 。POSIX IPCE 
下 列 方面 的 移植 性 不 如 System V IPC. 


e System V IPC 在 SUSv3 中 进行 了 规定 ， 并 且 几 乎 所 有 的 UNIX 实 现 都 
支持 System V IPC。 而 与 之 相反 的 是 ，POSIX IPC 机 制 在 SUSv3 中 
则 是 一 个 可 选 的 组 件 。 一 些 UNIX 实 现 并 不 支持 (所 有 ) POSIX IPC 
机 制 。 这 种 情况 可 以 通过 Linux 上 的 微观 世界 反映 出 来 : POSIX 共 
享 内 存 从 内 核 2.4 开 始 得 到 支持 ， 完 整 的 POSIX 信 号 量 实现 从 内 核 
2.6 开 始 得 到 支持 ; POSIX 消 息 队 列 从 内 核 2.6.6 开 始 得 到 支持 。 
尽管 SUSv3 对 POSIX IPC 对 象 名 字 进 行 了 规定 ， 但 各 种 实现 仍然 采 
用 不 同 的 规则 来 命名 IPC 对 象 。 这 些 差 异 使 得 程序 员 在 编写 可 移植 
应 用 程序 时 需要 做 一 些 〈 很 少 ) 额外 的 工作 。 

POSIX IPC 的 各 种 细节 并 没有 在 SUSv3 中 进行 规定 。 特 别 是 没有 规 
定 使 用 哪些 命令 来 显示 和 删除 系统 上 的 IPC 对 象 。“〈 在 很 多 实现 上 
使 用 的 是 标准 的 文件 系统 命令 ， 但 用 来 标识 IPC 对 象 的 路 径 名 的 细 
节 信 息 则 因 实 现 而 异 。) 




















51.3 ”总 结 


POSIX IPC 是 一 个 一 般 名 称 ， 它 指 由 POSIX.1b 设 计 来 取代 与 之 类 似 
的 System V IPC 机 制 的 三 种 IPC 机 制 消息 队列 、 信 号 量 以 及 共享 内 
全 








POSIX IPC 接 口 与 传统 的 UNIX 文 件 模型 更 加 一 致 。IPC 对 象 是 通过 
名 字 来 标识 的 ， 并 使 用 open、close 以 及 unlink 等 操作 方式 与 相应 的 文件 
相关 的 系统 调用 类 似 的 调用 来 管理 。 


POSIX IPC 提 供 的 接口 在 很 多 方面 都 优 于 System V IPC 接 口 ， 但 
POSIX IPC 可 移植 性 要 比 System V IPC 稍 差 。 





52% POSIX AB 


本 章 将 介绍 POSIX 消 息 队 列 ， 它 允许 进程 之 间 以 消息 的 形式 交换 数 
据 。 pOSIX 消 息 FUJ System V 消 息 队 列 的 相似 之 处 在 于 数据 的 交换 单 
位 是 整个 消息 ， 但 它们 之 间 仍 然 存 在 一 些 显著 的 差异 。 


e。POSIX 消 息 队 列 是 引用 计数 的 。 只 有 当 所 有 当前 使 用 队列 的 进程 都 
关闭 了 队列 之 后 才 会 对 队列 进行 标记 以 便 删 除 。 
每 个 System V 消 息 都 有 一 个 整数 类 型 ， 并 且 通 过 msgrcv0O 可 以 以 各 











种 方式 类 选择 消息 。 与 之 形成 鲜明 对 比 的 是 ，POSIX 消 息 有 一 个 关 
人 并 且 消 息 之 间 是 严格 按照 优先 级 顺序 排队 的 《以 及 接 
Ne 


POSIX 消 息 队 列 提供 了 一 个 特性 允许 在 队列 中 的 一 条 消息 可 用 时 异 
步 地 通知 进程 。 


POSIX 消 息 队 列 被 添加 到 Linux 中 的 时 间 相 对 来 讲 是 比较 短 的 ， 所 
I (此 外 ， 还 需要 glibc 2.3.4 或 之 后 
J 版本) 。 


POSIX 消 息 队 列 支 持 是 一 个 通过 CONEFIG_POSIX_MQUEUE 选 项 配 
置 的 可 选 内 核 组件 。 








52.1 概述 


POSIX 消 息 队 列 API 中 的 主要 函数 如 下 。 


mdq_open0 函 数 创 建 一 个 新 消息 队列 或 打开 一 个 既 有 队列 ， 返 回 后 
续 调用 中 会 用 到 的 消息 队列 描述 符 。 

mdq_send0 函 数 同 队列 写 入 一 条 消息 。 

mdq_receive0O 函 数 从 队列 中 读 取 一 条 消息 。 

mdq_close0) 函 数 关 闭 进 程 之 前 打开 的 一 个 消息 队列 。 

mdq_unlinkO 函 数 删 除 一 个 消息 队列 名 并 当 所 有 进程 关闭 该 队列 时 对 
队列 进行 标记 以 便 删 除 。 


上 面 的 函数 所 完成 的 功能 是 相当 明显 的 。 此 外 ，POSIX 消 息 队 列 


API 还 具备 一 些 特 别 的 特性 。 


每 个 消息 队列 都 有 一 组 关联 的 特性 ， 其 中 一 些 特性 可 以 在 使 用 
mq_open0 创 建 或 打开 队列 时 进行 设置 。 获 取 和 修改 队列 特性 的 工 
作 则 是 由 两 个 函数 来 完成 的 : mq_getattr() 和 mq_setattr()。 





。 mq_notify0) 阔 数 允 许 一 个 进程 辐 一 个 队列 注册 接收 消息 通知 。 在 注 








册 完 之 后 ， 当 一 条 消息 可 用 时 会 通过 发 送 一 个 信和 号 或 在 一 个 单独 的 
线程 中 调用 一 个 函数 来 通知 进程 。 


52.2 打开、 关闭 和 断 开 链接 消息 队列 

本 节 将 介绍 用 来 打开 、 关 闭 和 删除 消息 队列 的 函数 。 
打开 一 个 消息 队列 

mq_open() 函 数 创建 一 个 新 消息 队列 或 打开 一 个 既 有 队列 。 





#include <fcntl.h> /* Defines 0 * constants */ 
#include <sys/stat.h> /* Defines mode constants */ 
#include <mnqueue.h> 


mqd t mg_open(const char *name, int oflag, . 
/* mode_t mode, struct mq attr *allr */); 








Returns a message queue descriptor on success, or (mgd_t) -1 on error 





nameZ BUNA Hh SAS BAG, FEPUR ries BEARS 15 P FS 
则 。 


oflag 参 数 是 一 个 位 掩 码 ， 它 控制 着 mq_open() 操 作 的 各 个 方面 。 表 
52-1 对 这 个 掩 码 中 可 以 包含 的 值 进行 了 总 结 。 


表 52-1: mq_open() oflag 参 数 的 位 值 





队列 不 存在 时 创建 队列 
与 O_ CREAT 一 起 排 它 地 创建 队列 


只 读 打 开 
只 写 打开 
读 写 打开 




















oflag 参 数 的 其 中 一 个 用 途 是 ， 确 定 是 打开 一 个 既 有 队列 还 是 创建 和 
打开 一 个 新 队列 。 如 果 在 oflag 中 不 包含 O CREAT， 那 么 将 会 打开 一 个 
既 有 队列 。 如 果 在 oflag 中 包含 了 O_CREAT， 并 且 与 给 定 的 name 对 应 的 
队列 不 存在 ， 那 么 就 会 创建 一 个 新 的 空 队列 。 如 果 在 oflag 中 同时 包含 
O_CREAT 和 O_EXCL， 并 且 与 给 定 的 name 对 应 的 队列 已 经 存在 ， 那 么 
mq open) HZR. 


oflag A Buk fie Wit GO_LRDONLY. O _WRONLY UK 
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剩 下 的 一 个 标记 值 O0 NONBLOCK 将 会 导致 以 非 阻 塞 的 模式 打开 队 
列 。 如 果 后 续 的 mq_receive() 或 mq_send() 调 用 无 法 在 不 阻塞 的 情况 下 执 
行 ， 那 么 调用 就 会 立即 返回 EAGAIN 错 误 。 


mq_open0 通 常用 来 打开 一 个 既 有 消 奶 队列 ， 这 种 调用 只 需要 两 个 
参数 ， 但 如 果 在 flags 中 指定 了 O_CREAT， 那 么 就 还 需要 另外 两 个 参 
数 : mode 和 attr。 (如果 通 过 name 指 定 的 队列 已 经 存在 ， 那 么 这 两 个 参 
数 会 被 忽略 。) 这 些 参数 的 用 法 如 下 。 


e mode 参 数 是 一 个 位 掩 码 ， 它 指定 了 施加 于 新 消息 队列 之 上 的 权 
限 。 这 个 参数 可 取 的 位 值 与 文件 上 的 掩 码 值 〈 表 15-4) 是 一 样 的 ， 
并 且 与 open() 一 样 ，mode 中 的 值 会 与 进程 的 umask 〈15.4.6 节 ) 取 掩 
人 码 。 要 从 一 个 队列 中 读 取 消息 (mq_receive()) 就 必须 要 将 读 权 限 
bo 要 癌 队 列 写 入 消息 Gmq_send()) 就 需要 写 权 
IR. 

。 attr 参 数 是 一 个 mq_attr 结 构 ， 它 指定 了 新 消息 队列 的 特性 。 如 果 attr 
为 NULL， 那 么 将 使 用 实现 定义 的 默认 特性 创建 队列 。 在 52.4 节 中 
将 会 对 mq_attr 结 构 进 行 介 绍 。 


mdq_open0 在 成 功 结束 时 会 返回 一 个 消息 队列 描述 符 ， 它 是 一 个 类 
型 为 mqd_t 的 值 ， 在 后 续 的 调用 中 将 会 使 用 它 来 引用 这 个 打开 着 的 消 轧 
队列 。SUSv3 对 这 个 数据 类 型 的 唯一 约束 是 它 不 能 是 一 个 数组 ， 即 需要 
确保 这 个 类 型 是 一 个 能 在 赋值 语句 中 使 用 或 能 作为 函数 参数 传递 的 的 类 
型 。《〈 如 在 Linux 上 ，mdqdd_t 是 一 个 int， 而 在 Solaris 上 将 其 定义 为 void 
eo 


程序 清单 52-2 给 出 了 一 个 使 用 mq_open0) 的 例子 。 





fork0、execO 以 及 进程 终止 对 消息 队列 描述 符 的 影响 


在 fork() 中 子 进程 会 接收 其 父 进 程 的 消 明 队 列 描述 符 的 副本 ， 并 且 
这 些 摘 述 符 会 引用 同样 的 打开 着 的 消息 队列 描述 。 在 52.3 市 中 将 会 对 
消 轧 队列 描述 进行 介绍 。) 子 进程 不 会 继承 其 父 进程 的 任何 消 妃 通知 注 
册 


o 


当 一 个 进程 执行 了 一 个 exec0 或 终止 时 ， 所 有 其 打开 的 消 妃 队列 描 
述 符 会 被 天 财 。 关 闭 消息 队列 描述 符 的 结果 是 进程 在 相应 队列 上 的 消 奶 
通知 注册 会 被 注销 。 
关闭 一 个 消 恕 队列 


mq_close() 函 数 关 闭 消息 队列 描述 符 mqdes。 





#include <mqueue.h> 


int mq_close(mqd t mgdes); 








Returns 0 on success, or -1 on error 





UR Val PERE CA mqdes Æ NA EEA SVK EGA (52.6 
节 ) ， 那 么 通知 注册 会 自动 被 删除 ， 并 且 男 一 个 进程 可 以 随后 向 该 队列 
注册 消息 通知 。 


当 进 程 终止 或 调用 execO0 时 ， 消 息 队 列 描述 符 会 被 目 动 天 闭 。 与 文 
件 描述 符 一 样 ， 应 用 程序 应 该 在 不 再 使 用 消 妃 队列 描述 符 的 时 候 显 式 地 
天 财 消息 队列 描述 符 以 防止 出 现 进 程 耗 尽 消 息 队 列 描述 符 的 情况 。 


与 文件 上 的 close0 一 样 ， 关 闭 一 个 消息 队列 并 不 会 删除 该 队列 。 要 
删除 队列 则 需要 使 用 mq_unlink0， 它 是 unlinkO 在 消息 队列 上 的 版 本 。 
删除 一 个 消息 队列 


md_unlinkO 函 数 删 除 通过 name 标 识 的 消息 队列 ， 并 将 队列 标记 为 在 
所 有 进程 使 用 完 该 队列 之 后 销毁 该 队列 《这 可 能 意味 着 会 立即 删除 ， 前 
提 是 所 有 打开 该 队列 的 进程 已 经 关闭 了 该 队列 ) 。 

















#include <mqueue.h> 


int mq_unlink(const char *name); 


Returns 0 on success, or -1 on error 





程序 清单 52-1 示 了 mq_unlink() 的 用 法 。 


程序 清单 52-1: 使 用 mq_unlink0) 断 开 一 个 POSIX 消 息 队 列 的 链接 





pmsg/pmsg_unlink. c 


#include <mqueue.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


if (argc != 2 || strcemp(argv[1], "--help") == 0) 
usageErr("%s mq-name\n", argv[0]); 


= -1) 


if (mgq_unlink(argv[1]) = 
k"); 


errExit("mq_unlin 
exit(EXIT SUCCESS); 


pmsg/pmsg_unlink.c 


52.3 ”描述 符 和 消 恩 队列 之 间 的 关系 


消息 队列 描述 符 和 打开 着 的 消息 队列 之 间 的 关系 与 文件 描述 符 和 打 
开 着 的 文件 描述 符 之 间 的 关系 类 似 《〈 见 图 5-2) 。 消 息 队 列 描述 符 是 一 
个 进程 级 别 的 句柄 ， 它 引用 了 系统 层面 的 打开 着 的 消息 队列 描述 表 中 的 
ao a a 
行 了 摘 绘 。 








在 Linuxz 上 ，POSIX 消 息 队 列 被 实现 成 了 虚拟 文件 系统 
中 的 i-node， 并 且 消 息 队 列 描述 符 和 打开 着 的 消息 队列 描述 
分 别 被 实现 成 了 文件 描述 符 和 打开 着 的 文件 描述 。 然 而 
SUSv3 没 有 对 实现 细节 进行 规定 ， 并 且 一 些 UNIX 实 现 也 并 
没有 采用 这 种 实现 方式 。 在 52.7 节 中 将 会 对 这 个 话题 进行 
讨论 ， 因 为 Linux 正 是 由 于 采用 了 这 种 实现 方式 才 得 以 提供 
了 一 些 非 标准 的 特性 。 














图 52-1 有 助 于 阐明 消 轧 队列 描述 符 的 使 用 方面 的 细节 问题 《所 有 这 
些 都 与 文件 描述 符 的 使 用 类 似 ) 。 


进程 和 A 
消息 队列 描述 打开 消息 队列 描述 符 表 消息 队列 表 
符 表 (系统 级 ) (系统 级 ) 


消息 队列 描述 奈 志 | 消息 队列 (每 个 队列 的 信息 : 
符 的 指针 的 指针 消息 队列 属性 ; UID 


进程 了 
消息 队列 描述 


& GID; WAM; 
消息 数据 ) 
































消息 队列 描述 
符 的 指 外 














图 52-1: POSIX 消 息 队 列 的 内 核 数 据 结构 之 间 的 关系 


。 一 个 打开 的 消息 队列 描述 拥有 一 组 关联 的 标记 。SUSv3 只 规定 了 一 
种 这 样 的 标记 ， 即 NONBLOCK， 它 确定 了 IO 是 否 是 非 阻塞 的 。 

。 两 个 进程 能 够 持 有 引用 同一 个 打开 的 消息 队列 描述 的 消息 队列 描述 
符 〈 图 中 的 描述 符 x) 。 当 一 个 进程 在 打开 了 一 个 消息 队列 之 后 调 
用 fork0O 时 就 会 发 生 这 种 情况 。 这 些 描述 符 会 共享 0 NONBLOCK 标 
记 的 状态 。 

。 两 个 进程 能 够 持 有 引用 不 同 消息 队列 描述 (它们 引用 了 同一 个 消息 
队列 ) 的 打开 的 消息 队列 描述 〈 如 进程 A 中 的 描述 符 z 和 进程 B 中 的 
描述 符 y 都 引用 了 /mdq-r) 。 当 两 个 进程 分 别 使 用 mq_open0 打 开 同 一 
个 队列 时 就 会 发 生 这 种 情况 。 





52.4 消息 队列 特性 


mq_open()、mq_getattr() 以 及 mq_setattr() 函 数 都 会 接收 一 个 参数 ， 
它 是 一 个 指 癌 mq_attr 结 构 的 指针 。 这 个 结构 是 在 <mqueue.h> 中 进行 定义 
的 ， 其 形式 如 下 。 


struct mq attr { 


long mq_flags; /* Message queue description flags: 0 or 
O NONBLOCK [mq getattr(), mq setattr()] */ 
long nig_maxmsg; /* Maximum number of messages on queue 
[mq _open(), mq getattr()] */ 
long mg_msgsize; /* Maximum message size (in bytes) 
[mq_open(), mq getattr()] */ 
long mg_curmsgs; /* Number of messages currently in queue 


[mq getattr()] */ 


在 开始 深入 介绍 mq_attr 的 细节 之 前 有 必要 指出 以 下 几 点 。 


© 这 三 个 水 数 中 的 每 个 函数 都 只 用 到 了 其 中 几 个 字段 。 上 面 给 出 的 结 
构 定义 中 的 注释 指出 了 各 个 函数 所 用 到 的 字段 。 

。 这 个 结构 包含 了 与 一 个 消息 摘 述 符 相 关联 的 打开 的 消息 队列 描述 
(mq flags) 的 相关 信息 以 及 该 描述 符 所 引用 的 队列 的 相关 信息 
(mq_maxmsg. mq msgsize、 mq_curmsgs) 。 

e Fer — ie = BA a IE JS EE Hd mq_open()@!) 42 BA SUN ht ZA 
定 下 来 了 Gmg_maxmsg#llmq_msgsize) ; 其 他 字段 则 会 返回 消息 队 
列 描述 (mq_flags) 或 消息 队列 (mq_curmsgs) 的 当前 状态 的 相关 


Ho 


在 创建 队列 时 设置 消息 队列 特性 


在 使 用 mq_open0 创 建 消 息 队 列 时 可 以 通过 下 列 mq_attr 字 段 来 确定 
队列 的 特性 。 


。 mdq_maxmsg 字 段 定 义 了 使 用 mq_send0 向 消息 队列 添加 消息 的 数量 
上 限 ， 其 取 值 必须 大 于 0。 

e。md_msgsize 字 段 定 义 了 加 入 消息 队列 的 每 条 消息 的 大 小 的 上 限 ， 其 
取 值 必须 大 于 0。 





内 核 根据 这 两 个 值 来 确定 消息 队列 所 需 的 最 大 内 存量 。 


mq_maxmsg 和 mq_msgsize 特 性 是 在 消 轧 队列 被 创建 时 就 确定 下 来 
的 ， 并 且 之 后 也 无 法 修改 这 两 个 特性 。 在 52.8 市 中 将 会 介绍 两 个 /proc 文 
件 ， 它 们 为 mq_maxmsg 和 mq_msgsize 特 性 的 取 值 设 定 了 一 个 系统 层面 的 
制 |。 





程序 清单 52-2 中 的 程序 为 mq_open() 函 数 提供 了 一 个 命令 行 界 面 并 
展示 了 在 mdq_open0 中 如 何 使 用 mq_attr 结 构 。 


消息 队列 特性 可 以 通过 两 个 命令 行 参数 来 指定 : -m 用 于 指定 
mq_maxmsg，-s 用 于 指定 mq_msgsize。 只 要 指定 了 其 中 一 个 选项 ， 那 么 
一 个 非 NULL 的 attrp 参 数 就 会 被 传递 给 mq_open()。 如 果 在 命令 行 中 只 指 
定 了 -m 和 -s 选 项 中 的 一 个 ， 那 么 attrp 指 向 的 mq_attr 结 构 中 的 一 些 字段 就 
会 取 默 认 值 。 如 果 两 个 选项 都 被 没有 被 指定 ， 那 么 在 调用 mq_open0O 时 
会 将 attrp 指 定 为 NULL， 这 将 会 导致 使 用 由 实现 定义 的 队列 特性 的 默认 
值 来 创建 队列 。 











程序 清单 52-2: 创建 一 个 POSIX 消 息 队 列 























#include <mqueue.h> 
#include <sys/stat.h> 
#include <fcntl.h> 
#include "tlpi_hdr.h" 


static void 
usageError(const char *progName) 


{ 


} 


int 


fprintf(stderr, "Usage: %s [-cx] [-m maxmsg] [-s msgsize] mq-name 


pmsg/pmsg_create. 


"[octal-perms]\n", progName) ; 


fprintf(stderr, " -C 
fprintf(stderr, " -m maxmsg 
fprintf(stderr, " -s msgsize 
fprintf(stderr, " -x 


exit(EXIT_FAILURE); 


main(int argc, char *argv[]) 


{ 


int flags, opt; 

mode_t perms; 

mqd t mqd; 

struct mq attr attr, *attrp; 


attrp = NULL; 
attr.mq_maxmsg = 50; 
attr.mq_msgsize = 2048; 
flags = O_RDWR; 


Create queue (0 CREAT)\n"); 

Set maximum # of messages\n"); 
Set maximum message size\n"); 
Create exclusively (0 EXCL)\n"); 


/* Parse command-line options */ 


while ((opt = getopt(argc, argv, "cm:s:x")) != -1) { 
switch (opt) { 
case ‘c': 
flags |= O_CREAT; 
break; 
case ‘m': 
attr.mq_maxmsg = atoi(optarg); 


attrp = &attr; 
break; 


case 's': 
attr.mq msgsize = atoi(optarg); 
attrp = &attr; 
break; 
case 'x': 
flags |= 0 EXCL; 
break; 


default: 
usageError(argv[0]); 


} 


if (optind >= argc) 
usageError(argv[0]); 


perms = (argc <= optind + 1) ? (S_IRUSR | S _IWUSR) : 
getInt(argv[optind + 1], GN BASE 8, “octal-perms"); 


mqd = mq_open(argv[optind], flags, perms, attrp); 
if (mqd == (mqd t) -1) 
errExit("mq open"); 


exit (EXIT SUCCESS); 


pmsg/pmsg_create.c 
获取 消息 队列 特性 


mdq_getattrO 函 数 返 回 一 个 包含 与 描述 符 mqdes 相 关联 的 消息 队列 描 
述 和 消息 队列 的 相关 信息 的 mq_attr 结 构 。 





#include <mqueue.h> 


int mq_getattr(mqd_t mgdes, struct mq attr *attr); 


Returns 0 on success, or -1 on error 





除了 上 面 已 经 介绍 的 mq_maxmsg 和 mq_msgsize 字 段 之 外 ，attr 指 向 
的 返回 结构 中 还 包含 下 列 字 段 。 


mq_flags 
1K EE re SHIR maqdes HAKAN TT FATE ABA FA ot, KE 


值 只 有 一 个 : O_NONBLOCK。 这 个 标记 是 根据 mq_open0O 的 oflag 人 参数 
来 初始 化 的 ， 并 且 使 用 mq_setattrO0 可 以 修改 这 个 标记 。 


mq_curmsgs 


这 个 当前 位 于 队列 中 的 消息 数 。 这 个 信息 在 mq_getattr0 返 回 时 可 能 
已 经 发 生 了 改变 ， 前 提 是 存在 其 他 进程 从 队列 中 读 取消 息 或 向 队列 写 入 


MA pe 
消息 。 





程序 清单 52-3 中 的 程序 使 用 了 mq_getattr() 来 获取 通过 命令 行 参数 指 
定 的 消 轧 队列 的 特性 ， 然 后 在 标准 输出 中 显示 这 些 特 性 。 

















程序 清单 52-3: 获取 POSIX 消 息 队 列 特性 














pmsg/pmsg_getattr.c 


#include <mqueue.h> 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


mqd t mqd; 
struct mq attr attr; 


if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr({"%s mq-name\n", argv[0]); 


mqd = mq_open{argv[1], O_RDONLY); 
if (mqd == (mqd_t) -1) 
errExit("mq open"); 


if (mq getattr(mqd, &attr) == -1) 
errExit("mg_getattr"); 


printf("Maximum # of messages on queue: ‘%ld\n", attr.mq_maxmsg); 
printf("Maximum message size: %ld\n", attr.mq_msgsize); 
printf("# of messages currently on queue: %ld\n", attr.mq_curmsgs); 
exit (EXIT SUCCESS); 


pmsg/pmsg_getattr.c 


下 面 的 shell 会 话 使 用 了 程序 清单 52-2 中 的 程序 来 创建 一 个 消息 队列 
并 使 用 实现 定义 的 默认 值 来 初始 化 其 特性 〈( 即 传 入 mq_open0 的 最 后 一 
个 参数 为 NULL ) ， 然 后 使 用 程序 清单 52-3 中 的 程序 来 显示 队列 特性 ， 
这 样 就 能 够 看 到 Linux 上 的 默认 设置 了 。 
$ ./pmsg create -cx /mq 


$ ./pmsg getattr /mq 
Maximum # of messages on queue: 10 


Maximum message size: 8192 
# of messages currently on queue: 0 
$ ./pmsg unlink /mq Remove message queue 


从 上 面 的 输出 中 可 以 看 出 Linux 上 mq_maxmsg 和 mq_msgsize 的 默认 
取 值 分 别 为 10 和 8192。 


mq_maxmsg 和 mq_msgsize 的 默认 取 值 在 不 同 的 实现 上 差异 很 大 。 可 
移植 的 应 用 程序 一 般 都 需要 显 式 地 为 这 两 个 特性 选取 相应 的 值 ， 而 不 是 
依赖 于 默认 值 。 


修改 消息 队列 特性 


与 消息 队列 摘 的 消息 队列 描 
述 的 特性 ， 并 可 选 地 返回 与 消息 队列 有 关 的 信息 





#include <mqueue.h> 


int mgq_setattr(mqd_t mgdes, const struct mq attr *newattr, 
struct mq attr *oldatir); 


Returns 0 on success, or -1 on error 











mdqd_setattrO 函 数 执行 下 列 任务 。 


。 它 使 用 newattr 指 癌 的 mq_attr 结 构 中 的 mq_flags 字 段 来 修改 与 描述 符 
mdqdes 相 关联 的 消息 队列 描述 的 标记 。 
e 如 果 oldattr 不 为 NULL， 那 么 就 返回 一 个 包含 之 前 的 消息 队列 描述 
记 和 消息 队列 特性 的 mq_attr 结 构 〈 即 与 ndq_getattr0 执 行 的 任务 一 
F) o 


SUSvV3 规 定 使 用 mq_setattr() 能 够 修改 的 唯一 特性 是 O_NONBLOCK 
标记 的 状态 。 


为 支持 一 个 特定 的 实现 可 能 会 定义 其 他 可 修改 wha eee ea) 
可 能 会 增加 新 的 标记 ， 一 个 可 移植 的 应 用 程序 应 该 通过 使 用 mq_getattr() 
Se ON OC OO OC 
的 状态 以 及 调用 mq_setattr() 来 修改 mq_flags 设 置 。 如 为 启用 
O_NONBLOCK 需 要 编写 下 列 代码 : 








if (mq getattr(mqd, &attr) == -1) 
errExit("mq getattr"); 

attr.mq flags |= O NONBLOCK; 

if (mg_setattr(mqd, &attr, NULL) == -1) 
errExit("mg_getattr"); 


52.5 2efe RA 
本 节 将 介绍 用 来 向 队列 发 送 消息 和 从 队列 中 接收 消息 的 函数 。 
52.5.1 AOA 


md_send0 函 数 将 位 于 msg_ptr 指 同 的 缓冲 区 中 的 消息 添加 到 描述 符 
mdqdes 所 引用 的 消 妃 队列 中 。 





#include <mqueue.h> 


int mq_send(mqd_t mgdes, const char *msg_pir, size_t msg_len, 
unsigned int msg_prio); 


Returns 0 on success, or -1 on error 











msg_len 参 数 指定 了 msg_ptr 指 同 的 消息 的 长 度 ， 其 值 必须 小 于 或 等 
于 队列 的 mq_msgsize 特 性 ， 否 则 mq_send() 束 会 返回 EMSGSIZE 错 误 。 长 
度 为 零 的 消息 是 允许 的 。 

每 条 消息 都 拥有 一 个 用 非 负 整 数 表 示 的 优先 级 ， 它 通过 msg_prio 参 
数 指定 。 消 息 在 队列 中 是 按照 优先 级 倒序 排列 的 〈 即 0 表示 优先 级 最 
低 ) 。 当 一 条 消息 被 添加 到 队列 中 时 ， 它 会 被 放置 在 队列 中 具有 相同 的 
优先 级 的 所 有 消息 之 后 。 如 果 一 个 应 用 程序 无 需 使 用 消息 优先 级 ， 那 么 


只 需要 将 msg_prio 指 定 为 0 即 可 。 


本 章 开 头 部 分 提 及 过 System V 消 息 的 类 型 特性 的 功能 
是 不 同 的 。System V 消 息 总 是 按照 FIFO 的 顺序 排列 ， 但 
msgrcv0O 能 够 按照 多 种 方式 来 选择 消息 : 按照 FIFO 的 顺 
序 、 根 据 类 型 来 选择 、 或 者 选取 类 型 值 小 于 或 等 于 某 个 特 
定 值 的 消息 中 类 型 值 最 大 的 消息 。 








SUSv3 人 允许 一 个 实现 为 消息 优先 级 规定 一 个 上 限 ， 这 可 以 通过 定义 
常量 MQ_PRIO_MAX 或 通过 规定 sysconf(_SC_MQ_PRIO_MAX) 的 返回 
值 来 完成 。SUSv3 要 求 这 个 上 限 至 少 是 
32 (_POSIX_MQ_PRIO_MAX) ， 即 优先 级 的 取 值 范围 至 少 为 0 到 31， 
但 各 个 实现 规定 的 实际 取 值 范围 则 存在 着 很 大 的 差异 ， 如 在 Linux 上 ， 
这 个 常量 值 为 32768， 而 在 Solaris 上 这 个 常量 值 为 32， 在 Tru64 则 为 
256. 


如 果 消 息 队 列 已 经 满 了 “〈 即 已 经 达到 了 队列 的 mq_maxmsg 限 制 ) ， 
那么 后 续 的 mq_send0 调 用 会 阻塞 直到 队列 中 存在 可 用 空间 为 止 或 者 在 
O_NONBLOCK 标 记 起 作用 时 立即 失败 并 返回 EAGAIN 错 误 。 


程序 清单 52-4 中 的 程序 为 mq_send() 函 数 提供 了 一 个 命令 行 界面 ， 下 
节 将 会 演示 如 何 使 用 这 个 程序 。 





























52-4: 向 POSIX 消 息 队 列 写 入 一 条 消息 














程序 清 








pmsg/pmsg_send.c 
#include <mqueue.h> 
#include <fentl.h> /* For definition of O_NONBLOCK */ 
#include "tlpi_hdr.h" 


static void 
usageError(const char *progName) 


fprintf(stderr, "Usage: %s [-n] name msg [prio]\n", progName); 
fprintf(stderr, " -n Use O NONBLOCK flag\n"); 
exit(EXIT_FATLURE); 

} 


int 
main(int argc, char *argv[ ]) 


int flags, opt; 
mqd t mqd; 
unsigned int prio; 


flags = 0 WRONLY; 
while ({opt = getopt(argc, argv, "n")) != -1) { 
switch (opt) { 


case 'n': flags |= 0 NONBLOCK; break; 
default: usageError(argv[0]); 
} 


} 


if (optind + 1 >= argc) 
usageError(argv[0]); 


mqd = mq_open(argv[optind], flags); 
if (mqd == (mqd t) -1) 
errExit("mq_open"); 
prio = (argc > optind + 2) ? atoi(argv[optind + 2]) : 0; 
if (mq_send(mqd, argv[optind + 1], strlen(argv[optind + 1]), prio) == -1) 


errExit("mg_send"); 
exit (EXIT SUCCESS); 


pmsg/pmsg_send.c 


52.5.2 ”接收 消息 


md_receive0O 函 数 从 mqdes 引 用 的 消息 队列 中 删除 一 条 优先 级 最 高 、 
存在 时 间 最 长 的 消息 并 将 删除 的 消息 放置 在 msg_ptr 指 问 的 绥 冲 区 。 











#tinclude <mqueue.h> 


ssize_t mgq_receive(mqd_t mgdes, char *msg_ptr, size_t msg len, 
unsigned int *msg prio); 


Returns number of bytes in received message on success, or -] on error 








调用 者 使 用 msg_len 参 数 来 指定 msg_ptr 指 向 的 缓冲 区 中 的 可 用 字 节 


不 管 消 息 的 实际 大 小 是 什么 ，msg_len 〈 即 msg_ptr 指 回 的 缓冲 区 的 
KD) 必须 要 大 于 或 等 于 队列 的 mq_msgsize 特 性 ， 否 则 mq_receive() 就 
会 失败 并 返回 EMSGSIZE 错 误 。 如 果 不 清楚 一 个 队列 的 mq_msgsize 特 性 
的 值 ， 那 么 可 以 使 用 mq_getattr() 来 获取 这 个 值 。〔 在 一 个 包含 多 个 协作 
进程 的 应 用 程序 中 一 般 无 需 使 用 mq_getattr()， 因 为 应 用 程序 通常 能 够 提 
前 确定 队列 的 mq_msgsize 设 置 。) 


如 果 msg_prio 不 为 NULL， 那 么 接收 到 的 消息 的 优先 级 会 被 复制 到 
msg_prio 指 问 的 位 置 处 。 


如 果 消 息 队 列 当前 为 空 ， 那 么 mq_receive0O 会 阻塞 直到 存在 可 用 的 
消息 或 在 O_NONBLOCK 标 记 起 作用 时 会 立即 失败 并 返回 EAGAIN 错 
人 即 当 一 端 不 存在 写 者 时 读者 不 会 看 到 
文件 结束 。 ) 


程序 清单 52-5 中 的 程序 为 mq_receive0O 函 数 提供 了 一 个 命令 行 界面 ， 
在 usageError0O 函 数 中 给 出 了 这 个 程序 的 命令 格式 。 


下 面 的 shell 会 话 演示 了 程序 清单 52-4 和 程序 清单 52-5 中 的 程序 的 用 
法 。 首先 创建 了 一 个 消 轧 队列 并 回 其 友 送 了 一 些 具 备 不 同 优 先 级 的 消 








$ ./pmsg create -cx /mq 

$ ./pmsg send /mq msg-a 5 

$ ./pmsg send /mq msg-b 0 

$ ./pmsg send /mq msg-c 10 


PRIA DUT — BIN A SRA A BCT E o 


$ ./pmsg receive /mq 

Read 5 bytes; priority = 10 
msg-c 

$ ./pmsg receive /mq 

Read 5 bytes; priority = 5 

msg-a 

$ ./pmsg receive /mq 

Read 5 bytes; priority = 0 

msg-b 


从 上 面 的 输出 中 可 以 看 出 ， 消 息 的 读 取 是 按照 优先 级 来 进行 的 。 
此 刻 ， 这 个 队列 是 空 的 。 当 再 次 执行 阻塞 式 接 收 时 ， 操 作 束 会 阻 


ay 


AE 0 


$ ./pmsg receive /mq 
Blocks; we type Control-C to terminate the program 


Fy Fr Tl, GARY SPARSE RE, ABA Wad AS ao o> ZBI E — 
个 失败 状态 。 


$ ./pmsg receive -n /mq 
ERROR [EAGAIN/EWOULDBLOCK Resource temporarily unavailable] mq_receive 














程序 清单 52-5: 从 POSIX 消 息 队 列 中 读 取 一 条 消息 





pmsg/pmsg receive.c 


#include <mqueue.h> 
#include <fcntl.h> /* For definition of O_NONBLOCK */ 
#include "tlpi_hdr.h" 


static void 
usageError(const char *progName) 


fprintf(stderr, "Usage: %s [-n] name\n", progName); 
fprintf(stderr, " -n Use O NONBLOCK flag\n"); 
exit(EXIT_FAILURE); 

} 


int 
main(int argc, char *argv[]) 
{ 
int flags, opt; 
mqd t mqd; 
unsigned int prio; 
void *buffer; 
struct mq attr attr; 
ssize t numRead; 


flags = 0 _RDONLY; 
while ((opt = getopt(argc, argv, “n")) != -1) { 
switch (opt) { 


case 'n': flags |= 0 _NONBLOCK; break; 
default: usageError(argv[0]); 
} 


} 


if (optind >= argc) 
usageError(argv[0]); 


mqd = mq_open{argv[optind], flags); 
if (mgd == (mqd_t) -1) 
errExit("mq_open”); 


if (mq getattr(mqd, &attr) == -1) 
errExit("mq getattr"); 


buffer = malloc(attr.mq_msgsize) ; 
if (buffer == NULL) 
errExit("inalloc"); 


numRead = mq_receive(mqd, buffer, attr.mq_msgsize, &prio); 
if (numRead == -1) 
errExit("mq receive"); 


printf("Read %ld bytes; priority = Zu\n", (long) numRead, prio); 

if (write(STDOUT FILENO, buffer, numRead) == -1) 
errExit("write"); 

write(STDOUT FILENO, "\n", 1); 


exit(EXIT SUCCESS); 


pmsg/pmsg_receive.c 
52.5.3 在 发 送 和 接收 消息 时 设置 超时 时 间 
mdqd_timedsend0 和 mq_timedreceive0) 函 数 与 ndq_send0 和 mdq_receive0) 
几乎 是 完全 一 样 的 ， 它 们 之 间 唯 一 的 差别 在 于 如 果 操 作 无 法 立即 被 执 


行 ， 并 且 该 消息 队列 描述 上 的 O_NONBLOCK 标 记 不 起 作用 ， 那 么 
abs_timeout 参 数 就 会 为 调用 阻塞 的 时 间 指 定 一 个 上 限 。 





#define _XOPEN_SOURCE 600 
#include <mqueue.h> 
#include <time.h> 


int mq_timedsend(mqd_t mgdes, const char *msg_ptr, size_t msg len, 
unsigned int msg prio, const struct timespec *abs_timeout); 
Returns 0 on success, or -1 on error 


ssize_t mq_timedreceive(mqd_t mgdes, char *msg ptr, size_t msg len, 
unsigned int *msg prio, const struct timespec *abs_timeout); 


Returns number of bytes in received message on success, or -1 on error 











abs_timeout#40 2 — timespec4i #4 (23.4.2707) , C KEE) EN TEI fia 
述 为 自 新 纪元 到 现在 的 一 个 绝对 值 ， 其 单位 为 秒 数 和 纳 秒 数 。 要 指定 一 
个 相对 超时 则 可 以 使 用 clock_gettime() 来 获取 CLOCK_REALTIME 时 钟 
的 当前 值 并 在 该 值 上 加 上 所 需 的 时 间 量 来 生成 一 个 恰当 初始 化 过 的 


timespec 结 构 。 





如 果 mq_timedsend() 或 mq_timedreceiveO 调 用 因 超 时 而 无 法 完成 操 
作 ， 那 么 调用 就 会 失败 并 返回 ETIMEDOUT 错 误 。 


在 Linux 上 将 abs_timeout 指 定 为 NULL 表 示 永 远 不 会 超时 ， 但 这 种 行 
为 并 没有 在 SUSv3 中 得 到 规定 ， 因 此 可 移植 的 应 用 程序 不 应 该 依赖 这 种 


行为 。 


md _timedsend0 和 mdq_timedreceiveO 函 数 最 初 产 自 POSIX.1d 
(1999)， 所 有 UNIX 实 现 都 没有 提供 这 两 个 函数 。 


52.6 YH BoA 


POSIX 消 息 队 列 区 别 于 System V 消 息 队 列 的 一 个 特性 是 POSIX 消 息 
队列 能 够 接收 之 前 为 空 的 队列 上 有 可 用 消息 的 异步 通知 〈 即 队列 从 空 变 
成 了 非 空 ) 。 这 个 特性 意味 着 已 经 无 需 执 行 一 个 阻塞 的 调用 或 将 消息 队 
列 描述 符 标记 为 非 阻 塞 并 在 队列 上 定期 执行 ndq_receiveO 调 用 〈“ 拉 ”) 
了 ， 因 为 一 个 进程 能 够 请 求 消息 到 达 通 知 ， 然 后 继续 执行 其 他 任务 直到 
收 到 通知 为 止 。 进 程 可 以 选择 通过 信号 的 形式 或 通过 在 一 个 单独 的 线程 
中 调用 一 个 函数 的 形式 来 接收 通知 。 


POSIX 消 息 队 列 的 通知 特性 与 23.6 节 中 介绍 的 POSIX 定 时 器 通知 工 
具 类 似 。 (这 两 组 API 都 源 自 POSIX.1b。 ) 


mdqd_notify0O 函 数 注册 调用 进程 在 一 条 消息 进入 描述 符 mqdes 引 用 的 
空 队列 时 接收 通知 。 








#include <mqueue.h> 


int mq_notify(mqd_t mgdes, const struct sigevent *nolificalion) ; 








Returns 0 on success, or -1 on error 





notification 参 数 指 定 了 进程 接收 通知 的 机 制 。 在 深入 介绍 
notification 参 数 的 细节 之 前 ， 有 关 消 息 通 知 需要 注意 以 下 几 点 。 


。 在 任何 一 个 时 刻 都 只 有 一 个 进程 (“注册 进程 ”能 够 问 一 个 特定 的 
消息 队列 注册 接收 通知 。 如 果 一 个 消息 队列 上 已 经 存在 注册 进程 

了 ， 那 么 后 续 在 该 队列 上 的 注册 请 求 将 会 失败 (mq_notify0 返 回 
EBUSY 错 误 ) 。 

只 有 当 一 条 新 消息 进入 之 前 为 空 的 队列 时 注册 进程 才 会 收 到 通知 。 
如 果 在 注册 的 时 候 队 列 中 已 经 包含 消息 ， 那 么 只 有 当 队 列 被 清空 之 
后 有 一 条 新 消息 达到 之 时 才 会 发 出 通知 。 

当 癌 注册 进程 发 送 了 一 个 通知 之 后 就 会 删除 注册 信息 ， 之 后 任何 进 
程 就 能 够 向 队列 注册 接收 通知 了 。 换 句 话 说， 只 要 一 个 进程 想 要 持 
续 地 接收 通知 ， 那 么 它 就 必须 要 在 每 次 接收 到 通知 之 后 再 次 调用 
mq_notify() 来 注册 上 自己。 

。 注册 进程 只 有 在 当前 不 存在 其 他 在 该 队列 上 调用 mq_receive0O 而 发 











生 阻 署 的 进程 时 才 会 收 到 通知 。 如 果 其 他 进程 在 mq_receiveO 调 用 

中 被 阻塞 了 ， 那 么 该 进程 会 读 取消 息 ， 注 册 进 程 会 保持 注册 状态 。 
。 一 个 进程 可 以 通过 在 调用 mq_notifyO 时 传 入 一 个 值 为 NULL 的 

notification 参 数 来 撤销 上 自己 在 消息 通知 上 的 注册 信息 。 


在 23.6.1 节 中 已 经 对 notification 参 数 的 类 型 sigevent 结 构 进行 了 介 
绍 。 下 面 给 出 的 是 该 结构 的 一 个 简化 版 本 ， 它 只 列 出 了 与 mq_notify0 相 
关 的 字段 。 
union sigval { 


int sival_int; /* Integer value for accompanying data */ 
void *sival ptr; /* Pointer value for accompanying data */ 


l; 
struct sigevent { 


int sigev_notify; /* Notification method */ 
int sigev_signo; /* Notification signal for SIGEV SIGNAL */ 
union sigval sigev_value; /* Value passed to signal handler or 


thread function */ 
void (*sigev_notify function) (union sigval); 
/* Thread notification function */ 
void *sigev_notify_attributes; /* Really ‘pthread_attr_t' */ 
5 


这 个 结构 的 sigev_notify 字 上 段 将 会 被 设置 成 下 列 值 中 的 一 个 。 
SIGEV_NONE 


注册 这 个 进程 接收 通知 ， 但 当 一 条 消息 进入 之 前 为 空 的 队列 时 不 i 
知 该 进程 。 与 往 滑 一 样 ， 当 新 消息 进入 空 队 列 之 后 注册 信息 会 被 删除 。 


SIGEV_SIGNAL 


通过 生成 一 个 在 sigev_signo 字 段 中 指定 的 信号 来 通知 进程 。 如 果 
sigev_signo 是 一 个 实时 信号 ， 那 么 sigev_value 字 段 将 会 指定 信号 都 带 的 
数据 〈22.8.1 节 ) 。 通 过 传 入 信号 处 理 器 的 siginfo_t 结 构 中 的 si_value 字 
段 或 通过 调用 sigwaitinfo() 或 sigtimedwait() 返 回 值 能 够 取得 这 部 分 数据 。 
siginfo_t 结 构 中 的 下 列 字 段 也 会 被 填充 : si_code， 其 值 为 SL_ MESGQ; 
si_signo， 其 值 是 信号 编号 ;si_pid， 其 值 是 发 送 消息 的 进程 的 进程 ID; 
以 及 si uid， 其 值 是 发 送 消息 的 进程 的 真实 用 户 ID。 (si_pid 和 si_uid 字 
段 在 其 他 大 多 数 实现 上 不 会 被 设置 。) 


SIGEV_THREAD 


En 























通过 调用 在 sigev_notify_function 中 指定 的 函数 来 通知 进程 ， 束 像 是 
在 一 个 新 线程 中 启动 该 函数 一 样 。sigev_notify_attributes 字 上 段 可 以 为 
NULL 或 是 一 个 指向 定义 了 线程 的 特 镍 的 pthread_attr (结构 的 指针 29.8 
节 ) 。sigev_value 中 指定 的 联合 sigval 值 将 会 作为 参数 传 入 这 个 函数 。 


52.6.1 通过 信号 接收 通知 


程序 清单 52-6 提 供 了 一 个 使 用 信号 来 进行 消息 通知 的 例子 。 这 个 程 
序 执行 了 下 列 任务 。 


1 以 非 阻塞 模式 打开 了 一 个 通过 命令 行 指 定名 称 的 消息 队列 @， 
确定 了 该 队列 的 mq_msgsize 特 性 的 值 包 ， 并 分 配 了 一 个 大 小 为 该 值 的 组 
冲 区 来 接收 消息 @)。 

2. 阻塞 通知 信号 〈SIGUSR1) 并 为 其 建立 一 个 处 理 器 @@。 

3. 首次 调用 mq_notify0 来 注册 进程 接收 消息 通知 @)。 

A. 执行 一 个 无 限 循环 ， 在 循环 中 执行 下 列 任务 。 

(a) 调 用 sigsuspend()， 该 函数 会 解除 通知 信号 的 阻 罕 状态 并 等 待 直 到 
信号 被 捕获 @@。 从 这 个 系统 调用 中 返回 表示 已 经 发 生 了 一 个 消息 通知 。 
此 刻 ， 进 程 会 撤销 消息 通知 的 注册 信息 。 

(b) 调 用 mq_notify0 重 新 注册 进程 接收 消息 通知 @。 

5 (OO 执行 一 个 while 循 环 从 队列 中 尽 可 能 多 地 读 取 消息 以 便 清 空 队列 
@). 





程序 清单 52-6: 通过 信号 接收 消息 通知 








pmsg/mq_notify_sig.c 
#include <signal.h> 
#include <mqueue.h> 
#include <fcntl.h> /* For definition of O NONBLOCK */ 
#include "tlpi hdr.h" 


#define NOTIFY SIG SIGUSR1 


static void 
handler(int sig) 


/* Just interrupt sigsuspend() */ 
} 


int 
main(int argc, char *argv[]) 


struct sigevent sev; 

mqd t mqd ; 

struct mq attr attr; 

void *buffer; 

ssize_t numRead; 

sigset_t blockMask, emptyMask; 
struct sigaction sa; 


if (argc != 2 || strcmp(argv[1], “--help") == 0) 
usageErr("%s mq-name\n", argv[0]); 


mqd = mq_open(argv[1], O_RDONLY | O_NONBLOCK); 
if (mqd == (mqd t) -1) 
errExit("mq open"); 


if (mq getattr(mqd, &attr) == -1) 
errExit("mq getattr"); 


buffer = malloc(attr.mq msgsize); 
if (buffer == NULL) 
errExit("malloc"); 


sigemptyset (&blockMask) ; 

sigaddset (&blockMask, NOTIFY SIG); 

if (sigprocmask(SIG BLOCK, &blockMask, NULL) == -1) 
errExit("sigprocmask") ; 


O © 


sigemptyset(&sa.sa mask); 

sa.sa flags = 0; 

sa.sa handler = handler; 

if (sigaction(NOTIFY SIG, &sa, NULL) == -1) 
errExit("sigaction") ; 


sev.sigev_notify = SIGEV_SIGNAL; 

sev.sigev_signo = NOTIFY_SIG; 

if (mq notify(mqd, &sev) == -1) 
errExit("mq_notify"); 


sigemptyset(&emptyMask) ; 


for (53) { 
sigsuspend(&emptyMask) ; /* Wait for notification signal */ 


if (mq _notify{mqd, &sev) == -1) 
errExit("mg_notify"); 


while ((numRead = mq_receive(mqd, buffer, attr.mq_msgsize, NULL)) >= 0) 
printf("Read %ld bytes\n", (long) numRead); 


if (errno != EAGAIN) /* Unexpected error */ 
errExit("mg_receive") ; 


—_——<<—_jS ee  ——— psy /mg_notify sig.c 











在 程序 清单 52-6 中 的 程序 中 存在 很 多 方面 值得 详细 解释 。 


程序 阻塞 了 通知 信号 并 使 用 sigsuspend() 来 等 待 该 信号 ， 而 没有 使 用 
pause0， 这 是 为 了 防止 出 现 程序 在 执行 for 循 环 中 的 其 他 代码 〈 即 没 
有 因 等 待 信号 而 阻塞 ) 时 错过 信号 的 情况 。 如 果 发 生 了 这 种 情况 ， 
并 且 使 用 了 pause(0) 来 等 待 信号， 那么 下 次 调用 pause0 时 会 阻塞 ， 即 
使 系统 已 经 发 出 了 一 个 信和 号 。 

程序 以 非 阻塞 模式 打开 了 队列 ， 并 且 当 一 个 通知 发 生 之 后 使 用 一 个 
while 循 环 来 读 取 队列 中 的 所 有 消息 。 通 过 这 种 方式 来 清空 队列 能 
够 确保 当 一 条 新 消息 到 达 之 后 会 产生 一 个 新 通知 。 使 用 非 阻塞 模式 
意味 着 while 循 环 在 队列 被 清空 之 后 就 会 终止 (mq receive) K 
并 返回 EAGAIN 错 误 ) 。〔( 这 种 做 法 与 63.1.1 节 中 介绍 的 采用 边界 
触发 TO 通知 的 非 阻 塞 JO 类 似 ， 而 这 里 之 所 以 采用 这 种 做 法 的 原因 
也 是 类 似 的 。) 

在 for 循 环 中 比较 重要 的 一 点 是 在 读 取 队列 中 的 所 有 消息 之 前 重新 注 
册 接 收 消 恩 通知 。 如 果 颠 倒 了 顺序 ， 如 按照 下 面 的 顺序 ， 队列 中 的 
所 有 消息 都 被 读 取 了 ，while 循 环 终止 ， 另 一 个 消息 被 添加 到 了 队 














列 中 ; mq_notify0 被 调用 以 重新 注册 接收 消息 通知 。 此 刻 ， 系 统 将 
不 会 产生 新 的 通知 信号 ， 因 为 队列 已 经 非 空 了 ， 其 结果 是 程序 在 下 
次 调用 sigsuspend() 时 会 永远 阻塞 。 


52.6.2 ”通过 线程 接收 通知 


程序 清单 52-7 提 供 了 一 个 使 用 线程 来 友 布 消息 通知 的 例子 。 这 个 程 
序 与 程序 清单 52-6 中 的 程序 具备 一 些 共同 的 设计 特点 。 


。 当 消 息 通知 发 后 时 ， 程 序 会 在 清空 队列 之 前 重新 启用 通知 @)。 
。 采用 了 非 阻 堵 模 式 使 得 在 接收 到 一 个 通知 之 后 可 以 在 无 需 阻 塞 的 情 
况 下 完全 清空 队列 @@)。 








程序 清单 52-7: 通过 线程 来 接收 消息 通知 








pmsg/mq_notify_thread.c 
#include <pthread.h> 
#include <mqueue.h> 
#include <fcntl.h> /* For definition of O NONBLOCK */ 
#include "tlpi_hdr.h" 


static void notifySetup(mqd t *mqdp); 


static void /* Thread notification function */ 
@ threadFunc(union sigval sv) 


{ 
ssize t numRead; 
mqd t *mqdp; 
void *buf fer; 
struct mq attr attr; 


mqdp = sv.sival ptr; 


if (mq _getattr(*mgqdp, &attr) == -1) 
errExit("mq getattr"); 


buffer = malloc(attr.mq_msgsize); 


if (buffer == NULL) 
errExit("nalloc"); 


也 notifySetup(mqdp); 


while ((numRead = mq receive(*mqdp, buffer, attr.mq_msgsize, NULL)) >= 0) 
printf("Read %ld bytes\n", (long) numRead); 


if (errno != EAGAIN) /* Unexpected error */ 
errExit("mq_receive"); 


free(buffer); 
pthread_exit(NULL); 
} 


static void 
notifySetup(mgd_t *mqdp) 
{ 


struct sigevent sev; 


sev.Sigev_notify = SIGEV_THREAD; /* Notify via thread */ 
sev.sigev_ notify function = threadFunc; 
sev. sigev notify attributes = NULL; 

/* Could be pointer to pthread_attr_t structure */ 


sev.sigev value.sival ptr = mqdp; /* Argument to threadFunc() */ 
if (mq notify(*mqdp, &sev) == -1) 
errExit("mq_notify"); 
} 
int 


main(int argc, char *argv[]) 
mgd t mad; 


if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s mq-name\n", argv[0]); 


mgd = mq_open(argv[1], O RDONLY | O NONBLOCK); 
if (mgd == (mqd t} -1) 
errExit("mq open"); 


notifySetup (&mqd) ; 
pause(); /* Wait for notifications via thread function */ 


pmsg/mq_notify_thread.c 
有 关 程 序 清单 52-7 中 的 程序 的 设计 还 需要 注意 以 下 几 点 。 


。 程序 通过 一 个 线程 来 请 求 通知 需要 将 传 入 mq_notify() 的 sigevent 结 构 
的 sigev_ nee 的 值 指 定 为 SIGEV_THREAD。 线 程 的 启动 函数 
es 是 通过 sigev_notify_function 字 段 来 指定 的 @)。 

。 在 启用 消息 通知 之 后 ， 主 程序 会 永远 中 止 @， 定 时 器 通知 是 通过 在 
一 个 单独 的 线程 中 调用 threadFunc0 来 分 发 的 GD。 

。 本 来 可 以 通过 将 消息 队列 描述 符 mqd 变 成 一 个 全 局 变量 使 之 对 
threadFuncO 可 见 ， 但 这 里 采用 了 一 种 不 同 的 做 法 : 将 消息 队列 描述 

符 的 地 址 放 在 了 传 给 mq_notify() 的 sigev_value.sival_ptr 字 段 中 必 )。 
当 后 面 调用 threadFunc() 时 ， 这 个 参数 会 作为 其 参数 被 传 入 到 该 函数 


中 。 














必须 要 把 指 癌 消息 队列 描述 符 的 指针 赋 给 
sigev_value.sival_ptr， 而 不 是 把 描述 符 本 映 〈 可 能 需要 某 种 





转换 ) 赋 给 sigev_value.sival_ptr， 因 为 SUSv3 除 了 规定 它 不 
是 一 个 数组 类 型 之 外 并 没有 对 其 性 质 和 用 来 表示 mdqdd_t 数 据 
类 型 的 类 型 大 小 予以 规定 。 


52.7 Linux 特 有 的 特性 


a aa all, 
JEF 3 


通过 命令 行 显示 和 删除 消息 队列 对 象 
在 51 章 中 提 到 过 POSIX IPC 对 象 被 实现 成 了 虚拟 文件 系统 中 的 文 


件 ， 并 且 可 以 使 用 ls 和 mm 来 列 出 和 删除 这 些 文件 。 为 列 出 和 删除 POSIX 
ce ABA 7 ai Ws 2 Be 58 FF BB TD A ORR SSS BA SEE kB SCE AR 





# mount -t mqueue source target 


source 可 以 是 任意 一 个 名 字 GHAR ASA none) ， 其 唯 
一 的 意义 是 它 将 出 现在 /procmounts 中 并 且 mount 和 df 命令 会 显示 出 这 个 
名 字 。target 是 消息 队列 文件 系统 的 挂 载 点 。 


下 面 的 shell 会 话 显 示 了 如 何 挂 载 消 恩 队 列 文件 系统 和 显示 其 内 容 。 
首先 为 文件 系统 创建 一 个 挂 载 扣 并 挂 载 它 。 


$ su Privilege is required for mount 
Password: 

# mkdir /dev/mqueue 

# mount -t mqueue none /dev/mqueue 

$ exit Terminate root shell session 


: 接着 显示 新 挂 载 在 /proc/mounts 中 的 记录 ， 然 后 显示 挂 载 目 录 上 的 
又 限 。 


$ cat /proc/mounts | grep mqueue 

none /dev/mqueue mqueue rw 0 0 

$ 1s -ld /dev/mqueue 

drwxrwxrwt 2 root root 40 Jul 26 12:09 /dev/mqueue 


在 ls 命令 的 输出 中 需要 注意 的 一 点 是 消息 队列 文件 系统 在 挂 载 时 会 
自动 为 挂 载 目 录 设 置 粘 清 位 。 (从 1s 的 输 出 中 的 other-execute 权 限 字 段 中 
有 一 个 t 束 可 以 看 出 这 一 点 。) 这 意味 着 非特 权 进 程 只 能 在 它 所 拥有 的 
消息 队列 上 执行 断 开 链接 的 操作 。 











接着 创建 一 个 消息 队列 ， 使 用 ls 来 表明 它 在 文件 系统 中 是 可 见 的 ， 
然后 删除 该 消 奶 队列 。 


$ ./pmsg_ create -c /newq 
$ ls /dev/mqueue 

newq 

$ rm /dev/mqueue/newq 


获取 消息 队列 的 相关 信息 


可 以 显示 消息 队列 文件 系统 中 的 文件 的 内 容 ， 每 个 虚拟 文件 都 包含 
了 其 关联 的 消 妃 队列 的 相关 信息 。 


$ ./pmsg create -c /mq Create a queue 

$ ./pmsg send /mq abcdefg Write 7 bytes to the queue 
$ cat /dev/mqueue/ing 

QSIZE:7 NOTIFY: 0 SIGNO:0 NOTIFY PID:0 


QSIZE 字 段 的 值 为 队列 中 所 有 数据 的 总 字 节 数 ， 剩 下 的 字段 则 与 消 
明 通 知 相 关 。 如 果 NOTIFY_PID 为 非 零 ， 那 么 进程 I 有 D 为 该 值 的 进程 已 经 
回 该 队列 注册 接收 消息 通知 了 ， 剩 下 的 字段 则 提供 了 与 这 种 通知 相关 的 


fay 
Huo 





。 NOTIFY 是 一 个 与 其 中 一 个 sigev_notify 常 量 对 应 的 值 ，0 表 示 
SIGEV_SIGNAL，1 表 示 SIGEV_NONE，2 表 示 SIGEV_THREAD。 
。 如 果 通 知 方式 是 SIGEV_SIGNAL， 那 么 SIGNO 字 上 段 指 出 了 哪个 信号 

会 用 来 分 发 消息 通知 。 


下 面 的 shell 会 话 对 这 些 字段 中 包含 的 信息 进行 了 说 明 。 





$ ./mq_notify_sig /mq & Notify using SIGUSR1 (signal 10 on x86) 
[1] 18158 

$ cat /dev/mqueue/ing 

QSIZE:7 NOTIFY: 0 SIGNO:10 NOTIFY PID:18158 

$ kill %1 

[1] Terminated ./mq_notify sig /mq 

$ ./mq_notify thread /mq & Notify using a thread 

[2] 18160 

$ cat /dev/mqueue/ing 

QSIZE:7 NOTIFY: 2 SIGNO:0 NOTIFY PID:18160 


(EH PVO E PRE E BA 
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可 以 使 用 MO 多 路 复 用 系统 调用 〈select0 和 pollO0) 或 epoll API 来 监控 这 
个 文件 描述 符 。《 有 关 这 些 API 的 更 多 细节 请 参考 63 章 。) 这 样 就 能 够 
避免 在 使 用 System V 消 息 队 列 时 同时 等 待 一 个 消息 队列 和 一 个 文件 描述 
符 上 的 输入 的 困难 局 面 〈 参 见 46.9 节 ) 的 出 现 。 但 这 项 特性 不 是 标准 特 
性 ，SUSv3 并 没有 要 求 将 消息 队列 描述 符 实现 成 文件 描述 符 。 











52.8 消息 队列 限制 
SUSv3 为 POSIX 消 息 队 列 定 义 了 两 个 限制 。 


MQ_PRIO_MAX 


在 52.5.1 中 已 经 对 这 个 限制 进行 了 介绍 ， 它 定义 了 一 条 消息 的 最 大 
优先 级 。 


MQ_OPEN_MAX 


一 个 实现 可 以 定义 这 个 限制 来 指明 一 个 进程 最 多 能 打开 的 消息 队列 
数量 。SUSv3 要 求 这 个 限制 最 小 为 POSIX_MQ_OPEN_MAX (8) 。 
Linux 并 没有 定义 这 个 限制 ， 相 反 ， 由 于 Linux 将 消息 队列 描述 符 实 现成 
了 文件 描述 符 《〈52.7 节 ) ， 因 此 适用 于 文件 描述 符 的 限制 将 适用 于 消息 
队列 描述 符 。( 换 句 话 说 ， 在 Linux 上 ， 每 个 进程 以 及 系统 所 能 打开 的 
文件 描述 符 的 数量 限制 实际 上 会 应 用 于 文件 描述 符 数量 和 消息 队列 描述 
符 数 量 之 和 。) 更 多 有 关 适 用 的 限制 的 细节 信息 请 参考 36.3 节 中 对 
RLIMIT_NOFILE 资 源 限制 的 讨论 。 


除了 上 面 列 出 的 由 SUSv3 规 定 的 限制 之 外 ，Linux 还 提供 了 一 
些 /proc 文 件 来 得 看 和 修改 〈 需 具备 特权 ) 控制 POSIX 消 妃 队 列 的 使 用 的 
限制 。 下 面 这 三 个 文件 位 于 /proc/sys/fs/ mqueue 目 录 中 。 














msg_max 


这 个 限制 为 新 消息 队列 的 mq_maxmsg 特 性 的 取 值 规定 了 一 个 上 限 
(即使 用 mq_open0 创 建 队 列 时 attrmq_maxmsg 字 段 的 上 限 值 ) 。 这 个 限 
制 的 默认 值 是 10， 最 小 值 是 1《〈 在 早 于 2.6.28 的 内 核 中 是 10) ， 最 大 值 由 
内 核 常 量 HARD_MSGMAX 定 义 ， 该 常量 的 值 是 通过 公式 (131072/ 
sizeof(void *)) 计 算得 来 的 ， 在 Linux/x86-32 上 其 值 为 32768。 当 一 个 特权 
进程 (CAP_SYS_RESOURCE) 调用 mq_open() 时 msg_max 限 制 会 被 名 
略 ， 但 HARD_MSGMAX 仍 然 担当 着 attr.mq_maxmsg 的 上 限 值 的 角色 。 


msgsize_max 


这 个 限制 为 非特 权 进 程 创建 的 新 消息 队列 的 mq_msgsize 特 性 的 取 值 
规定 了 一 个 上 限 ( 即 使 用 mq_open0 创 建 队列 时 attr.mq_msgsize 字 段 的 上 


限 值 ) 。 这 个 限制 的 默认 值 是 8192， 最 小 值 是 128〈 在 早 于 2.6.28 的 内 核 
中 是 8192) ， 最 大 值 是 1048576 (在 早 于 2.6.28 的 内 核 中 是 

INT_MAX) 。 当 一 个 非特 权 进 程 (CAP_SYS_RESOURCE) 调用 
mq_open() 时 会 忽略 这 个 限制 。 


queues_max 


这 是 一 个 系统 级 别 的 限制 ， 它 规定 了 系统 上 最 多 能 够 创建 的 消息 队 
列 的 数量 。 一 旦 达到 这 个 限制 ， 就 只 有 特权 进程 
(CAP_SYS_RESOURCE) 才能 够 创建 新 队列 。 这 个 限制 的 默认 值 是 
256， 其 取 值 可 以 为 范围 从 0 到 INT_MAX 之 间 的 任意 一 个 值 。 


Linux 还 提供 了 RLIMIT_MSGQUEUE 资 源 限制 ， 它 可 以 用 来 为 属于 
调用 进程 的 真实 用 户 ID 的 所 有 消息 队列 所 消耗 的 空间 规定 一 个 上 限 ， 细 
节 信 息 请 参考 36.3 节 。 





52.9 POSIX 和 System V 消 息 队 列 比较 


51.2 节 列 出 了 POSIX IPC 接 口 与 System V IPC 接 口 相 比 存在 的 各 种 优 
势 : POSIX IPC 接 口 更 加 简单 并 且 与 传统 的 UNIX 文 件 模型 更 加 一 致 ， 同 
时 POSIX IPC 对 象 是 引用 计数 的 ， 这 样 就 简化 了 确定 何 时 删除 一 个 对 象 
的 任务 。POSIX 消 息 队 列 也 同样 具备 这 些 和 常规 优势 。 


POSIX 消 息 队 列 与 System V 消 县 队列 相 比 还 具备 下 列 优势 。 


。 消息 通知 特性 允许 一 个 〈 单 个) 进程 能 够 在 一 条 消息 进入 之 前 为 空 
的 队列 时 异步 地 通过 信号 或 线程 的 实例 化 来 接收 通知 。 

。 在 Linux 〈 不 包括 其 他 UNIX 实 现 ) 上 可 以 使 用 pol0O、selectO 以 及 
epoll 来 监控 POSIX 消 息 队 列 。System V 消 息 队 列 并 没有 这 个 特性 。 


但 与 System V 消 息 队 列 相 比 ，POSIX 消 息 队 列 也 具备 下 列 劣势 。 


e。POSIX 消 息 队 列 的 可 移植 性 稍 差 ， 即 使 在 不 同 的 Linux 系 统 上 也 存 
在 这 个 问题 ， 因 为 直到 内 核 2.6.6 才 提供 了 对 消息 队列 的 支持 。 

。 与 POSIX 消 息 队 列 严 格 按 照 优先 级 排序 相 比 ，System V 消 息 队 列 能 
够 根据 类 型 来 选择 消息 的 功能 的 灵活 性 更 强 。 





POSIX 消 息 队 列 在 不 同 UNIX 系 统 上 的 实现 方式 存在 很 
大 的 差异 。 一 些 系统 在 用 户 空间 提供 实现 ， 并 且 至 少 存在 
一 种 此 类 实现 (Solaris 10) ， 同 时 mdq_open0 手 册 也 明确 指 
出 这 种 实现 是 不 安全 的 。 在 Linux 上 ， 选 择 在 内 核 中 实现 消 
恩 队 列 的 原因 之 一 是 不 相信 和 能够 提供 一 个 安全 的 用 户 空间 
实现 。 





52.10 ”总 结 


POSIX 消 息 队 列 允 许 进程 以 消息 的 形式 交换 数据 。 每 条 消息 都 有 一 
Rae) o 


POSIX 消 息 队 列 与 System V 消 息 队 列 相 比 具备 一 些 优势 ， 特 别 是 它 
们 是 引用 计数 的 并 且 一 个 进程 在 一 条 消息 进入 空 队列 时 能 够 异步 地 收 到 
通知 ， 但 POSIX 消 息 队 列 的 移植 性 要 比 System V 消 息 队 列 稍 差 。 


更 多 信息 
[Stevens, 1999] 提 供 了 POSIX 消 恩 队 列 的 男 一 种 表示 形式 并 给 出 了 一 


个 使 用 内 存 映 射 文件 的 用 户 空 间 实 现 。[Gallmeister, 1995] 也 对 POSIX 消 
息 队 列 的 一 些 细节 进行 了 描述 。 








52.11 习题 


52-1. 修改 程序 清单 52-5 中 的 程序 Cpmsg_receive.c) 使 之 在 命令 行 
上 接收 一 个 超时 时 间 〈 相 对 秒 数 ) 并 使 用 mdq_timedreceive0) 来 蔡 换 


mq_receive(). 


52-2. 使 用 POSIX 消 息 队 列 记 录 44.8 节 中 的 客户 端 -服务 器 应 用 程序 
的 顺序 号 。 


52-3. 重 写 46.8 节 中 的 文件 -服务 器 应 用 程序 使 之 使 用 POSIX 消 息 队 
列 来 取代 System V 消 息 队 列 。 


52-4. 使 用 POSIX 消 息 队 列 编写 一 个 简单 的 聊天 程序 (类 似 于 
talk(1)， 但 没有 curses 界 面 )。 


52-5. 修改 程序 清单 52-6 中 的 程序 (mq_notify_sig.c〉 来 证 明 通 过 
mq_notify() 建 立 的 消息 通知 只 发 生 一 次 。 这 可 以 通过 删除 for 循 环 中 的 
mq_notifyO 调 用 来 完成 。 


52-6. 使 用 sigwaitinfo0 蔡 换 程 序 清 单 52-6 中 的 程序 
(mq_notify_sig.c〉 对 信号 处 理 器 的 使 用 。 在 sigwaitinfo() 返 回 时 显示 返 
回 的 siginfo_t 结 构 中 的 值 。 程 序 如 何 获取 sigwaitinfo0 返 回 的 siginfo_t 绪 
构 中 的 消 奶 队列 描述 符 呢 ? 


52-7. 在 程序 清单 52-7 中 buffer 是 否 可 以 作为 全 局 变量 并 且 只 为 其 
分 配 一 次 内 存 〈 在 主 程序 中 ) ? 对 你 的 答案 做 出 解释 。 








532 ”POSIX 信号 量 


本 章 将 介绍 POSIX 信 号 量 ， 它 允许 进程 和 线程 同步 对 共享 资源 的 访 
问 。 在 47 章 中 介绍 了 System V 信 号 量 ， 本 章 假设 读者 已 经 熟悉 了 信号 量 
的 一 般 概念 以 及 本 章 开 头 部 分 介绍 的 信号 量 的 使 用 原理 。 在 讲述 本 章 内 
容 的 过 程 中 将 会 对 POSIX 信 号 量 和 System Vis 5 VEST LL BE PY I 
组 信号 量 API 的 相同 之 处 和 相 异 之 处 。 





53.1 概述 
SUSv3 规 定 了 两 种 类 型 的 POSIX 信 号 量 。 


命名 信号 量 : 这 种 信号 量 拥有 一 个 名 字 。 通 过 使 用 相同 的 名 字 调 用 
sem_open()， 不 相关 的 进程 能 够 访问 同一 个 信号 量 。 

未 命名 信号 量 : 这 种 信号 量 没有 名 字 ， 相 反 ， 它 位 于 内 存 中 一 个 预 
先 商 定 的 位 置 处 。 未 命名 信号 量 可 以 在 进程 之 间或 一 组 线程 之 间 共 
享 。 当 在 进程 之 间 共 享 时 ， 信 号 量 必 须 位 于 一 个 共享 内 存 区 域 中 
(System V, POSIX#kmmap()) 。 当 在 线程 之 间 共 享 时 ， 信 和 号 量 可 
人 《如 在 堆 上 或 在 一 个 全 局 
变量 中 ) 。 


POSIX 信 和 号 量 的 运作 方式 与 System V 信 号 量 类 似 ， 即 POSIX 信 号 量 
是 一 个 整数 ， 其 值 是 不 能 小 于 0 的 。 如 果 一 个 进程 试图 将 一 个 信号 量 的 
值 减 小 到 小 于 0， 那 么 取决 于 所 使 用 的 函数 ， 调 用 会 阻塞 或 返回 一 个 表 
明 当 前 无 法 执行 相应 操作 的 错误 。 


一 些 系 统 并 没有 完整 地 实现 POSIX 信 号 量 ， 一 个 典型 的 约束 是 只 支 
持 未 命名 线程 共享 的 信号 量 。 在 Linux 2.4 上 也 是 同样 的 情况 ， 只 有 在 
Linux 2.6 以 及 带 NPTL 的 glibc 上 ， 完 整 的 POSIX 信 号 量 实现 才 可 用 。 









































在 带 NPTL 的 Linux 2.6 上 ， 信 号 量 操作 (递增 和 递减 ) 
是 使 用 futex(2) 系 统 调用 来 实现 的 。 





53.2 命名 信号 量 
要 使 用 命名 信号 量 必须 要 使 用 下 列 函 数 。 


sem_open(0) 函 数 打 开 或 创建 一 个 信号 量 并 返回 一 个 句柄 以 供 后 续 

用 使 用 ， 如 果 这 个 调用 会 创建 信号 量 的 话 还 会 对 所 创建 的 信号 量 迁 
行 初 始 化 。 

e sem_post(sem) 和 sem_wait(sem) 函 数 分 别 递 增 和 递减 一 个 信号 量 值 。 
e sem_getvalue() 函 数 获取 一 个 信号 量 的 当前 值 。 

2 函数 删除 调用 进程 与 它 之 前 打开 的 一 个 信号 量 之 间 的 关 
e sem_unlinkO 函 数 删 除 一 个 信 言 写 量 名 字 并 将 其 标记 为 在 所 有 进程 关 
闭 该 信号 量 时 删除 该 信号 量 。 











SUSv3 并 没有 规定 如 何 实现 命名 信号 量 。 一 些 UNIX 实 现 将 它们 创 
ra Ua cs eam 个 特殊 位 置 处 的 文件 。 在 Linuxz 上， 命名 信 

量 被 创建 成 小 型 POSIX 共 享 内 存 对 象 ， 其 名 字 的 形式 为 sem.name， 这 
此 对 象 将 被 放 在 一 个 挂 载 在 /dev/shm 目 录 之 下 的 专用 tmpfs 文 件 系统 中 
(14.1075) 。 这 个 文件 系统 具备 内 核 持 久 性 一 一 它 所 包含 的 信号 量 对 
象 将 会 持久 ， 即 使 当前 没有 进程 打开 它们 ， 但 如 果 系 统 被 关闭 的 话 ， 这 
些 对 象 就 会 丢失 。 


在 Linux 上 从 内 核 2.6 起 开始 支持 命名 信号 量 。 
53.2.1 ‘oe 个 命名 信和 号 FE 


sem_open() 函 数 创建 和 打开 一 个 新 的 命名 信号 量 或 打开 一 个 既 有 信 











o =. 
“7 Eo 
#include <fcntl.h> /* Defines 0 * constants */ 
#include <sys/stat.h> /* Defines mode constants */ 


#include <semaphore.h> 


sem_t *sem_open(const char *name, int oflag, .. 
/* mode_t mode, unsigned int gai EYS 


Returns pointer to semaphore on success, or SEM_FAILED on error 














name 参 数 标识 出 了 信号 量 ， 其 取 值 需 符 合 51.1 市 中 给 出 的 规则 。 


oflag 参 数 是 一 个 位 掩 码 ， 它 确定 了 是 打开 一 个 既 有 信号 量 还 是 创建 
并 打开 一 个 新 信号 量 。 如 果 oflag 为 0， 那 么 将 访问 一 个 既 有 信和 号 量 。 如 
果 在 oflag 中 指定 了 O_CREAT， 并 且 与 给 定 的 name 对 应 的 信号 量 的 不 存 
在 ， 那 么 就 创建 一 个 新 信号 量 。 如 果 在 oflag 中 同时 指定 了 O_CREAT 和 
O_EXCL， 并 且 与 给 定 的 name 对 应 的 信号 量 已 经 存在 ， 那 么 Sem_open() 
就 会 失败 。 


如 果 sem_open() 被 用 来 打开 一 个 既 有 信号 量 ， 那 么 调用 就 只 需要 两 
个 参数 。 但 如 果 在 flags 中 指定 了 O_CREAT， 那 么 就 还 需要 另外 两 个 参 
数 : mode 和 value。《 如 果 与 name 对 应 的 信号 量 己 经 存在 ， 那 么 这 两 个 
参数 会 被 忽略 。) 具体 如 下 。 


e mode 参 数 是 一 个 位 掩 码 ， 它 指定 了 施加 于 新 信号 量 之 上 的 权限 。 
这 个 参数 能 取 的 位 值 与 文件 上 的 位 值 是 一 样 的 〈( 表 15-4) 并 且 与 
open() 一 样 ，mode 参 数 中 的 值 会 根据 进程 的 umask 来 取 掩 码 (15.4.6 
节 ) 。SUSv3 并 没有 为 oflag 规 定 任何 访问 模式 标记 
(O_RDONLY、O_WRONLY 以 及 O_RDWR) 。 很 多 实现 ， 包 括 
Linux， 在 打开 一 个 信号 量 时 会 将 访问 模式 默认 成 O_ RDWR， 因 为 
大 多 数 使 用 信号 量 的 应 用 程序 都 同时 会 用 到 sem_postO0 和 
sem_wait()， 从 而 需要 读 取 和 修改 一 个 信号 量 的 值 。 这 意味 着 需要 
确保 将 读 权 限 和 写 权 限 赋 给 每 一 类 需要 访问 这 个 信号 量 的 用 户 一 一 
owner、group 以 及 other。 

value 参 数 是 一 个 无 符号 整数 ， 它 指定 了 新 信号 量 的 初始 值 。 信 号 量 
的 创建 和 初始 化 操作 是 原子 的 ， 这 样 承 避免 了 System V 信 号 量 初始 
化 时 所 需 完成 的 复杂 工作 了 (47.57) 。 


不 管 是 创建 一 个 新 信号 量 还 是 打开 一 个 既 有 信号 量 ，sem_open() 都 
会 返回 一 个 指 同 一 个 sem_t 值 的 指针 ， 而 在 后 续 的 调用 中 则 可 以 通过 这 
个 指针 来 操作 这 个 信号 量 。sem_open() 在 发 生 错 误 时 会 返回 
SEM_FAILED 值 。 (在 大 多 数 实现 上 ，SEM_FAILED 被 定义 成 了 
((sem_t *) 0) 或 ((sem_t*) 一 1)〉; Linux 采 用 了 前 面 一 种 定义 。 


SUSvV3 声 称 当 在 sem_open() 的 返回 值 指 问 的 sem_t 变 量 的 副本 上 执行 
操作 (sem_post()、sem_wait0 等 ) 时 结果 是 未 定义 的 。 换 句 话 说 ， 像 下 
面 这 种 使 用 sem2 的 做 法 是 不 允许 的 。 


























Sem 七 *sp, sem2 

sp = sem_open(...); 
sem2 = *sp; 

sem wait(&sem2); 


通过 fork0 创 建 的 子 进 程 会 继承 其 父 进程 打开 的 所 有 命名 信号 量 的 
pa ala 父 进程 和 子 进程 就 能 够 使 用 这 些 信号 量 来 同步 它 
门 的 动作 了 。 


示例 程序 


程序 清单 53-1 为 sem_open() 函 数 提供 了 一 个 命令 行 界面 。 在 
usageError0 函 数 中 给 出 了 这 个 程序 的 命令 格式 。 


下 面 的 shell 会 话 日 志 演示 了 如 何 使 用 这 个 程序 。 的 
令 来 否决 other 用 户 的 所 有 权限 ， 然 后 互 斥 地 创建 一 个 信号 量 并 查看 包 合 
该 命名 信号 量 的 Linux 特 有 的 虚拟 目录 中 的 内 容 。 




















$ umask 007 

$ ./psem_create -cx /demo 666 666 means read+write for all users 
$ 1s -1 /dev/shm/sem.* 

-rYw-rw---- 1 mtk users 16 Jul 6 12:09 /dev/shm/sem.demo 


Isr 4 EY 4a HH Ze A EE umask? m S Nother) 87€ Wread+write 
权限 。 


如 果 再 次 使 用 同样 的 名 字 来 互 斥 地 创建 一 个 信号 量 ， 那 么 这 个 操作 
就 会 失败 ， 因 为 这 个 名 字 已 经 存在 了 。 


$ ./psem_create -cx /demo 666 
ERROR [EEXIST File exists] sem_open Failed because of 0_EXCL 








程序 清单 53-1: 使 用 sem_open() 打 开 或 创建 一 个 POSIX 命 名 信号 量 





psem/psem_create.c 


#include <semaphore.h> 
#include <sys/stat.h> 
#include <fcntl.h> 
#include "tlpi_hdr.h" 


static void 
usageError(const char *progName) 


fprintf(stderr, "Usage: %s [-cx] name [octal-perms [value]]\n", progName); 


fprintf(stderr, " -c Create semaphore (O_CREAT)\n"); 
fprintf(stderr, " -x Create exclusively (0_EXCL)\n"); 
exit (EXIT_FAILURE); 
} 
int 
main(int argc, char *argv[]) 
{ 
int flags, opt; 
mode t perms; 
unsigned int value; 
sem_t *sem; 
flags = 0; 
while ({opt = getopt(argc, argv, "cx")) != -1) { 
switch (opt) { 
case 'c': flags |= O_CREAT; break; 
case 'x': flags |= 0 EXCL; break; 
default: usageError(argv[0]); 
} 
} 
if (optind >= argc) 
usageError(argv[0]); 
/* Default permissions are rw------- 3 default semaphore initialization 
value is 0 */ 
perms = (argc <= optind + 1) ? (S_IRUSR | S _IWUSR) : 
getInt(argv[optind + 1], GN BASE 8, “octal-perms"); 
value = (argc <= optind + 2) ? 0: getInt(argv[optind + 2], 0, “value"); 
sem = sem open(argv[optind], flags, perms, value); 
if (sem == SEM FAILED) 
errExit("sem open"); 
exit(EXIT SUCCESS); 
} 


psem/psem_create.c 


53.2.2 ”关闭 一 个 信号 量 














当 一 个 进程 打开 一 个 命名 信号 量 时 ， 系 统 会 记录 进程 与 信号 量 之 间 
的 关联 关 系 。sem_close() 函 数 会 终止 这 种 关联 关系 〈 即 关闭 信号 量 ) 


释放 系统 为 该 进程 关联 到 该 信号 量 之 上 的 所 有 资源 ， 并 递减 引用 该 信号 
量 的 进程 数 。 





#include <semaphore.h> 


int sem_close(sem t *sem); 





Returns 0 on success, or -1 on error 








a 打开 的 命名 信号 量 在 进程 终止 或 进程 执行 了 一 个 execO 时 会 自动 家 
关闭 。 





关闭 一 个 信号 量 并 不 会 删除 这 个 信号 量 ， 而 要 删除 信号 


量 则 需要 使 
用 sem_unlink()。 


53.2.3 删除 一 个 命名 信和 号 





sem_unlinkO 函 数 删 除 通 过 name 标 识 的 信号 量 并 将 信号 量 标记 成 一 
旦 所 有 进程 都 使 用 完 这 个 信号 量 时 就 销 旺 该 信 号 量 (这 可能 立即 发生， 
前 提 是 所 有 打开 过 该 信号 量 的 进程 都 已 经 关闭 了 这 个 信和 号 量 ) 











#include <semaphore.h> 
int sem_unlink(const char *name); 


Returns 0 on success, or -1 on error 








程序 清单 53-2 演 示 了 如 何 使 用 sem_unlink()。 















































程序 清单 53-2: 使 用 sem_unlink0 来 断 开 链接 一 个 POSIX 命 名 信号 量 


psem/psem_unLlink.c 
#include <semaphore.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 
{ 
if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s sem-name\n", argv[0]); 


if (sem unlink(argv[1]) == -1) 


errExit("sem_unlink"); 
exit(EXIT_SUCCESS); 


psem/psem_unLink.c 





53.3 ”信号 量 操作 


与 System V 信 和 号 量 一 样 ， 一 个 POSIX 信 和 号 量 也 是 一 个 整数 并 且 系 统 
不 会 允许 其 值 小 于 0。 但 POSIX 信 号 量 的 操作 不 同 于 System V 信 号 量 的 
操作 ， 具 体 包括 : 


。 修改 信和 号 =A 的 函数 sem_post()#llsem_wait() 一 次 只 操作 
一 个 信号 量 。 与 之 形成 对 比 System V semopO 系 统 调 用 能 够 
操作 一 个 集合 中 的 多 个 信号 

sem_post()#llsem_wait() ef 数 只 对 信号 量 值 加 1 和 减 1。 与 之 形成 对 比 
的 是 ，semop0 〇 能够 加 上 和 减 去 任意 一 个 值 。 

System V 信 号 量 并 没有 提供 一 个 wait-for-zero 的 操作 (将 
sops.sem_op 字 段 指 定 为 0 的 semopO 调 用 ) 。 


读者 看 了 上 面 的 列表 可 能 会 认为 ，POSIX 信 号 量 没有 System V 信 号 
量 强大 ， 然 而 事实 却 并 非 如 此 能 够 通过 System V 信 号 量 完成 的 工作 
都 可 以 使 用 POSIX 信 号 量 来 完成 。 在 一 些 情况 下 ， 使 用 POSIX 信 号 量 可 
能 需要 多 做 一 昔 编 和 工作 ， 但 在 一 般 应 用 场景 中 ， 使 用 POSIX 信 号 量 实 
际 所 需 的 编程 量 要 更 少 。 (对 于 大 多 数 应 用 程序 来 讲 ，System V 信 和 号 
API 过 于 复杂 了 。 ) 





























53.3.1 等待 一 个 信号 量 


sem_wait() 函 数 会 递减 ( 减 小 1) sem 引 用 的 信号 量 的 值 。 





#include <semaphore.h> 


int sem wait(sem t *sem); 


Returns 0 on success, or -1 on error 











如 果 信 号 量 的 当前 值 大 于 0， 那 么 sem_wait() 会 立即 返回 。 如 果 信 号 
量 的 当前 值 等 于 0， 那么 sem_wait() 会 阻塞 直到 信号 量 的 值 大 于 0 为 止 ， 
当 信 号 量 值 大 于 0 时 该 信号 量 值 束 被 递减 并 有 日 sem_wait(0) 会 返回 


如 果 一 个 阻塞 的 sem_wait() 调 用 被 一 个 信号 处 理 器 中 汤 了 ， 那 么 它 
就 会 失败 并 返回 EINTR 错 误 ， 不 管 在 使 用 sigaction() 建 立 这 个 信号 处 理 











器 时 是 否 采 用 了 SA_RESTART 标 记 。 “在 其 他 一 些 UNIX 实 现 上 ， 
SA_RESTART 会 导致 sm_waitO 自 动 重启 。 ) 


程序 清单 53-3 中 的 程序 为 sem_wait() 函 数 提供 了 一 个 命令 行 界面 ， 
稍 后 就 会 演示 如 何 使 用 这 个 程序 。 


程序 清单 53-3: 使 用 sem_wait() 来 递减 一 个 POSIX 信 号 量 








psem/psem wait.c 


#include <semaphore.h> 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


sem_t *sem; 


if (argc < 2 || strcmp(argv[1], “--help") == 0) 
usageErr("%s sem-name\n", argv[0]); 


sem = sem open(argv[1], 0); 
if (sem == SEM FAILED) 


errExit("sem open"); 


if (sem wait(sem) == -1) 
errExit("sem wait"); 


printf("%ld sem wait() succeeded\n", (long) getpid()); 
exit (EXIT_SUCCESS) ; 


psem/psem_wait.c 


sem_trywait() K Bl sem_wait() HJ —~S4EBA SEAR A 





#tinclude <semaphore. h> 


int sem_trywait(sem_t *sem); 


Returns 0 on success, or -1 on error 











如 果 递 减 操作 无 法 立即 被 执行 ， 那 么 sem_trywaitO 就 会 失败 并 返回 
EAGAIN 错 误 。 


sem_timedwaitO 函 数 是 sem_waitO 的 另 一 个 变 体 ， 它 允许 调用 者 为 
调用 被 阻塞 的 时 间 量 指定 一 个 限制 。 








#define XOPEN SOURCE 600 
#include <semaphore.h> 


int sem timedwait(sem t *sem, const struct timespec *abs_timeout); 





Returns 0 on success, or -1 on error 








如 果 sem_timedwaitO 调 用 因 超 时 而 无 法 递减 信号 量 ， 那 么 这 个 调用 
就 会 失败 并 返回 ETIMEDOUT 错 误 。 


abs_timeout 参 数 是 一 个 结构 (23.4.27) ， 它 将 超时 时 间 表 示 成 了 
自 新 纪元 到 现在 为 止 的 秒 数 和 纳 秒 数 的 绝对 值 。 如 果 需 要 指定 一 个 相对 
超时 时 间 ， 那 么 就 必须 要 使 用 clock_gettime() 获 取 CLOCK_REALTIME 
时 钟 的 当前 值 并 在 该 值 上 加 上 所 需 的 时 间 量 来 生成 一 个 适合 在 
sem_timedwait() 中 使 用 的 timespec 结 构 。 


sem_timedwait() 函 数 最 初 是 在 POSIX.1d (1999) 中 进行 规定 的 ， 所 有 
UNIX 实 现 都 没有 提供 这 个 函数 。 


53.3.2 ”发 布 一 个 信和 与 量 


sem_postO 函 数 递增 《〈 增 加 1) sem 引 用 的 信号 量 的 值 。 





#include <semaphore.h> 


int sem_post(sem_t *semm); 


Returns 0 on Success, OT -1 on error 











如 果 在 sem_postO 调 用 之 前 信号 量 的 值 为 0， 并 且 其 他 某 个 进程 〈 或 
线程 ) 正在 因 等 竺 递减 这 个 信号 量 而 阻塞 ， 那 么 该 进程 会 被 唤醒 ， 它 的 
sem_wait(O 调 用 会 继续 往 前 执行 来 递减 这 个 信号 量 。 如 果 多 个 进程 〈 或 
线程 ) 在 sem_waitO 中 阻塞 了 ， 并 且 这 些 进 程 的 调度 采用 的 是 默认 的 循 
环 时 间 分 享 策略 ， 那 么 哪个 进程 会 被 唤醒 并 允许 递减 这 个 信号 量 是 不 确 
EN. (System V 信 和 号 量 一 样 ，POSIX 信 号 量 仅仅 是 一 种 同步 机 制 ， 
而 不 是 一 种 排队 机 制 。) 


SUSv3 规 定 如 果 进 程 或 线程 执行 在 实时 调度 策略 下 ， 
那么 优先 级 最 高 等 待 时 间 最 长 的 进程 或 线程 将 会 被 唤醒 。 





与 System V 信 号 量 一样 ， 递 增 一 个 POSIX 信 号 量 对 应 于 释放 一 些 共 
吝 资 源 以 供 其 他 进程 或 线程 使 用 。 


程序 清单 53-4 中 的 程序 为 sem_post0 函 数据 供 了 一 个 命令 行 界面 ， 
稍 后 会 演示 如 何 使 用 这 个 程序 。 






































程序 清单 53-4: 使 用 sem_post0 递 增 一 个 POSIX 信 号 量 




















psem/psem_post.c 


#include <semaphore.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


sem t *sem; 


if (argc != 2) 
usageErr("%s sem-name\n", argv[0]); 


sem = sem_open(argv[1], 0); 
if (sem == SEM FAILED) 
errExit("sem_open"); 


if (sem post(sem) == -1) 
errExit("sem_post"); 
exit (EXIT SUCCESS) ; 


a 


psem/psem_post.c 
53.3.3 ”获取 信号 量 的 当前 值 


sem_getvalue() 函 数 将 sem 引 用 的 信号 量 的 当前 值 通 过 sval 指 向 的 int 
变量 返回 。 





#include <semaphore.h> 


int sem getvalue(sem_t *sem, int *sval); 


Returns 0 on success, or -1 on error 





如 果 一 个 或 多 个 进程 〈 或 线程 ) 当前 正在 阻塞 以 等 待 递减 信号 量 
值 ， 那 么 sval 中 的 返回 值 将 取决 于 实现 。SUSvV3 人 允许 两 种 做 法 : 0 或 一 个 
绝对 值 等 于 在 sem_wait() 中 阻塞 的 等 待 者 数目 的 负数 。Linux 和 其 他 一 些 
实现 采用 了 第 一 种 行为 ， 而 另 一 些 实现 则 采用 了 后 一 种 行为 。 





尽管 当 存 在 被 阻塞 的 等 待 者 时 在 sval 中 返回 一 个 负 值 是 
有 用 的 ， 特 别 是 对 于 调试 来 讲 ， 但 SUSv3 并 没有 规定 这 种 
行为 ， 因 为 一 些 系统 用 来 高 效 地 实现 POSIX 信 号 量 的 技术 
RA (Seip LEIA) 记录 被 阻塞 的 等 待 者 的 数目 。 





注意 在 sem_getvalue() 返 回 时 ，sval 中 的 返回 值 可 能 已 经 过 时 了 。 依 
赖 于 sem_getvalue0 返 回 的 信息 在 执行 后 续 操 作 时 未 发 生变 化 的 程序 将 会 
全 到 检查 时 、 使 用 时 (time-of-check、time-of-use〉 的 竞争 条 件 (38.6 
eae 


程序 清单 53-5 使 用 了 sem_getvalue() 来 获取 名 字 通 过 命令 行 参 数 指定 
的 信号 量 的 值 ， 然 后 在 标准 输出 上 显示 该 值 。 





程序 清单 53-5: 使 用 sem_getvalue() 获 取 一 个 POSIX 信 号 量 的 值 





psem/psem_getvalue.c 
#include <semaphore.h> 
#include "tlpi_hdr.h" 
int 
main(int argc, char *argv[]) 


int value; 
sem t *sem; 


if (argc != 2) 
usageErr("%s sem-name\n", argv[0]); 
sem = sem open(argv[1], 0); 
if (sem == SEM FAILED) 
errExit("sem_open"); 


if (sem_getvalue(sem, &value) == -1) 
errExit("sem_getvalue"); 


printf("%d\n", value); 
exit(EXIT SUCCESS); 


psem/psem_getvalue.c 
示例 


下 面 的 shell 会 话 日 志 演 示 了 如 何 使 用 本 半 中 到 目前 为 止 给 出 的 各 个 
程序 。 正 先 创建 了 一 个 初始 值 为 零 的 信号 量 ， 然 后 在 后 台 局 动 一 个 逆 减 
这 个 信号 量 的 程序 。 


$ ./psem_create -c /demo 600 0 
$ ./psem_wait /demo & 
[1] 31208 


百 台 命令 将 会 阻塞 ， 这 是 因为 信号 量 的 当前 值 为 0， 从 而 无 法 递减 











接着 获取 这 个 信号 量 的 值 。 


$ ./psem_getvalue /demo 
0 


从 上 面 可 以 看 到 值 0。 在 其 他 一 些 实现 上 可 能 会 看 到 值 -1， 表 示 存 
在 一 个 进程 正在 等 待 这 个 信号 量 。 


接 独 执行 一 个 命令 来 递增 这 个 信号 量 ， 这 将 会 导致 后 台 程 序 中 被 阻 





塞 的 sem_wait(O 调 用 完成 执行 。 


$ ./psem_post /demo 
$ 31208 sem wait() succeeded 


上面 输 出 中 的 最 后 一 行 表 明 shell 提 示 符 会 与 后 台 作 业 的 输出 混合 
在 一 起 。 ) 


按 下 回 车 后 就 能 看 到 下 一 个 shell 提 示 符 ， 这 也 会 导致 shell 报 告 已 终 
目的 后 合作 业 的 信息 。 接 着 在 信号 量 上 执行 后 续 的 操作 。 


Press Enter 





[1]- Done ./psem wait /demo 

$ ./psem_post /demo Increment semaphore 

$ ./psem_getvalue /demo Retrieve semaphore value 

1 

$ ./psem_unlink /demo We’re done with this semaphore 


53.4 未 命名 信和 号 量 


未 合 名 信和 号 量 〈 也 被 称 为 基于 所 存 的 信号 量 ) 是 类 型 为 sem_t 并 存 
储 在 应 用 程序 分 配 的 内 存 中 的 变量 。 通过 将 过 个 信号 量 放 在 由 几 个 进程 
或 线程 共性 的 内 存 区 域 中 就 能 够 使 这 个 信号 量 对 这 些 进程 或 线程 可 用 。 


操作 未 命名 信号 量 所 使 用 的 函数 与 操作 命名 信号 量 使 用 的 函数 是 一 
样 的 (sem_wait()、sem_post0 〇 以 及 sem_getvalue0 等 ) 。 此 外 ， 还 需要 用 
到 另外 两 个 函数 。 


e sem_initO 函 数 对 一 个 信号 量 进 行 初 始 化 并 通知 系统 该 信号 量 会 在 进 
ee ee 
e Sem_destroy(sem) 函 数 销 毁 一 个 信号 


这 些 函 数 不 应 该 被 应 用 到 命名 信号 量 上 
未 命名 与 命名 信和 号 量 对 比 


使 用 未 命名 信号 量 之 后 就 无 需 为 信号 量 创建 一 个 名 字 了 ， 这 种 做 法 
在 下 列 情 况 中 是 比较 有 用 的 。 


° eee k 享 的 信号 量 不 需要 名 字 。 将 一 个 未 命名 信号 量 作 为 一 个 
共享 (全 局 或 堆 上 的 ) 变量 自动 会 使 之 对 所 有 线程 可 访问 。 

在 相关 进程 间 共 享 的 信号 量 不 需要 名 字 。 如 果 一 个 父 进程 在 一 块 共 
享 内 存 区 域 中 (如 一 个 共 STERKAR) 分 配 了 一 个 未 命名 信和 号 量 ， 
那么 作为 forkO 操 作 的 一 部 分 ， 子 进程 会 目 动 继承 这 个 映射 ， 从 而 
继承 这 个 信号 量 。 

如 果 正 在 构建 的 是 一 个 动态 数据 结构 〈 如 二 叉 树 ) ， 并 且 其 中 的 每 
一 项 都 需要 一 个 关联 的 信号 量 ， 那么 最 简单 的 做 法 是 在 每 一 项 中 都 
分 配 一 个 未 命名 信号 量 。 为 每 一 项 打开 一 个 命名 信和 号 量 需 要 为 如 何 
生成 每 一 项 中 的 信号 量 名 字 【唯一 的 ) 和 管理 这 些 名 字 设 计 一 个 规 
则 《如 当 不 再 需要 它们 时 就 对 它们 进行 断 开 链接 操作 ) 。 


53.4.1 初始 化 一 个 未 命名 信和 号 量 
sem_init() 函 数 使 用 value 中 指定 的 值 来 对 sem 指 同 的 未 命名 信号 量 进 
























































行 初 始 化 。 








#include <semaphore.h> 


int sem_init(sem_t *sem, int pshared, unsigned int value); 


Returns 0 on success, or -1 on error 














pshared 参 数 表明 这 个 信号 量 是 在 线程 间 共 部 还 是 在 进程 间 共 孚 。 


如 果 pshared 等 于 0， 那 么 信号 量 将 会 在 调用 进程 中 的 线程 间 进 行 共 
享 。 在 这 种 情况 下 ，sem 通 常 被 指定 成 一 个 全 局 变量 的 地 址 或 分 配 
在 堆 上 的 一 个 变量 的 地 址 。 线 程 共 享 的 信号 量具 备 进程 持久 性 ， 它 
在 进程 终止 时 会 被 销毁 。 

如 果 pshared 不 等 于 0， 那 么 信号 量 将 会 在 进程 间 共 享 。 在 这 种 情况 
下 ，sem 必 须 是 共享 内 存 区 域 〈 一 个 POSIX 共 享 内 存 对 象 、 一 个 使 

用 mmapO 创 建 的 共享 映射 、 或 一 个 System V 共 享 内 存 段 ) 中 的 某 个 
位 置 的 地 址 。 信 号 量 的 持久 性 与 它 所 处 的 共享 内 存 的 持久 性 是 一 样 
的 。〔 通 过 其 中 大 部 分 技术 创建 的 共享 内 存 区 域 具备 内 核 持 久 性 。 

但 共享 匿名 映射 是 一 个 例外 ， 只 要 存在 一 个 进程 维持 着 这 种 映射 ， 

那么 它 束 一直 存在 下 去 。)〉 由 于 通过 forkO 创 建 的 子 进程 会 继承 其 

父 进程 的 内 存 了 映射， 因此 进程 共享 的 信号 量 会 被 通过 forkO 创 建 的 

和 
EMA 0 


之 所 以 需要 pshared 参 数 是 因为 下 列 原因 。 


一 些 实现 不 文 持 进程 间 共 享 的 信号 量 。 在 这 些 系 统 上 为 pshared 指 定 
一 个 非 零 值 会 导致 sm_init0 返 回 一 个 错误 。Linux 直 到 内 核 2.6 以 及 
NPTL 线 程 化 技术 的 出 现 之 后 才 开 始 支 持 未 命名 的 进程 间 共 至 的 信 

号 量 。( 在 老式 的 LinuxThreads 实 现 中 ， 如 果 为 pshared 指 定 了 一 个 
非 零 值 ， 那 么 sem_init(0) 就 会 失败 并 返回 一 个 ENOSYS 错 误 。) 

在 同时 支持 进程 间 共 享 信号 量 和 线程 间 共 享 信 号 量 的 实现 上 ， 指 定 
采用 何 种 共享 方式 是 有 必要 的 ， 因 为 系统 必须 要 执行 特殊 的 动作 来 
文 持 所 需 的 共享 方式 。 提 供 此 类 信息 还 使 得 系统 能 够 根据 共享 的 种 
类 来 执行 优化 工作 。 


NPTL sem_init() 实 现 会 忽略 pshared， 因 为 不 管 采 用 何 种 共享 方式 都 












































无 需 执 行 特殊 的 动作 ， 但 可 移植 的 以 及 面 问 未 来 的 应 用 程序 应 该 为 


pshared 指 定 一 个 恰当 的 值 。 


SUSv3 规 定 sem_init(0 在 失败 时 返回 -1， 但 并 没有 对 成 
功 时 的 返回 值 进 行规 定 。 然 而 大 多 数 现代 UNIX 实 现 的 手册 
上 都 声称 在 成 功 时 会 返回 0。 (一 个 值得 注意 的 例外 情况 是 
Solaris， 它 对 返回 值 的 描述 与 SUSv3 规 范 中 的 描述 类 似 。 但 
通过 检查 OpenSolaris 的 源 代 码 可 以 发 现在 该 实现 上 
sem_init() 成 功 时 会 返回 9。) SUSv4 对 这 种 情况 进行 了 矫 
正 ， 规 定 sem_init0 在 成 功 时 应 该 返回 0。 














未 命名 信号 量 不 存在 相关 的 权限 设置 《 即 sem_init0 中 并 不 存在 在 
sem_open() 中 所 需 的 mode 参 数 ) 。 对 一 个 未 命名 信号 量 的 访问 将 由 进程 
在 底层 共享 内 存 区 域 上 的 权限 来 控制 。 


SUSv3 规 定 对 一 个 已 初始 化 过 的 未 命名 信和 号 量 进行 初始 化 操作 将 会 
导致 未 定义 的 行为 。 换 名 话说 ， 必 须要 将 应 用 程序 设计 成 只 有 一 个 进程 
或 线程 来 调用 sem_init0 以 初始 化 一 个 信号 量 。 

与 命名 信号 量 一 样 ，SUSv3 声 称 在 地 址 通过 传 入 sem_initO 的 sem 参 


数 指定 的 sem_t 变 量 的 副本 上 执行 操作 的 结果 是 未 定义 的 ， 因 此 应 该 总 
是 只 在 “最 初 的 ”信号 量 上 执行 操作 。 
示例 程序 

在 30.1.2 贡 中 给 出 了 一 个 使 用 互 斥 体 来 保护 一 个 存在 两 个 线程 访问 
同一 个 全 局 变量 的 临界 区 的 程序 《程序 清单 30-2) 。 程 序 清单 53-6 使 用 
一 个 未 命名 线程 共 孚 的 信号 量 解决 了 同样 的 问题 。 


程序 清单 53-6: 使 用 一 个 POSIX 未 命名 信号 量 来 保护 对 全 局 变量 的 访问 



























































psem/thread_incr_psem.c 
#include <semaphore.h> 
#include <pthread.h> 
#include "tlpi hdr.h" 


static int glob = 0; 
static sem_t sem; 


static void * /* Loop ‘arg’ times incrementing ‘glob’ */ 
threadFunc(void *arg) 
{ 

int loops = *((int *) arg); 

int loc, j; 


for (j = 0; j < loops; j++) { 
if (sem wait(&sem) == -1) 
errExit("sem wait"); 


loc = glob; 
loc++; 
glob = loc; 


if (sem_post(&sem) == -1) 
errExit("sem_post"); 


} 


return NULL; 
} 


int 
main(int argc, char *argv[ ]) 


pthread t t1, t2; 
int loops, s; 


loops = (argc > 1) ? getInt(argv[1], GN_GT_0, "num-loops") : 10000000; 
/* Initialize a thread-shared mutex with the value 1 */ 


if (sem init(&sem, 0, 1) == -1) 
errExit("sem_init"); 


/* Create two threads that increment 'glob' */ 


s = pthread create(&t1, NULL, threadFunc, &loops); 
if (s != 0) 

errExitEN(s, "pthread create"); 
s = pthread create(&t2, NULL, threadFunc, &loops); 
if (s != 0) 

errExitEN(s, "pthread_create"); 


/* Wait for threads to terminate */ 


s = pthread join(t1, NULL); 
if (s != 0) 
errExitEN(s, "pthread_join"); 
s = pthread_join(t2, NULL); 
if (s t= 0) 
errExitEN(s, "pthread join"); 


printf("glob = %d\n", glob); 
exit(EXIT SUCCESS); 


psem/thread_incr_psem.c 








53.4.2 ”销毁 一 个 未 命名 信号 量 


sem_destroy0O 函 数 将 销毁 信 号 量 sem， 其 中 sem 必 须 是 一 个 之 前 使 用 
sem_init0) 进 行 初 始 化 的 未 命名 者 号 量 。 只 有 在 不 存在 进程 或 线程 在 等 待 
一 个 信号 量 时 才能 够 安全 销毁 这 个 信 号 量 








#include <semaphore.h> 


int sem_destroy(sem_t *sem); 


Returns 0 on success, or -1 on error 




















当 使 用 sem_destroy() 销 旦 oo 名 信号 量 之 后 就 能 够 使 用 
sem_init() 来 重新 初始 化 这 个 信号 量 


一 个 未 命名 信和 号 量 应 该 在 其 底层 的 内 存 被 释放 之 前 被 销毁 。 例 如 ， 
如 果 信 号 量 一 人 1 自动 分 配 的 变量 ， 那么 在 其 答 主 函数 返回 之 前 就 应 该 销 
毁 这 个 信号 量 。 如 果 信 号 量 位 于 一 个 POSIX 共 享 内 存 区 域 中 ， 那 么 在 所 
有 远程 痢 使 用 完 这 个 信 筷 量 以 及 在 使 用 shm _unlinkO 对 这 个 共享 内 存 对 
象 执行 断 开 链接 操作 之 前 应 该 销毁 这 个 信号 量 。 


在 一 些 实现 上 ， 省 略 sem_destroy() 调 用 不 会 导致 问题 的 发 生 ， 但 在 
其 他 实现 上 ， 不 调用 sem_destroy0O 会 导致 资源 泄露 。 可 移植 的 应 用 程序 
应 该 调用 sem_destroy0 以 避免 此 类 问题 的 发 生 。 











53.5 与 其 他 同步 技术 比较 


本 节 将 比较 POSIX 信 号 量 和 其 他 两 种 同步 搁 术 : System V 信 和 号 量 和 
互 斥 体 。 


Ah DN 


POSIX 信 号 量 与 System V 信 和 号 量 比较 

POSIX 信 和 号 量 和 System V 信 和 号 量 都 可 以 用 来 同步 进程 的 动作 。51.2 
节 列 出 了 POSIX IPC 与 System V IPC 相 比 具 备 的 几 项 优势 : POSIX IPC 接 
口 更 加 简单 并 且 与 传统 的 UNIX 文 件 模型 更 加 一 致 ， 同 时 POSIX IPC 对 象 
是 引用 计数 的 ， 这 样 就 简化 了 确定 何 时 删除 一 个 IPC 对 象 的 工作 。 这 些 
常规 优势 同样 也 是 POSIX〈 命 名) 信号 量 优 于 System V 信 号 量 的 地 方 。 








与 System V 信 号 量 相 比 ，POSIX 信 和 号 量 还 具备 下 列 优势 。 


POSIX 信 号 量 接口 与 System V 信 号 量 接口 相 比 要 简单 许多 。 这 种 简 
单 性 并 没有 以 牺牲 功能 的 强大 性 为 代价 。 

POSIX 命 名 信和 号 量 消 除了 System V 信 号 量 存在 的 初始 化 问题 (47.5 
= 

将 一 个 POSIX 未 命名 信号 量 与 动态 分 配 的 内 存 对 象 关联 起 来 更 加 简 
单 : 只 需要 将 信号 量 舱 入 到 对 象 中 即 可 。 

在 高 度 频 繁 地 争夺 信号 量 的 场景 中 〈 即 信号 量 上 的 操作 经 常 因 另 一 
个 进程 将 信号 量 值 设置 成 一 个 阻止 操作 立即 往 前 执行 的 的 值 而 阻 
塞 ) ， 那 么 POSIX 信 号 量 的 性 能 与 System V 信 号 量 的 性 能 是 类 似 
的 。 但 在 争夺 信和 号 量 不 那么 频繁 的 场景 中 〈 即 信号 量 的 值 能 够 让 操 
作 正 和 常 加 前 执行 而 不 会 阻塞 操作 〉， ，POSIX 信 号 量 的 性 能 要 比 
System V 信 号 量 好 很 多 。 (在 笔者 测试 的 系统 上 ， 两 者 在 性 能 上 的 
差异 要 超过 一 个 数量 级 ， 参 见 练习 53-4。) POSIX 在 这 种 场景 中 之 
所 以 能 够 做 得 更 好 是 因为 它们 的 实现 方式 只 有 在 发 生 和 争夺 的 时 候 才 
需要 执行 系统 调用 ， 而 System V 信 号 量 操 作 则 不 管 是 否 发 生 争 夺 都 
需要 执行 系统 调用 。 


然而 POSIX 信 号 量 与 System V 信 号 量 相 比 也 存在 下 列 劣势 。 


。 POSIX 信 号 量 的 可 移植 性 稍 差 。 (在 Linux 上， 直到 内 核 2.6 才 开始 


文 持 命名 信和 号 量 。) 

















。BPOSIX 信 和 号 量 不 文 持 System V 信 和 号 量 中 的 撤销 特性 。 《然而 在 47.8 
节 中 指出 过 这 个 特性 在 一 些 场景 中 可 能 并 没有 太 大 的 用 处 。) 


POSIX 信 号 量 与 Pthreads 互 斥 体 对 比 


POSIX 信 号 量 和 Pthreads 互 斥 体 都 可 以 用 来 同步 同一 个 进程 中 的 线 
程 的 动作 ， 并 且 它 们 的 性 能 也 是 相近 的 。 然 而 互 斥 体 通 常 是 首选 方法 ， 
因为 互 斥 体 的 所 有 权 属 性 能 够 确保 代码 具有 良好 的 结构 性 〈 只 有 锁 住 互 
斥 体 的 线程 才能 够 对 其 进行 解锁 ) 。 与 之 形成 对 比 的 是 ， 一 个 线程 能 够 
递增 一 个 被 另 一 个 线程 递减 的 信号 量 。 这 种 灵活 性 会 导致 产生 结构 糟糕 
i ( 正 是 因为 这 个 原因 ， 信 号 量 有 时 候 会 被 称 为 并 发 式 编程 

J“goto”。 ) 


互 斥 体 在 一 种 情况 下 是 不 能 用 在 多 线程 应 用 程序 中 的 ， 在 这 种 情况 
下 信号 量 可 能 就 成 了 一 种 首选 方法 了 。 由 于 信号 量 是 异步 信号 安全 的 
《参见 表 21-1) ， 因 此 在 一 个 信号 处 理 堪 中 可 以 使 用 sem_post0 函 数 来 
与 另 一 个 线程 进行 同步 ， 而 信号 量 束 无 法 完成 这 项 工作 ， 因 为 操作 互 斥 
体 的 Pthreads 函 数 不 是 异步 信号 安全 的 。 然 而 通 稼 处 理 异 步 信 号 的 首选 
方法 是 使 用 sigwaitinfo0 〈 或 类 似 的 函数 ) 来 接收 这 些 信 号 ， 而 不 是 使 用 
信号 处 理 器 〈33.2.4 节 ) ， 因 此 信和 号 量 比 互 斥 体 在 这 一 点 上 的 优势 很 少 
有 机 会 发 挥 出 来 。 






































53.6 ”信号 量 的 限制 
SUSv3 为 信号 量 定 义 了 两 个 限制 。 
SEM_NSEMS_MAX 


这 是 一 个 进程 能 够 拥有 的 POSIX 信 号 量 的 最 大 数目 。SUSv3 要 求 这 
个 限制 至 少 为 256。 在 Linux 上 ，POSIX 信 号 量 数目 实际 上 会 受 限 于 可 用 
的 内 存 。 


SEM_VALUE_MAX 


这 是 一 个 POSIX 信 号 量 值 能 够 取 的 最 大 值 。 信 号 量 的 取 值 可 以 为 0 
到 这 个 限制 之 间 的 任意 一 个 值 。SUSv3 要 求 这 个 限制 至 少 为 32767， 
Linux 实 现 允 许 这 个 值 最 大 为 INT_MAX (在 Linux/x86-32 上 是 
2147483647) 。 

















53.7 总结 


POSIX 信 号 量 允许 进程 或 线程 同步 它们 的 动作 。POSIX 信 号 量 有 两 
种 : 命名 的 和 未 命名 的 。 GE 十 一 个 名 字 标 识 的 ， 它 可 以 被 
所 有 拥有 打开 这 个 信号 量 的 权限 的 进程 ] 共 至 。 未 命名 信号 量 没 有 名 字 ， 
但 可 以 将 它 放 在 一 央 由 进程 或 线程 共享 的 内 存 区 域 中 ， 使 得 这 些 进程 或 
线程 能 够 共享 同一 个 信号 量 〈 如 放 在 一 个 POSIX 共 享 内 存 对 象 中 以 供 进 
Rete, 或 放 在 一 个 全 局 变量 中 以 供 线程 共 至 ) 


POSIX 信 号 量 接口 比 System V 信 号 量 接口 简单 。 言 写 量 的 分 配 和 操 
作 是 一 个 一 个 进行 的 ， 并 且 等 待 和 发 布 操 作 只 会 将 信号 量 值 调 整 1。 


与 System V 信 和 号 量 相 比 ，POSIX 信 和 号 量具 备 很 多 优势 ， 但 它们 的 可 
移植 性 要 稍 差 一 点 。 对 于 多 线程 应 用 程序 中 的 同步 来 讲 ， 互 斥 体 一 般 来 
讲 要 优 于 信和 号 量 。 


更 多 信息 


[Stevens, 1999] 提 供 了 POSIX 信 号 量 的 另 一 种 表示 并 给 出 了 使 用 其 他 
各 种 IPC 机 制 (FIFO, PAPI SCF VAA System VIE h) 的 用 户 空间 
实现 。[Butenhof, 1996] 介 绍 了 POSIX 信 号 量 在 多 线程 应 用 程序 中 的 用 
VF 






































53.8 “习题 


53-1. 将 程序 清单 48-2 和 程序 清单 48-3 中 的 程序 〈48.4 节 ) 重 写 一 
个 多 线程 应 用 程序 ， 其 中 两 个 线程 之 间 通 过 一 个 全 局 缓冲 区 来 向 对 方 传 
递 数据 并 使 用 POSIX 信 和 号 量 来 同步 操作 。 


53-2. 修改 程序 清单 53-3 中 的 程序 (psem_wait.c) 使 之 使 用 
sem_timedwait(0) 来 蔡 代 sem_waitO0。 这 个 程序 应 该 接收 一 个 额外 的 命令 
行 参数 来 指定 一 个 〈 相 对 ) 秒 数 以 作为 sem_timedwait0) 调 用 中 的 超时 时 
间 。 

53-3. 使 用 System V 信 号 量 来 设计 POSIX 信 和 号 量 的 一 个 实现 。 

53-4. 在 53.5 节 中 指出 过 POSIX 信 号 量 在 信号 量 争夺 不 激烈 的 情况 
下 的 性 能 要 比 System V 信 号 量 好 很 多 。 编 写 两 个 程序 〈 分 别 使 用 这 两 种 


信号 量 ) 来 验证 这 个 结论 。 每 个 程序 都 应 该 将 一 个 信号 量 递 增 和 递减 指 
定 的 次 数 。 比 较 执 行 两 个 程序 所 需 的 时 间 。 














54E POSIX 共 享 内 存 


在 前 面 的 章节 中 介绍 了 两 种 允许 无 关 进 程 共享 内 存 区 域 以 便 执行 
IPC 的 技术 : System V 共 享 内 存 (第 48 章 ) 和 共享 文件 映射 (49.4.2 
) 。 这 两 种 技术 都 存在 一 些 不 足 。 


e System V 共 享 内 存 模 型 使 用 的 是 键 和 标识 符 ， 这 与 标准 的 UNIX IO 
模型 使 用 文件 名 和 描述 符 的 做 法 是 不 一 致 的 。 Re ZETE 意味 着 使 用 
System V 共 享 内 存 段 需要 一 整套 全 新 的 系统 调用 和 命令 。 

。 使 用 一 个 共享 文件 映射 来 进行 IPC 要 求 创 建 一 个 磁盘 文件 ， 即 使 无 
需 对 共享 区 域 进 行 持 久 存 储 也 需要 这 样 做 。 除 了 因 需 要 创建 文件 所 
带 来 的 不 便 之 外 ， 这 种 技术 还 会 带 来 一 些 文件 1O 开 销 。 


由 于 存在 这 些 不 足 ， 所 以 POSIX.1b 定 义 了 一 组 新 的 共享 内 存 API; 
POSIX 共 享 内 存 ， 这 也 是 本 章 的 主题 。 














System V 中 的 共享 内 存 段 在 POSIX 中 被 称 为 共享 内 存 
对 象 。 这 种 术语 上 的 差异 是 因为 历史 原因 一 一 这 两 个 术语 
所 指 的 都 是 进程 间 共 享 的 一 块 内 存 区 域 。 








54.1 概述 


POSIX 共 享 内 存 能 够 让 无 关 进 程 共享 一 个 映射 区 域 而 无 需 创 建 一 个 
相应 的 映射 文件 。Linux 从 内 核 2.4 起 开始 支持 POSIX 共 享 内 存 。 


SUSv3 并 没有 对 POSIX 共 享 内 存 的 实现 细节 进行 规定 ， 特 别 是 没有 
要 求 使 用 一 个 (真实 或 虚拟 ) 文件 系统 来 标识 共享 内 存 对 象 ， 但 很 多 
UNIX 实 现 都 采用 了 文件 系统 来 标识 共享 内 存 对 象 。 一 些 UNIX 实 现 将 共 
享 对 象 名 创建 为 标准 文件 系统 上 一 个 特殊 位 置 处 的 文件 。Linux 使 用 挂 
载 于 /dev/shm 目 录 下 的 专用 tmpfs 文 件 系统 (14.10 市 ) 。 这 个 文件 系统 有 具 
有 内 核 持 久 性 一 一 它 所 包含 的 共享 内 存 对 象 会 一 直 持 久 ， 即 使 当前 不 存 
在 任何 进程 打开 它 ， 但 这 些 对 象 会 在 系统 关闭 之 后 丢失 。 














系统 上 POSIX 共 享 内 存 区 域 占据 的 内 存 总 量 受 限 于 底 
层 的 tmpfs 文 件 系统 的 大 小 。 这 个 文件 系统 通常 会 在 启动 时 
使 用 默认 大 小 (如 256MB) 进行 挂 载 。 如 果 有 必要 的 话 ， 
超级 用 户 能 够 通过 使 用 命令 mount —o remount,size=<num- 


bytes> 重 新 挂 载 这 个 文件 系统 来 修改 它 的 大 小 。 





要 使 用 POSIX 共 至 内 存 对 象 需 要 完成 下 列 任 务 。 


1. 使 用 shm_open() 函 数 打 开 一 个 与 指定 的 名 字 对 应 的 对 象 。 (在 
51.1 节 中 介绍 了 控制 POSIX 共 享 内 存 对 象 的 命名 规则 。) shm open) 
数 与 open() 系 统 调用 类 似 ， 它 会 创建 一 个 新 共享 对 象 或 打开 一 个 既 有 对 
象 。 作 为 函数 结果 ，shm_open0 会 返回 一 个 引用 该 对 象 的 文件 描述 符 。 


2. 将 上 一 步 中 获得 的 文件 描述 符 传 入 nmap0) 调 用 并 在 其 flags 参 数 
中 指定 MAP_SHARED。 这 会 将 共 胖 闪存 对 象 映 射 进 进程 的 虚拟 地 址 空 
间 。 与 mmap0) 的 其 他 用 法 一 样 ， 一 旦 映射 了 对 象 之 后 就 能 够 关闭 该 文件 
描述 符 而 不 会 影响 到 这 个 映射 。 然 而 ， 有 可 能 需要 将 这 个 文件 描述 符 保 





持 在 打开 状态 以 便 后 续 的 fstat0 和 ftruncateO 调 用 使 用 这 个 文件 描述 符 
(参见 54.2 节 ) 。 


POSIX 共 享 内存 上 shm_open0 和 mmapO0 的 关系 类 似 于 
System V 共 享 内 存 上 shmget() 和 shmat() 的 关系 。 使 用 POSIX 
共享 内 存 对 象 需要 两 步 式 过 程 (shm_open0 加 上 mmap0O) 
而 没有 使 用 单个 函数 来 执行 两 项 任务 是 因为 历史 原因 。 在 
POSIX 委 员 会 增加 这 个 特性 时 ，mmap0O 调 用 已 经 存在 了 

([Stevens, 1999]) 。 实 际 上 ， 这 里 所 需要 做 的 事情 是 使 用 
shm_open() 调 用 替换 open() 调 用 ， 其 中 的 差别 是 使 用 
shm_open() 无 需 在 一 个 基于 磁盘 的 文件 系统 上 创建 一 个 文 
件 。 














由 于 共享 内 存 对 象 的 引用 是 通过 文件 描述 符 来 完成 的 ， 因 此 可 以 直 
接 使 用 UNIX 系 统 中 已 经 定义 好 的 各 种 文件 摘 述 符 系 统 调 用 《如 
ftruncate()) 而 无 需 增 加 新 的 用 途 特殊 的 系统 调用 (System V 共 享 内 存 就 
需要 这 样 做 ) 。 


54.2 ”创建 共享 内 存 对 象 


shm_openO 函 数 创 建 和 打开 一 个 新 的 共享 内 存 对 象 或 打开 一 个 既 有 
对 象 。 传 入 shm_open() 的 参数 与 传 入 open() 的 参数 类 似 。 








#include <fcntl.h> /* Defines 0 * constants */ 
#include <sys/stat.h> /* Defines mode constants */ 
#include <sys/mman.h> 


int shm_open(const char *name, int oflag, mode_t mode); 





Returns file descriptor on success, or -] on error 








name 参 数 标 识 出 了 符 创 建 或 待 打开 的 共 孕 内存 对 象 。oflag 参 数 是 
一 个 改变 调用 行为 的 位 掩 码 ， 表 54-1 对 这 个 参数 的 取 值 进行 了 总 结 。 


表 54-1: shm_open() oflag 参 数 的 位 值 





对 象 不 存在 时 创建 对 象 
与 O_CREAT 互 斥 地 创建 对 象 








打开 只 读 访 问 
打开 读 写 访问 


将 对 象 长 度 截 断 为 夫 








oflag 参 数 的 用 途 之 一 是 确定 是 打开 一 个 既 有 的 共享 内 存 对 象 还 是 创 
建 并 打开 一 个 新 对 象 。 如 果 oflag 中 不 包含 O_CREAT， 那 么 就 打开 一 个 
既 有 对 象 。 如 果 指 定 了 O_CREAT， 那 么 在 对 象 不 存在 时 就 创建 对 象 。 
同时 指定 O_EXCL 和 O_CREAT 人 能够 确保 调用 者 是 对 象 的 创建 者 ， 如 果 
对 象 已 经 存在 ， 那 么 就 返回 一 个 错误 (EEXIST) 。 


oflag 参 数 还 表明 了 调用 进程 在 共享 内 存 对 象 上 的 访问 模式 ， 其 取 值 
为 O0 RDONLY 或 O RDWR。 








剩 下 的 标记 值 O_TRUNC 会 导致 在 成 功 打开 一 个 既 有 共享 内 存 对 象 
之 后 将 对 象 的 长 度 截断 为 零 。 


在 Linux 上 ， 截 断 在 只 读 打 开 时 也 会 发 生 。 但 SUSv3 声 
称 使 用 O_TRUNC 进 行 一 个 只 读 打 开 操 作 的 结果 是 未 定义 
的 ， 因 此 在 这 种 情况 下 无 法 可 移植 地 依赖 于 某 个 特定 的 行 


在 一 个 新 共享 内 存 对 象 被 创建 时 ， 其 所 有 权 和 组 所 有 权 将 根据 调用 
shm_openg0 的 进程 的 有 效用 户 和 组 ID 来 设 定 ， 对 象 权 限 将 会 根据 mode 参 
数 中 设置 的 掩 码 值 来 设 定 。mode 参 数 能 取 的 位 值 与 文件 上 的 权限 位 值 
是 一 样 的 〈 表 15-4) 。 与 open0 〇 系统 调 用 一 样 ，mode 中 的 权限 掩 码 将 会 
根据 进程 的 umask 〈15.4.6 节 ) 来 取 值 。 与 open0) 不 同 的 是 ， 在 调用 
TN 时 总 是 需要 mode 参 数 ， 在 不 创建 新 对 象 时 需要 将 这 个 参数 值 

HE AO. 





shm_open() 返 回 的 文件 描述 符 会 设置 close-on-exec 标 记 
(FD_CLOEXEC, 27.475) ， 因 此 当 程 序 执行 了 一 个 execO 时 文件 描述 
a 自动 关闭 。 (这 与 在 执行 exec() 时 映射 会 被 解除 的 事实 是 一 致 
Je) 


一 个 新 共享 内 存 对 象 被 创建 时 其 初始 长 度 会 被 设置 为 0。 这 意味 着 
在 创建 完 一 个 新 共享 内 存 对 象 之 后 通常 在 调用 mmap0 之 前 需要 调用 
ftruncate() (5.877) 来 设置 对 象 的 大 小 。 在 调用 完 mmapO 之 后 可 能 还 需 
要 使 用 ftruncate() 来 根据 需求 扩大 或 收缩 共享 内 存 对 象 ， 但 需要 记 住 在 
49.4.3 节 讨论 过 的 各 个 要 点 。 


在 扩展 一 个 共享 内 存 对 象 时 ， 新 增加 的 字 节 会 自动 被 初始 化 为 0。 
在 任何 时 候 都 可 以 在 shm_open0 返 回 的 文件 描述 符 上 使 用 fstatO) 


(15.197) 以 获取 一 个 stat 结 构 ， 该 结构 的 字段 会 包含 与 这 个 共享 内 存 对 
象 相关 的 信息 ， 包 括 其 大 小 〈stsize) 、 权 限 〈stmode) 、 所 有 者 























(st_uid) 以 及 组 (st_gid) 。 (这 些 字段 是 SUSv3 唯 一 要 求 fstat() 在 stat 
结构 中 设置 的 字段 ， 但 Linux 还 会 在 时 间 字 段 中 返回 有 意义 的 信息 ， 并 
且 会 在 剩 下 的 字段 中 返回 各 种 用 处 稍 小 一 点 的 信息 。) 


使 用 fchmod0 和 fchown() 能 够 分 别 修改 共享 内 存 对 象 的 权限 和 所 有 
Mo 


示例 程序 


程序 清单 54-1 提 供 了 一 个 简单 的 使 用 shm_openO0、ftruncateO 以 及 
mmap() 的 例子 。 这 个 程序 创建 了 一 个 大 小 通过 命令 行 参 数 指定 的 共享 内 
存 对 象 并 将 该 对 象 映 射 进 进程 的 虚拟 地 址 空间 。 【映射 这 一 步 是 多 余 
的 ， 因 为 实际 上 不 会 对 共享 内 存 做 任何 操作 ， 这 里 仅仅 是 为 了 演示 如 何 
4 Fammap(). ) 这 个 程序 允许 使 用 命令 行 选项 来 选择 shm_openO 调 用 使 
用 的 标记 (0O_CREAT 和 O_EXCL) 。 


下 面 的 例子 使 用 这 个 程序 创建 了 一 个 10000 字 节 的 共享 内 存 对 象 ， 
然后 在 /dev/shm 中 使 用 ls 命令 显示 出 了 这 个 对 象 。 


$ ./pshm_create -c /demo_shm 10000 

$ ls -1 /dev/shm 

total 0 

-IW------- 1 mtk Users 10000 Jun 20 11:31 demo_shm 
































程序 清单 54-1: 创建 一 个 POSIX 共 享 内 存 对 象 





pshm/pshm_create.c 


#include <sys/stat.h> 
#include <fcntl.h> 

#include <sys/mman.h> 
#include "tlpi hdr.h" 


static void 
usageError(const char *progName) 


fprintf(stderr, "Usage: %s [-cx] name size [octal-perms]\n", progName) ; 


fprintf(stderr, " -c Create shared memory (0 CREAT)\n"); 
fprintf(stderr, " -x Create exclusively (0 EXCL)\n"); 
exit(EXIT FAILURE); 

} 

int 


main(int argc, char *argv[]) 


int flags, opt, fd; 
mode t perms; 
size t size; 

void *addr; 


flags = O RDWR; 
while ((opt = getopt(argc, argv, "cx")) != -1) { 
switch (opt) { 


case 'c': flags |= 0 CREAT; break; 
case 'x': flags |= 0 EXCL; break; 
default: usageError(argv[0]); 

} 


} 


if (optind + 1 >= argc) 
usageError(argv[0]); 


size = getLong(argv[optind + 1], GN ANY BASE, “size"); 
perms = (argc <= optind + 2) ? (S_IRUSR | S IWUSR) : 
getLong(argv[optind + 2], GN BASE 8, “octal-perms"); 


/* Create shared memory object and set its size */ 


fd = shm_open(argv[optind], flags, perms); 
if (fd == -1) 
errExit("shm_open"); 


if (ftruncate(fd, size) == -1) 
errExit("ftruncate"); 


/* Map shared memory object */ 
addr = mmap(NULL, size, PROT READ | PROT WRITE, MAP SHARED, fd, 0); 
if (addr == MAP_FAILED) 


errExit("mmap"); 


exit(EXIT_SUCCESS) ; 


pshm/pshm_create. 


54.3 TELA EXT R 


程序 清单 54-2 和 程序 清单 54-3 演 示 了 如 何 使 用 一 个 共享 内 存 对 BAS 
数据 从 一 个 进程 传输 到 为 一 个 进程 中 。 程 序 清单 54- 2 将 其 第 一 个 合 SIT 
参数 中 包含 的 字符 串 复 制 到 了 一 个 名 字 通 过 其 第 一 个 命令 行 参 数 指 定 的 
既 有 共 吾 内 存 对 象 中 。 在 映射 这 个 对 象 和 执行 复制 之 前 ， 这 个 程序 使 用 
aa 内 存 对 象 的 长 度 设置 为 与 待 复制 的 字符 串 的 长 度 














程序 清单 54-2: 将 数据 复制 进 一 个 POSIX 共 享 内 存 对 象 





pshm/pshm_write.c 


#include <fcntl.h> 
#include <sys/mman.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 
int fd; 


size t len; /* Size of shared memory object */ 
char *addr; 


if (argc != 3 || strcmp(argv[1], "--help") == 0) 
usageErr("%s shm-name string\n", argv[0]); 


fd = shm_open(argv[1], O_RDWR, 0); /* Open existing object */ 
if (fd == -1) 
errExit("shm open"); 


len = strlen(argv[2]); 

if (ftruncate(fd, len) == -1) /* Resize object to hold string */ 
errExit("ftruncate"); 

printf("Resized to %ld bytes\n", (long) len); 


addr = mmap(NULL, len, PROT READ | PROT_WRITE, MAP_SHARED, fd, 0); 
if (addr == MAP_FATLED) 
errExit("mmap"); 


if (close(fd) == -1) 
errExit("close"); /* ‘fd' is no longer needed */ 


printf("copying %ld bytes\n", (long) len); 
memcpy{addr, argv[2], len); /* Copy string to shared memory */ 
exit(EXIT SUCCESS); 


pshm/pshm_write.c 
程序 清单 54-3 中 的 程序 在 标准 输出 上 显示 了 名 字 通 过 其 命令 行 参数 
指定 的 既 有 共享 内 存 对 象 中 的 字符 串 。 在 调用 shm_open0 之 后 ， 这 个 程 


序 使 用 了 fstatO 来 确定 共享 内 存 的 大 小 并 在 映射 该 对 象 的 mmapO 调 用 中 
和 打印 这 个 字符 串 的 write() 调 用 中 使 用 这 个 值 。 


程序 清单 54-3: 从 一 个 POSIX 共 享 内 存 对 象 中 复制 数据 




















pshm/pshm_read.c 


#include <fcntl.h> 

#include <sys/mman.h> 
#include <sys/stat.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 
int fd; 


char *addr; 
struct stat sb; 


if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s shm-name\n", argv[0]); 


fd = shm_open(argv[1], O_RDONLY, 0); /* Open existing object */ 
if (fd == -1) 
errExit("shm_ open"); 


/* Use shared memory object size as length argument for mmap() 
and as number of bytes to write() */ 


if (fstat(fd, &sb) == -1) 
errExit("fstat"); 


addr = nmap(NULL, sb.st size, PROT READ, MAP SHARED, fd, 0); 
if (addr == MAP_FAILED) 
errExit("mmap"); 


if (close(fd) == -1); /* 'fd' is no longer needed */ 
errExit("close"); 


write(STDOUT FILENO, addr, sb.st_size); 


printf("\n"); 
exit(EXIT SUCCESS); 


pshm/pshm_read.c 


下 面 的 shell 会 话 演示 了 如 何 使 用 程序 清单 54-2 和 程序 清单 54-3 中 的 
。 首先 使 用 程序 清单 54-1 中 的 程序 创建 了 一 个 长 度 为 零 的 共享 内 存 
对 象 。 


$ ./pshm_create -c /demo_shm 0 


$ ls -1 /dev/shm Check the size of object 
total 4 
-IW------- 1 mtk Users 0 Jun 21 13:33 demo_shm 


然后 使 用 程序 清单 54-2 中 的 程序 将 一 个 字符 串 复制 进 共 至 内 存 对 


$ ./pshm_write /demo_shm ‘hello’ 


$ ls -1 /dev/shm Check that object has changed in size 
total 4 
-IW------- 1 mtk users 5 Jun 21 13:33 demo_shm 


从 上 面 的 输出 中 可 以 看 出 这 个 程序 重新 设 定 了 共 孚 内 存 对 象 的 大 小 
使 之 具备 足够 的 空间 来 存储 指定 的 字符 串 。 


最 后 使 用 程序 清单 54-3 中 的 程序 来 显示 共 胖 内 存 对 象 中 的 字符 串 。 


$ ./pshm_read /demo_shin 
hello 














应 用 程序 通常 需要 使 用 一 些 同 步 技 术 来 让 进程 协调 它们 对 共享 内 存 
的 访问 。 在 这 里 给 出 的 示例 Shell 会 话 中 ， 这 种 协调 是 通过 用 户 一 个 一 个 
运行 这 些 程序 来 完成 的 。 通 常 ， 应 用 程序 会 使 用 一 种 同步 原 语 〈( 如 信号 
量 ) 来 协调 对 共享 内 存 对 象 的 访问 。 








54.4 删除 共享 内 存 对 和 象 


SUSv3 要 求 POSIX 共 享 内 存 对 象 至 少 具 备 内 核 持 久 性 ， 即 它们 会 持 
人 当 不 再 需要 一 个 共享 内 存 对 象 时 就 
应 该 使 用 shm_unlink0) 删 除 它 








#include <sys/mman.h> 


int shm_unlink(const char *name); 








Returns 0 on success, or -1 on error 





shm_unlink() 函 数 会 删除 通过 name 指 定 的 共享 内 存 对 象 。 删 除 一 个 
共享 内 存 对 象 不 会 影响 对 象 的 既 有 映射 《 它 会 保 特 有 效 至 到 相应 的 进程 
调用 munmap0 或 终止 ) ， 但 会 阻止 后 续 的 shm_openO 调 用 打开 这 个 对 
和 


程序 清单 54-4 中 的 程序 使 用 shm_unlinkO 来 删除 通过 程序 的 命令 行 
参数 指定 的 共享 内 存 对 象 。 


程序 清单 54-4: 使 用 shm_unlink0 来 断 开 链接 一 个 POSIX 共 享 内 存 对 象 








pshm/pshm_unlink.c 


#include <fcntl.h> 
#include <sys/mman. h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s shm-name\n", argv[0]); 

if (shm_unlink(argv[1]) == -1) 
errExit("shm unlink"); 

exit(EXIT SUCCESS); 


pshm/pshm_unlink.c 


54.5 ”共享 内 存 API 比 较 





到 现在 为 止 已 经 考虑 了 几 种 不 同 的 在 无 关 进 程 间 共有 至 内 存 区 域 的 技 





System V 共 享 内 存 〈 第 48 章 ) 。 
共享 文件 映射 〈49.4.2 节 ) 。 
POSIX 共 享 内 存 对 象 本章 的 主题 ) 。 


人 k 享 匿名 映射 〈49.7 
， 它 用 于 通过 forkO 关 联 的 进程 间 共 享 内 存 。 





下 列 要 扣 适 用 于 所 有 这 些 技术 。 


它们 提供 了 快速 IPC， 应 用 程序 通常 必须 要 使 用 一 个 信号 量 (或 其 
他 同步 原 语 ) 来 同步 对 共享 区 域 的 访问 。 
一 旦 共享 内 存 对 象 区 域 被 映射 进 进程 的 虚拟 地 址 空间 之 后 ， 它 就 与 
进程 的 内 存 空间 中 的 其 他 部 分 无 异 了 。 
系统 会 以 类 似 的 方式 将 共享 内 存 区 域 放 置 进 进 程 的 虚拟 地 址 空间 
中 。 在 48.5 节 中 介绍 System V 共 享 内 存 的 时 候 对 这 种 放置 进行 了 概 
括 。Linux 特 有 o a i 列 出 与 所 有 种 类 的 共享 内 存 
区 域 相 关 的 信息 。 
假设 不 会 将 一 个 共享 内 存 区 域 映射 到 一 个 固定 的 地 址 处 ， 那 么 就 需 
要 确保 所 有 对 区 域 中 的 位 置 的 引用 会 使 用 偏 移 量 来 表示 ， 而 不 是 使 
用 指针 来 表示 ， 这 是 因为 这 个 区 域 在 不 同 进程 中 所 处 的 虚拟 地 址 可 
能 是 不 同 的 (48.6 节 ) 。 
在 第 50 章 中 介 绍 的 操作 虚拟 内 存 区 域 的 函 数 可 被 应 用 于 使 用 这 些 技 
术 中 任意 一 项 技术 创建 的 其 LEA FF KIRK. 
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一 个 共享 文件 映射 的 内 容 会 与 底层 映 冉 文件 同步 意味 着 存储 在 共享 
内 存 区 域 中 的 数据 能 够 在 系统 重启 之 间 得 到 持久 保存 。 
System V 和 POSIX 共 至 内 存 使 用 了 不 同 的 机 制 来 标识 和 引用 共享 内 
存 对 象 。System V 使 用 了 其 自己 的 键 和 标识 符 模 型 ， 它 们 与 标准 的 
UNIX OFRE =AL RUKIA H Fa fi 要 单独 的 系统 调用 《〈 如 shmctl0) 
和 命令 Slee 与 之 形成 对 比 的 是 ，POSIX 共 享 内 存 使 用 
了 名 字 和 文件 描述 符 ， 其 结果 是 使 用 各 种 既 有 的 UNIX 系 统 调用 
(如 fstat() 和 fchmod()〉 就 能 够 查看 和 操作 共享 内 存 对 象 了 。 
System V 共 享 内 存 段 的 大 小 在 创建 时 (shmget()) 就 确定 了 。 与 之 
形成 对 比 的 是 ， 在 基于 文件 的 映射 和 POSIX 共 享 内 存 对 象 上 可 以 使 
用 ftruncate0) 来 调整 底层 对 象 的 大 小 ， 然 后 使 用 munmap0O0 和 mmapO 
(或 Linux 特 有 的 mremap()) 重建 映射 。 

因为 历史 原因 ，System V 共 享 内 存 受 文 持 程度 比 mmap() 和 POSIX 共 
oo 得 多 ， 尽 管 现在 大 多 数 UNIX 实 现 都 已 经 提供 所 有 这 


除了 最 后 有 关 可 移植 性 的 一 点 之 外 ， 上 面 列 出 的 差异 都 是 共享 文件 




















映射 和 POSIX 共 享 内存 对 象 的 优势 。 因 此 在 新 应 用 程序 中 应 该 优先 从 这 
些 接口 中 挑选 一 个 使 用 ， 而 不 是 System V 共 享 内 存 。 至 于 选择 哪个 接口 
则 取决 于 是 否 需要 一 个 持久 性 存储 。 共 享 文件 映射 提供 了 持久 性 存储 ， 
ae EE py PE IE AIII e T ER E EA EINE (FE REE SCR T= 





54.6 ”总 结 


POSIX 共 享 内 存 对 象 用 来 在 无 关 进程 间 共 享 一 块 内 存 区 域 而 无 需 创 
建 一 个 底层 的 磁盘 文件 。 为 创建 POSIX 共 享 内存 对 象 需要 使 用 
shm_open() 调 用 来 蔡 换 通常 在 mmap0 调 用 之 前 调用 的 open()。 
shm_open() 调 用 会 在 基于 内 存 的 文件 系统 中 创建 一 个 文件 ， 并 且 可 以 使 
用 传统 的 文件 描述 符 系 统 调用 在 这 个 虚拟 文件 上 执行 各 种 操作 。 特 别 
ae 要 使 用 ftruncate(0) 来 设置 共享 内 存 对 象 的 大 小 ， 因 为 其 初始 长 


现在 已 经 介绍 了 无 关 进 程 间 的 三 种 共享 内 存 区 域 技 术 : System VIE 
享 内 存 、 共 享 文件 映射 以 及 POSIX 共 享 内 存 对 象 。 这 三 三 种 技术 之 间 存 在 
很 多 相似 之 处 ， 但 也 存在 一 些 重要 的 差别 ， 除 了 可 移植 性 问题 外 ， 这 些 
差异 都 对 共享 文件 映射 和 POSIX 共 享 内 存 对 象 有 利 。 




















54.7 “习题 


54-1. 重 写 程序 清单 48-2 (svshm_xfr_writer.c) 和 程序 清单 48- 
3 (svshm_xfr_reader.c) ， 使 之 使 用 POSIX 共 享 内 存 对 象 来 取代 System 
V 共 享 内 存 。 





第 55 音 ”文件 加 锁 


前 面 的 章节 介绍 了 进程 能 用 来 同步 动作 的 各 项 技术 ， 包 括 信 号 (第 
20 章 到 第 22 章 ) 和 信和 号 量 〈 第 47 章 和 第 53 章 ) 。 本 章 将 介绍 专门 为 文件 
设计 的 同步 技术 。 





55.1 概述 


应 用 程序 的 一 个 常见 需求 是 从 一 个 文件 中 读 取 一 些 数据 ， 修 改 这 些 
数据 ， 然 后 将 这 些 数据 写 回 文件 。 只 要 在 一 个 时 刻 只 有 一 个 进程 以 这 种 
方式 使 用 文件 就 不 会 存在 问题 ， 但 当 多 个 进程 同时 更 新 一 个 文件 时 间 题 
就 出 现 了 。 仿 设 各 个 进程 按照 下 面 的 顺序 来 于 新 一 个 包含 了 一 个 序号 的 
文件 。 


1. 从 文件 中 读 取 序 号 。 

2. 使 用 这 个 序号 完成 应 用 程序 定义 的 任务 。 

3. 递增 这 个 序号 并 将 其 写 回 文件 。 

这 里 存在 的 问题 是 两 个 进程 在 没有 采用 任何 同步 技术 的 情况 下 可 能 


会 同时 执行 上 面 的 步骤 ， 从 而 导致 〈 举 例 ) 出 现 图 55-1 中 给 出 的 结果 
(这 里 假设 序号 的 初始 值 为 1000) 。 





时 间 片 | 时 间 片 
耗 尽 开始 


DPS # (获得 1000) 


增 量 序号 # {到 1001) 
并 气 回 文件 
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l 
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l 
i 使 用 序号 # 
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使 用 序号 # 


图 例 说 明 
增 景 序号 # (11001) 在 CPU 上 
并 写 回 文件 rr al 














图 55-1: 两 个 进程 在 无 同步 的 情况 下 同时 更 新 一 个 文件 
问题 很 明显 : 在 执行 完 上 述 步骤 之 后 ， 文 件 中 包含 的 值 为 1001， 但 
其 所 包含 的 值 应 该 是 1002。 《这 是 一 种 竞争 条 件 。) 为 防止 出 现 这 种 情 
况 就 需要 采用 菏 种 形式 的 进程 间 同 步 。 
尽管 可 以 使 用 《比如 说 ) 信和 与 量 来 完成 所 需 的 同步 ， 但 通常 文 件 锁 
更 好 一 些 ， 因 为 内 核能 够 自动 将 锁 与 文件 关联 起 来 。 














[Stevens & Rago, 2005] 声 称 第 一 个 UNIX 文 件 加 锁 实现 
可 追溯 到 1980 年 ， 并 指出 本 间 着 重 介 绍 的 fcntl() 加 锁 函 数 于 
1984 年 出 现在 了 System V Release 2 中 。 


本 章 将 介绍 两 组 不 同 的 给 文件 加 锁 的 API。 


。flock0O 对 整个 文件 加 锁 。 
。 fcntl0 对 一 个 文件 区 域 加 锁 。 


flockO 系 统 调用 源 自 BSD， 而 fcntO 则 源 自 System V。 
使 用 flockO0 和 fcnt0 的 常规 方法 如 下 。 
给 文件 加 锁 。 
2. 执行 文件 MO。 
3. 解锁 文件 使 得 其 他 进程 能 够 给 文件 加 锁 。 


尽管 文件 加 锁 通 常会 与 文件 W/O 一 起 使 用 ， 但 也 可 以 将 其 作为 一 项 
更 通用 的 同步 技术 来 使 用 。 协 作 进程 可 以 约定 一 个 进程 对 整个 文件 或 一 
个 文件 区 域 进行 加 锁 表 示 对 一 些 共享 资源 《如 一 个 共享 内 存 区 域 ) 而 非 
文件 本 刁 的 访问 。 


混合 使 用 加 锁 和 stdio 函 数 


由 于 stdio 库 会 在 用 户 空间 进行 绥 冲 ， 因 此 在 混合 使 用 stdio 函 数 与 本 
草 介 绍 的 加 锁 技 术 时 需要 特别 小 心 。 这 里 的 问题 是 一 个 输入 缓冲 需 在 被 
加 锁 之 前 可 能 会 极 填 满 或 者 一 个 输出 缓冲 需 在 锁 被 删除 之 后 可 能 会 家 刷 
新 。 要 避免 这 些 问题 则 可 以 采用 下 面 这 些 方 法 。 


使 用 read0 和 write0 〈 以 及 相关 的 系统 调用 ) 取代 stdio 库 来 执行 文件 
I/O. 

在 对 文件 加 镇 之 后 立即 刷新 stdio 流 ， 并 且 在 释放 锁 之 前 立即 再 次 刷 
新 这 个 流 。 

fit isetul() (或 类 似 的 函数 ) 来 禁用 stdio 组 冲 ， 当 然 这 可 能 会 牺牲 


一 些 效率 。 














劝告 式 和 强制 式 加 锁 
在 本 章 剩 余 的 部 分 中 会 将 锁 分 成 劝告 式 和 强制 式 两 种 。 在 默认 情况 


下 ， 文 件 锁 是 劝告 式 的 ， 这 表示 一 个 进程 可 以 人 简单 地 忽略 男 一 个 进程 在 
文件 上 放置 的 锁 。 要 使 得 劝告 式 加 锁 模 型 能 够 正常 工作 ， 所 有 访问 文件 
的 进程 都 必须 要 配合 ， 即 在 执行 文件 VO 之 前 首先 需要 在 文件 上 放置 一 

把 锁 。 与 之 对 应 的 是 ， 强 制式 加 锁 系 统 会 强制 一 个 进程 在 执行 JO 时 需 

oe 锁 。 在 55.4 节 中 将 会 对 这 两 种 锁 之 间 的 差别 进行 
详细 介绍 。 








55.2 ”使 用 flock0 给 文件 加 锁 


尽管 fcntlO 提 供 的 功能 涵盖 了 flockO 提 供 的 功能 ， 但 这 里 仍然 需要 
对 其 进行 介绍 ， 因 为 在 一 些 应 用 程序 中 仍然 使 用 着 flock() 并 且 其 在 继承 
和 锁 释 放 方面 的 一 些 语义 与 fcntl0 是 不 同 的 。 





#include <sys/file.h> 


int flock(int fd, int operation); 


Returns 0 on success, or -1 on error 











flock() 系 统 调用 在 整个 文件 上 放置 一 个 锁 。 待 加 锁 的 文件 是 通过 传 
入 fd 的 一 个 打开 着 的 文件 描述 符 来 指定 的 。operation 参 数 指定 了 表 55-1 
中 描述 的 LOCK_SH、LOCK_EX 以 及 LOCK_UN 值 中 的 一 个 。 


在 默认 情况 下 ， 如 果 另 一 个 进程 已 经 持 有 了 文件 上 的 一 个 不 兼容 的 
锁 ， 那 么 flock0 会 阻塞 。 如 果 需 要 防止 出 现 这 种 情况 ， 那 么 可 以 在 
operation 参 数 中 对 这 些 值 取 OR (|) 。 在 这 种 情况 下 ， 如 果 另 一 个 进程 
已 经 持 有 了 文件 上 的 一 个 不 兼容 的 锁 ， 那 么 lockO 就 不 会 阻塞 ， 相 反 它 
会 返回 -1 并 将 errno 设 置 成 EWOULDBLOCK。 


表 55-1: flock() 中 operation 参 数 的 可 取 值 














在 fd 引用 的 文件 上 放置 一 把 共享 锁 
在 fa 引用 的 文件 上 放置 一 把 互 斥 锁 














解锁 fd 引用 的 文件 
发 起 一 个 非 阻塞 锁 请 求 




















任意 数量 的 进程 可 同时 持 有 一 个 文件 上 的 共享 锁 ， 但 在 同一 个 时 刻 
只 有 一 个 进程 能 够 持 有 一 个 文件 上 的 互 斥 锁 。《 换 句 话 说， 互 斥 锁 会 拒 
绝 其 他 进程 的 互 斥 和 共享 锁 请 求 。) 表 55-2 对 flock0O 锁 的 兼容 规则 进行 





了 总 结 。 这 里 假设 进程 A 首 先 放置 了 锁 ， 表 中 给 出 了 进程 B 是 否 能 够 放 
置 一 把 锁 。 








表 55-2: flock0 加 锁 类 型 的 兼容 性 


进程 A 进程 B 
~ LOCK_SH LOCK_EX 











LOCK_SH HE 7 
LOCK_EX 了 7 


不 管 一 个 进程 在 文件 上 的 访问 模式 是 什么 〈 读 、 写 、 或 读 写 ) ， 它 
都 可 以 在 文件 上 放置 一 把 共享 锁 或 互 斥 锁 。 


通过 再 次 调用 flock() 并 在 operation 参 数 中 指定 恰当 的 值 可 以 将 一 个 
既 有 共享 锁 转 换 成 一 个 互 斥 锁 〈《 反 之 亦 然 ) 。 将 一 个 共享 锁 转 换 成 一 个 
互 斥 锁 ， 在 另 一 个 进程 持 有 了 文件 上 的 共享 锁 时 会 阻塞 ， 除 非 同 时 指 阜 
了 LOCK_NB 标 记 。 


锁 转 换 的 过 程 不 一 定 是 原子 的 。 在 转换 过 程 中 首先 会 删除 既 有 的 
锁 ， 然 后 创建 一 个 新 锁 。 在 这 两 步 之 间 另 一 个 进程 对 一 个 不 兼容 锁 的 未 
决 请 求 可 能 会 得 到 满足 。 如 果 发 生 了 这 种 情况 ， 那 么 转换 过 程 会 被 阻 
塞 ， 或 者 在 指定 了 LOCK_NB 的 情况 下 转换 过 程 会 失败 并 且 进 程 会 丢失 
其 原先 持 有 的 锁 。 (在 最 初 的 BSD flock0O 实 现 和 很 多 其 他 UNIX 实 现 上 
会 出 现 这 种 行为 。) 











尽管 这 不 是 SUSv3 的 一 部 分 ， 但 大 多 数 UNIX 实 现 都 提 
供 了 flock0。 一 些 实现 要 求 包 含 <fcntl.h> 或 <sys/fcntlh>， 而 
不 是 <sys/file.h>。 由 于 flock() 源 自 BSD， 因 此 这 个 函数 所 施 
加 的 锁 有 时 候 会 被 称 为 BSD 文 件 锁 。 


程序 清单 55-1 演 示 了 如 何 使 用 flock()。 这 个 程序 首先 对 一 个 文件 加 
锁 ， 睡 虐 指 定 的 秒 数 ， 然 后 对 文件 解锁 。 程 序 接收 三 个 命令 行 参数 ， 其 


中 第 一 个 参数 是 待 加 锁 的 文件 ， 第 二 个 参数 指定 了 锁 的 类 型 (共享 或 互 
Fe) 以 及 是 否 包含 LOCK_NB 〈 非 阻塞 ) 标记 ， 第 三 个 参数 指定 了 在 获 
取 和 释放 锁 之 间 睡 眠 的 秒 数 ， 并 且 这 个 参数 是 可 选 的 ， 其 默认 值 是 10 


Po 





























程序 清单 55-1: 使 用 flock() 














filelock/t_flock.c 


#include <sys/file.h> 

#include <fcntl.h> 

#include “curr_time.h" /* Declaration of currTime() */ 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int fd, lock; 
const char *lname; 


if (argc < 3 || strcmp(argv[1], "--help") == 0 || 
strchr("sx", argv[2][0]) == NULL) 
usageErr("%s file lock [sleep-time]\n" 
” ‘lock’ is 's' (shared) or 'x' (exclusive)\n" 
optionally followed by 'n' (nonblocking)\n" 
‘secs’ specifies time to hold lock\n", argv[0]); 


lock = (argv[2][0] == 's') ? LOCK SH : LOCK_EX; 
if (argv[2][1] == 'n') 
lock |= LOCK_NB; 


fd = open(argv[1], O_RDONLY); /* Open file to be locked */ 
if (fd == -1) 
errExit("open"); 


Iname = (lock & LOCK SH) ? "LOCK_SH" : "LOCK_EX"; 


printf("PID %ld: requesting %s at %s\n", (long) getpid(), lname, 
currTime("%T")); 


if (flock(fd, lock) == -1) { 
if (errno == EWOULDBLOCK) 
fatal("PID %ld: already locked - bye!", (long) getpid()); 
else 
errExit("flock (PID=%ld)", (long) getpid()); 
} 


printf("PID %ld: granted  %s at %s\n", (long) getpid(), lname, 
currlime("%T")); 


sleep({argc > 3) ? getInt(argv[3], GN NONNEG, "“sleep-time") : 10); 
printf("PID %ld: releasing %s at %s\n", (long) getpid(), lname, 
currTime("%T")); 
if (flock(fd, LOCK UN) == -1) 
errExit("flock"); 


exit(EXIT SUCCESS); 


filelock/t_flock.c 


使 用 程序 清单 55-1 中 的 程序 可 以 开展 一 些 实验 来 研究 HockO 的 行 
为 。 下 面 的 shell 会 话 给 出 了 其 中 一 些 例子 。 下 面 首先 创建 了 一 个 文件 ， 
然后 在 后 台 局 动 一 个 程序 实例 并 持 有 一 个 共 至 锁 60 秒 。 


$ touch tfile 

$ ./t_flock tfile s 60 & 

[1] 9777 

PID 9777: requesting LOCK_SH at 21:19:37 
PID 9777: granted LOCK_SH at 21:19:37 


接着 局 动 男 一 个 能 够 成 功 请 求 一 个 共 至 锁 的 程序 实例 ， 然 后 释放 这 


TEER 


$ ./t_flock tfile s 2 

PID 9778: requesting LOCK SH at 21:19:49 
PID 9778: granted LOCK SH at 21:19:49 
PID 9778: releasing LOCK SH at 21:19:51 


r 但 当局 动 另 一 个 程序 实例 来 非 阻塞 地 请 求 一 个 互 斥 锁 时 就 会 立即 失 
败 。 


$ ./t_flock tfile xn 
PID 9779: requesting LOCK EX at 21:20:03 
PID 9779: already locked - bye! 


SAA AET SE BR BS Hh RA EAE ENT FF Bk ZS BLE 
GORE AK BN Ja ERE TE COP Ja EBX PZ Ja, WEER 
就 会 得 到 满足 。 
$ ./t_flock tfile x 
PID 9780: requesting LOCK EX at 21:20:21 
PID 9777: releasing LOCK_SH at 21:20:37 


PID 9780: granted LOCK_EX at 21:20:37 
PID 9780: releasing LOCK_EX at 21:20:47 


55.2.1 锁 继承 与 释放 的 语义 


根据 表 55-1， 通 过 flockO 调 用 并 将 operation 参 数 指定 为 LOCK_UN 可 
以 释放 一 个 文件 锁 。 此 外 ， 锁 会 在 相应 的 文件 描述 符 被 关闭 之 后 自动 被 
释放 。 但 问题 其 实 要 更 加 复杂 ， 通 过 flockO 获 取 的 文件 锁 是 与 打开 的 文 
件 描述 〈5.4 节 ) 而 不 是 文件 描述 符 或 文件 〈i-node) 本 身 相 关联 的 。 这 
意味 着 当 一 个 文件 描述 符 被 复制 时 (通过 dup()、dup20 或 一 个 fent10) 
FE_DUPFD 操 作 ) ， 新 文件 摘 述 符 会 引用 同一 个 文件 锁 。 例 如 ， 如 果 获 














取 了 fd 所 引用 的 文件 上 的 一 个 锁 ， 那 么 下 面 的 代码 (忽略 了 错误 检查 ) 
会 释放 这 个 锁 。 


flock(fd, LOCK EX); /* Gain lock via 'fd' */ 
newfd = dup(fd); /* 'newfd' refers to same lock as “fd */ 
flock(newfd, LOCK UN); /* Frees lock acquired via 'fd' */ 


如 末 已 经 通过 了 一 个 特定 的 文件 描述 符 获 取 了 一 个 锁 并 创建 了 该 文 
件 描 述 符 的 一 个 或 多 个 副本 ， 那 么 一 一 如 果 不 显 式 地 执行 一 个 解锁 操作 
只 有 妆 所 有 的 描述 符 副 本 都 被 关闭 之 后 锁 才 会 个 释放 。 


如 琳 使 用 open() 获 取 第 二 个 引用 同一 个 文件 的 文件 描述 符 〈 以 及 关 
联 的 打开 的 文件 描述 ) ， 那 么 flock0 〇 会 将 第 二 个 描述 符 当 成 是 一 个 不 同 
的 描述 符 。 例 如 执行 下 面 这 些 代码 的 进程 会 在 第 二 个 flock() 调 用 上 阻 
HE 





fd1 = open("a.txt", O_RDWR); 

fd2 = open("a.txt", O_RDWR); 

flock(fd1, LOCK_EX); 

flock(fd2, LOCK EX); /* Locked out by lock on 'fd1' */ 


这 样 一 个 进程 就 能 使 用 flock() 来 将 自己 锁 在 一 个 文件 之 外 。 读 者 稍 
后 就 会 看 到 ， 使 用 fcntlO 返 回 的 记录 锁 是 无 法 取得 这 种 效果 的 。 


当 使 用 forkO 创 建 一 个 子 进 程 时 ， 这 个 子 进程 会 复制 其 父 进程 的 文 
件 描述 待 ， 并 且 与 使 用 dup0 调 用 之 类 的 函数 复制 的 描述 符 一 样 ， 这 些 描 
述 符 会 引用 同一 个 打开 的 文件 描述 ， 进 而 会 引用 同一 个 锁 。 例 如 下 面 的 
代码 会 导致 一 个 子 进程 删除 一 个 父 进程 的 锁 。 





flock(fd, LOCK EX); /* Parent obtains lock */ 
if (fork() == 0) /* If child... */ 
flock(fd, LOCK UN); /* Release lock shared with parent */ 


有 了 时候 可 以 利用 这 些 语义 来 将 一 个 文件 锁 从 父 进 程 ( 原 子 地 ) 传输 
到 子 进程 : 在 fork0 之 后 ， 父 进程 关闭 其 文件 描述 符 ， 然 后 锁 束 只 在 子 
进程 的 控制 之 下 了 。 读 者 稍 后 整 会 看 到 使 用 fcnt10 返 回 的 记录 锁 是 无 法 
取得 这 种 效果 的 。 


通过 flock() 创 建 的 锁 在 exec() 中 会 得 到 保留 (除非 在 文件 接 述 符 上 
设置 了 close-on-exec 标 记 并 且 该 文件 描述 符 是 最 后 一 个 引用 底层 的 打开 
的 文件 描述 的 描述 符 ) 。 





上 面 描述 的 flockO 在 Linuxz 上 的 语义 与 其 在 经 典 的 BSD 实 现 上 的 语义 
是 一 致 的 。 在 一 些 UNIX 实 现 上 ，flockO 是 使 用 fcntl0 实 现 的 ， 读 者 稍 后 
就 会 看 到 fcntl0 锁 的 继承 和 释放 语义 与 fockO 锁 的 继承 和 释放 语义 是 不 


同 的 


。 由 于 flockO 创 建 的 锁 与 fcntlO 创 建 的 锁 之 间 的 交互 是 未 定义 的 ， 


因此 应 用 程序 应 该 只 使 用 其 中 一 种 文件 加 锁 方 法 。 





55.2.2 flock0 的 限制 


起 ， 
来 文 
锁 时 
之 外 


通过 flockO 放 置 的 锁 存 在 几 个 限制 。 


只 能 对 整个 文件 加 锁 。 这 种 粗 粒 度 的 加 锁 会 限制 协作 进程 之 间 的 并 
发 性 。 例 如 ， 假 设 存 在 多 个 进程 ， 其 中 各 个 进程 都 想 要 同时 访问 同 
一 个 文件 的 不 同 部 分 ， 那 么 通过 flock() 加 锁 会 不 必要 地 阻止 这 些 进 
程 并 发 完成 这 些 操作 。 

通过 flockO 只 能 放置 劝告 式 锁 。 

很 多 NEFS 实 现 不 识别 fockO 放 置 的 锁 。 


下 一 市 中 介绍 的 fcnt10 加 锁 模型 弥补 了 所 有 这 些 不 足 。 


因为 历史 的 原因 ，Linux NFS 服 务 器 不 文 持 flockO 锁 。 从 内 核 2.6.12 
Linux NFS 服 务 器 通过 将 flockO 锁 实现 成 整个 文件 上 的 一 个 fcntlO 锁 
持 flock0O 锁 。 这 种 做 法 在 混合 服务 左上 的 BSD 锁 和 客户 端 上 的 BSD 
oe ey 客户 端 通常 无 法 看 到 看 到 服务 器 的 锁 ， 反 





55.3 ”使 用 fcntO0 给 记录 加 锁 


使 用 fcnt1l()) (5.275) 能 够 在 一 个 文件 的 任意 部 分 上 放置 一 把 锁 ， 这 
个 文件 部 分 既 可 以 是 一 个 字 节 ， 也 可 以 是 整个 文件 。 这 种 形式 的 文件 加 
锁 通 第 被 称 为 记录 加 锁 ， 但 这 种 称谓 是 不 恰当 的 ， 因 为 UNIX 系 统 上 的 
文件 是 一 个 字 市 序列 ， 并 不 存在 记录 边界 的 概念 ， 文 件 记 录 的 概念 内存 
在 于 应 用 程序 中 。 


一 般 来 讲 ，fcnt10 会 被 用 来 锁 住 文件 中 与 应 用 程序 定义 的 记录 边界 
对 应 的 字 节 范围 ， 这 也 是 术语 记录 加 锁 的 由 来 。 术 语 字 节 范 围 、 文 件 区 
域 以 及 文件 段 很 少 被 用 到 ， 但 它们 更 加 精确 地 描述 了 这 种 锁 。 (由 于 这 
是 唯一 一 种 在 最 初 的 POSIX.1 标 准 和 SUSv3 中 予以 规定 的 加 锁 技术 ， 因 
此 它 有 时 候 也 被 称 为 POSIX 文 件 加 锁 。 ) 








SUSv3 要 求 普通 文件 文 持 记录 加 锁 ， 同 时 也 允许 其 他 
文件 类 型 也 支持 文件 加 锁 。 尽 管 记录 锁 通常 只 有 在 应 用 于 
普通 文件 上 时 才 有 意义 “因为 对 于 大 多 数 其 他 文件 类 型 ， 
讨论 文件 中 所 包含 的 数据 的 字 节 范围 是 坚 无 意义 的 ) ， 但 
是 在 Linuxz 上 可 以 将 一 个 记录 锁 应 用 在 任意 类 型 的 文件 描述 
AN 











图 55-2 显 示 了 如 何 使 用 记录 锁 来 同步 两 个 进程 对 一 个 文件 中 的 同一 
块 区 域 的 访问 。《 在 这 幅 图 中 假设 所有 的 锁 请 求 都 会 阻塞 ， 这 样 它 们 在 
锁 被 为 一 个 进程 持 有 了 时 就 会 等 每 。) 


进程 B 


在 0 一 99 字 节 上 
请 求 写 锁 


在 0 一 99 字 节 工 
请 求 读 锁 


更 新 0 一 99 学 节 





















将 0 一 99 字 节 的 锁 
转换 为 读 锁 
= 
= 
Y 


将 0 一 99 学 节 上 的 
锁 转换 为 写 锁 





解锁 0 一 99 字 节 


更 新 0 一 99 字 他 





解锁 0 一 99 字 节 





图 55-2: 使 用 记录 锁 同 步 对 一 个 文件 的 同一 区 域 的 访问 
用 来 创建 或 删除 一 个 文件 锁 的 fcntlO 调 用 的 第 规 形 式 如 下 。 
struct flock flockstr; 


/* Set fields of 'flockstr' to describe lock to be placed or removed */ 


fentl(fd, cmd, &flockstr) /* Place lock defined by ‘fl’ */ 
fd 参数 是 一 个 打开 着 的 文件 描述 符 ， 它 引用 了 待 加 锁 的 文件 。 
在 讨论 cmd 参 数 之 前 首先 描述 一 下 flock 结 构 。 

flock 结 构 
fock 结 构 定 义 了 竺 获取 或 删除 的 锁 ， 其 定义 如 下 所 示 。 


struct flock { 


short 1 type; /* Lock type: F_RDLCK, F WRLCK, F_UNLCK */ 

short 1 whence; /* How to interpret ‘1 start’: SEEK SET, 
SEEK CUR, SEEK END */ 

off t 1 start; /* Offset where the lock begins */ 

off t 1 len; /* Number of bytes to lock; O means “until EOF" */ 

pid t 1 pid; /* Process preventing our lock (F_GETLK only) */ 


m 1 type 267 T BOERE, 其 取 值 为 表 55-3 中 列 出 的 值 中 
一 个 。 


从 语义 上 来 讲 ， 读 CF_RDLCK) 和 写 (F_WRLCK) 锁 对 应 于 
flockO 施 加 的 共享 锁 和 互 斥 锁 ， 并 且 它 们 遵循 着 同样 的 兼容 性 规则 《〈 表 
55-2) : 任何 数量 的 进程 能 够 持 有 一 块 文件 区 域 上 的 读 锁 ， 但 只 有 一 个 
进程 能 够 持 有 一 把 写 锁 ， 并 且 这 把 锁 会 将 其 他 进程 的 读 锁 和 写 锁 排 除 在 
外 。 将 L_type 指 定 为 FE_UNLCK 类 似 于 flock0 LOCK_UN 操 作 。 


表 55-3: foent10 加 锁 的 锁 类 型 


已 读 锁 
BS a 
EHAA 








为 了 在 一 个 文件 上 放置 一 把 读 锁 就 必须 要 打开 文件 以 允许 读 取 。 类 
似 地 ， 要 放置 一 把 写 锁 就 必须 要 打开 文件 以 允许 写 入 。 要 放置 两 种 锁 就 
必须 要 打开 文件 以 允许 读 写 (O_RDWR)，。 试 图 在 文件 上 放置 一 把 与 
文件 访问 模式 不 兼容 的 锁 将 会 导致 一 个 EBADF 错 误 。 


]_whence、1_start 以 及 1_len 字 上 段 一 起 指定 了 待 加 锁 的 字 节 范围 。 前 
两 个 字段 类 似 于 传 入 lseekO 的 whence 和 offset 参 数 (4.777) > Lstart FX 
指定 了 文件 中 的 一 个 偏 移 量 ， 其 具体 含义 需 根据 下 列 规 则 来 解释 。 


e 当 ] whence 为 SEEK_SET 时 ， 为 文件 的 起 始 位 置 。 
e 当 ] whence 为 SEEK_CUR 时 ， 为 当前 的 文件 偏 移 量 。 
e 当 ] whence 为 SEEK_END 时 ， 为 文件 的 结尾 位 置 。 





在 后 两 种 情况 中 ，]_start 可 以 古 一 个 负数 ， 只 要 最 终 得 到 的 文件 位 
置 不 会 小 于 文件 的 起 始 位 置 〈 字 节 0〉 即 可 。 


1_len 字 上 段 包 含 一 个 指定 待 加 锁 的 字 节 数 的 整数 ， 其 起 始 位 置 由 
1]_whence 和 和 ]_start 定 义 。 对 文件 结尾 之 后 并 不 存在 的 字 节 进行 加 锁 是 可 
以 的 ， 但 无 法 对 在 文件 起 始 位 置 之 前 的 字 节 进行 加 锁 。 


从 内 核 2.4.21 开 始 ，Linux 人 允许 在 ]_ len 中 指定 一 个 负 值 。 这 是 请 求 对 
在 ] whence 和 1_start 指 定 的 位 置 之 前 的 L_len 字 节 《〈 即 范围 在 (L_start — 
abs(L_len)) 到 (_start- 1 之 间 的 字 节 ) 进行 加 锁 。SUSv3 人 允许 但 并 没有 要 
求 这 种 特性 ， 其 他 几 个 UNIX 实 现 也 提供 了 这 个 特性 。 


一 般 来 讲 ， 应 用 程序 应 该 只 对 所 需 的 最 小 字 节 范围 进行 加 锁 ， 这 样 
其 他 进程 就 能 够 同时 对 同一 个 文件 的 不 同 区 域 进行 加 锁 ， 进 而 取得 更 大 
的 并 发 性 。 




















在 某 些 情况 下 需要 对 术语 最 小 范围 进行 限定 。 在 诸如 
NFS 和 CIFS 之 类 的 网 络 文件 系统 上 混合 使 用 记录 锁 和 
mmap() 调 用 会 导致 不 期 望 的 结果 。 之 所 以 会 发 生 这 种 问题 
是 因为 mmap0) 映 射 文件 的 单位 是 系统 分 页 大 小 。 如 果 一 个 
文件 锁 是 分 页 对 齐 的 ， 那 么 所 有 一 切 都 会 正常 工作 ， 因 为 
锁 会 覆盖 与 一 个 脏 分 页 对 应 的 整个 区 域 。 但 如 果 锁 没有 分 
页 对 齐 ， 那 么 就 会 存在 一 种 竞争 条 件 一 一 当 映 射 分 页 的 任 
意 部 分 发 生变 更 之 后 内 核 可 能 就 会 号 入 未 被 锁 履 盖 的 区 
域 。 


将 1]_len 指 定 为 0 具有 特殊 含义 ， 即 “对 范围 从 由 ]_start 和 ]_whence 确 
定 的 起 始 位 置 到 文件 结尾 位 置 之 内 的 所 有 字 节 加 锁 ， 不 管 文件 增长 到 多 
大 ”。 这 种 处 理 方式 在 无 法 提前 知道 同一 个 文件 中 加 入 多 少 字 市 的 情况 
下 是 比较 方便 的 。 要 锁 住 整个 文件 则 可 以 将 ]_whence 指 定 为 
SEEK_SET， 并 将 ]_start 和 ]_len 都 指定 为 0。 


cmd# ži 





fcnt10 在 操作 文件 锁 时 其 cmd 参 数 的 可 取 值 有 以 下 三 个 ， 其 中 前 两 
个 值 用 来 获取 和 释放 锁 。 


F_SETLK 


获取 (]_type 是 F_RDLCK 或 F_ WRLCK) 或 释放 C_typex: 
F_UNLCK) 由 flockstr 指 定 的 字 节 上 的 锁 。 如 果 另 一 个 进程 持 有 了 一 把 
待 加 锁 的 区 域 中 任意 部 分 上 的 不 兼容 的 锁 时 ，fcnt0 就 会 失败 并 返回 
EAGAIN 错 误 。 在 一 些 UNIX 实 现 上 fcntl0 在 碰 到 这 种 情况 时 会 失败 并 返 
回 EACCES 错 误 。SUSv3 人 允许 实现 采用 其 中 任意 一 种 处 理 方 式 ， 因 此 可 
移植 的 应 用 程序 应 该 对 这 两 个 值 都 进行 测试 。 


F_SETLKW 


这 个 值 与 F_ SETLK 是 一 样 的 ， 除 了 在 有 另 一 个 进程 持 有 一 把 竺 加 锁 
的 区 域 中 任意 部 分 上 的 不 兼容 的 锁 时 ， 调 用 就 会 阻塞 直到 锁 的 请 求 得 到 
满足 。 如 果 正 在 处 理 一 个 信号 并 且 没 有 指定 SA_RESTART (21.577) ， 
那么 F_SETLKW 操 作 就 可 能 会 被 中 断 《〈 即 失败 并 返回 EINTR 错 误 ) o JF 
| o 行为 来 使 用 alarm0 或 setitimer() 为 一 个 加 锁 请 求 设置 
一 个 超时 时 间 。 


注意 ，fcntl0 要 么 会 锁 住 指定 的 整个 区 域 ， 要 么 就 不 会 对 任何 字 节 
加 锁 ， 这 里 并 不 存在 只 锁 住 请 求 区 域 中 那些 当前 未 被 锁 住 的 字 节 的 概 





Se nathan ee en ren clea aye ee 
一 把 锁 。 


F_GETLK 





检测 是 否 能 够 获取 flockstr 指 定 的 区 域 上 的 锁 ， 但 实际 不 获取 这 把 
锁 。1_type 字 段 的 值 必须 为 FE_RDLCK 或 FE_WRLCK。flockstr 结 构 是 一 个 
值 -结果 参数 ， 在 返回 时 它 包 含 了 有 关 是 否 能 够 放置 指定 的 锁 的 信息 。 
如 果 人 允许 加 锁 〈 即 在 指定 的 文件 区 域 上 不 存在 不 兼容 的 锁 ) ， 那 么 在 
]_type 字 段 中 会 返回 F_UNLCK， 并 且 剩 余 的 字段 会 保持 不 变 。 如 果 在 区 
域 上 存在 一 个 或 多 个 不 兼容 的 锁 ， 那 么 flockstr 会 返回 与 那些 锁 中 其 中 一 
把 锁 〈 无 法 确定 是 哪 把 锁 ) 相关 的 信息 ， 包 括 其 类 型 d type), FH 








范围 〈]_start 和 1 len; 1_whence 总 是 返回 为 SEEK_SET) 以 及 持 有 这 把 锁 
的 进程 的 进程 ID Cl_pid) 。 

注意 ， 在 使 用 F_GETLK 之 后 接着 使 用 F_SETLK 或 F_SETLKW 的 话 
就 可 能 会 出 现 竞 争 条 件 ， 因 为 在 执行 后 面 一 个 操作 时 ，F_GETLK 返 回 
的 信息 可 能 已 经 过 时 了 ， 因 此 F_GETLK 的 实际 作用 比 其 一 开始 看 起 来 
的 作用 要 小 很 多 。 即 使 F_GETLK 表 示 可 以 放置 一 把 锁 ， 仍 然 需 要 为 
F_SETLK 返 回 一 个 错误 或 F_SETLKW 阻 塞 做 好 准备 。 


GNU C 库 还 实现 了 函数 lockf()， 它 仅仅 是 一 个 基于 
fcntl() 的 简化 接口 。 (SUSvV3 规 定 了 lockf()， 但 并 没有 规定 
lockf() 与 fentl0 之 间 的 关系 。 在 大 多 数 UNIX 系 统 上 ，lockf() 
的 实现 都 是 基于 fcntl() 的 。〉 形 如 lockf(fd, operation, size) 的 
调用 等 价 于 在 调用 fcntl0 时 将 1_ whence 设 置 为 SEEK_CUR， 
1]_start 设 置 为 0， 以 及 将 ]_len 设 置 为 size， 即 lockfO 将 会 锁 住 
从 当前 文件 偏 移 量 开始 到 文件 结束 的 字 节 序列 。lockf() 的 
operation 参 数 类 似 于 fcnt10) 的 cmd 参 数 ， 但 用 于 获取 、 释 放 
以 及 测试 锁 的 存在 性 的 常量 值 是 不 同 的 。lockfO 函 数 只 放 
置 互 斥 锁 。 更 多 细节 请 参考 lockf(3) 手 册 。 





锁 获 取 和 释放 的 细节 
有 关 获 取 和 释放 由 fcntlO 创 建 的 锁 方 面 需要 注意 以 下 几 点 。 


。 解锁 一 块 文件 区 域 总 是 会 立即 成 功 。 即 使 当前 并 不 持 有 一 块 区 域 上 
的 锁 ， 对 这 块 区 域 解 锁 也 不 是 一 个 错误 。 

。 在 任何 一 个 时 刻 ， 一 个 进程 只 能 持 有 一 个 文件 的 茶 个 特定 区 域 上 的 
一 种 锁 。 在 之 前 已 经 锁 住 的 区 域 上 放置 一 把 新 锁 会 导致 不 发 生 任何 
事情 〈 新 锁 的 类 型 与 既 有 锁 的 类 型 是 一 样 的 ) 或 原子 地 将 既 有 锁 转 
换 成 新 模式 。 在 后 一 种 情况 中 ， 当 将 一 个 读 锁 转 换 成 写 锁 时 需要 为 








调用 返回 一 个 错误 (F_SETLK ) 或 阻塞 (F_SETLKW) 做 好 准 
Ko (这 与 flock() 是 不 同 的 ， 它 的 锁 转换 不 是 原子 的 。) 

一 个 进程 永远 都 无 法 将 自己 锁 在 一 个 文件 区 域 之 外 ， 即 使 通过 多 个 
引用 同一 文件 的 文件 描述 符 放置 锁 也 是 如 此 。 (这 与 flock() 是 不 同 
的 ， 在 55.3.5 节 中 将 会 介绍 更 多 有 关 这 方面 的 信息 。) 

在 已 经 持 有 的 锁 中 间 放 置 一 把 模式 不 同 的 锁 会 产生 三 把 锁 : 在 新 锁 
的 两 端 会 创建 两 个 模式 为 之 前 模式 的 更 小 一 点 的 锁 (参见 图 55- 
3) 。 与 此 相反 的 是 ， 获 取 与 模式 相同 的 一 把 既 有 锁 相 邻 或 重 登 的 
第 二 把 锁 会 产生 单个 覆盖 两 把 锁 的 合并 区 域 的 聚合 锁 。 除 此 之 外 ， 
还 存在 其 他 的 组 合 情 况 。 如 对 一 个 大 型 既 有 锁 的 中 间 的 一 个 区 域 进 
行 解锁 会 在 已 解锁 区 域 的 两 端 产 生 两 个 更 小 一 点 的 已 锁 住 区 域 。 如 
果 一 个 新 锁 与 一 个 模式 不 同 的 既 有 锁 重 登 了 了 ， 那 么 既 有 锁 就 会 收 
缩 ， 因 为 重 登 的 字 节 会 合并 进 新 锁 中 。 














l. 在 放置 了 读 锁 之 后 (start = 10, Llen = 30) 


字 节 : 10 39 





2. 在 放置 了 写 锁 之 后 (Lstart = 20, Llen = 10) 
FH: 10 19 20 29 30 


39 
| 
图 55-3: 在 同一 个 进程 中 使 用 一 把 写 锁 分 割 一 个 既 有 读 锁 


。 在 文件 区 域 锁 方面 ， 关 闭 一 个 文件 描述 符 具备 一 些 不 寻 稼 的 语义 ， 
在 55.3.5 节 将 会 对 这 些 语义 进行 介绍 。 


55.3.1 FE 


在 使 用 F_SETLKW 时 需要 和 弄 清 楚 图 55-4 中 阐述 的 场景 类 别 。 在 这 种 
场景 中 ， 每 个 进程 的 第 二 个 锁 请 求 会 被 另 一 个 进程 持 有 的 锁 阻 塞 。 这 种 
场景 被 称 为 死 锁 。 如 果 内 核 不 对 这 种 情况 进行 抑制 ， 那 么 会 导致 两 个 进 
程 永远 阻塞 。 为 避免 这 种 情况 ， 内 核 会 对 通过 F_SETLKW 发 起 的 每 个 新 
锁 请 求 进行 检查 以 判断 是 否 会 导致 死 锁 。 如 果 会 导致 死 锁 ， 那 么 内 核 束 
会 选中 其 中 一 个 被 阻塞 的 进程 使 其 fcntlO 调 用 解除 阻塞 并 返回 错误 
EDEADLK。【《 在 Linux 上 ， 进 程 会 选中 最 近 的 fcntlO 调 用 ， 但 SUSv3 并 
没有 要 求 这 种 行为 ， 并 且 这 种 行为 在 后 续 的 Linux 版 本 或 其 他 UNIX 实 现 
上 可 能 不 成 立 。 使 用 F_SETLKW 的 所 有 进程 都 必须 要 为 处 理 EDEADLK 






































错误 做 好 准备 。) 
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图 55-4: 当 两 个 进程 拒绝 对 方 的 加 锁 请 求 时 会 死 锁 


即使 在 多 个 不 同 的 文件 上 放置 锁 时 也 能 检测 出 死 锁 情 形 ， 即 涉及 多 
个 进程 的 循环 死 锁 。《 举 个 例子 ， 对 于 循环 死 锁 ， 意 味 着 进程 A 等 待 获 
取 被 进程 B 锁 住 的 区 域 上 的 锁 ， 进 程 B 等 待 进程 C 持 有 的 锁 ， 进 程 C 等 待 
进程 A 持 有 的 锁 。 ) 


55.3.2 示例 : 一 个 交互 式 加 锁 程 序 

程序 清单 55-2 中 的 程序 允许 交互 式 地 试验 记录 加 锁 。 这 个 程序 接收 
一 个 命令 行 参 数 : 待 加 锁 的 文件 的 名 称 。 使 用 这 个 程序 能 够 验证 很 多 之 
前 介绍 的 有 关 记 录 加 锁 操 作 的 论断 。 这 个 程序 被 设计 成 了 一 个 交互 式 程 
序 并 接收 形 如 下 面 的 命令 。 


cmd lock start length [ whence | 














在 cmd 参 数 中 可 以 指定 g 来 执行 一 个 F_GETLK， 指 定 s 来 执行 一 个 
F_SETLK， 或 指定 w 来 执行 一 个 F_SETLKW。 剩 下 的 参数 用 来 初始 化 传 
入 fcntlO 的 flock 结 构 。lock 参 数 指定 了 1L_type 字 段 的 取 值 ， 其 中 r 表 示 
F_RDLCK，w 表 示 F_WRLCK，u 表 示 F_UNLCK。start 和 length 参 数 是 整 
数 ， 它 们 指定 了 1]_start 和 ]_len 字 段 的 取 值 。 最 后 是 一 个 可 选 的 whence 参 





数 ， 它 指定 了 ]_whence 字 段 的 取 值 ， 其 中 s 表 示 SEEK_SET (默认 值 ) ， 
c 表 示 SEEK_CUR，e 表 示 SEEK_END。 (至 于 为 何在 程序 清单 55-2 的 
printf() 调 用 中 将 1]_start 和 1]_len 字 上 段 转换 成 long long， 请 参考 5.10 节 。 ) 


程序 清单 55-2: 试验 记录 加 锁 


























filelock/i_fcntl_locking.c 
#include <sys/stat.h> 
#include <fcntl.h> 
#include "tlpi_hdr.h" 
#define MAX_LINE 100 


static void 


displayCmdFmt (void) 
printf("\n Format: cmd lock start length [whence]\n\n"); 
printf (" ‘cmd’ is 'g' (GETLK), 's' (SETLK), or 'w' (SETLKW)\n"); 
printf(" ‘lock’ is 'r' (READ), 'w' (WRITE), or ‘u' (UNLOCK)\n"); 
printt(" ‘start’ and ‘length’ specify byte range to lock\n"); 
printf (" ‘whence’ is 's' (SEEK SET, default), 'c' (SEEK CUR), " 

"or 'e’ (SEEK _END)\n\n"); 
} 
int 


main(int argc, char *argv[]) 


int fd, numRead, cmd, status; 

char lock, cmdCh, whence, line[MAX LINE]; 
struct flock f1; 

long long len, st; 


if (argc != 2 || strcmp(argv[1], “--help") == 0) 
usageErr("%s file\n", argv[0]); 


fd = open(argv[1], O_RDWR); 
if (fd == -1) 
errExit("open (%s)", argv[1]); 


printt("Enter ? for help\n"); 


for (;;) { /* Prompt for locking command and carry it out */ 
printf("PID=%ld> ", (long) getpid()); 
fflush(stdout); 
if (fgets(line, MAX LINE, stdin) == NULL) /* EOF */ 
exit (EXIT_SUCCESS) ; 
line[strlen(line) - 1] = '\0'; /* Remove trailing ‘\n' */ 


if (*line == '\o') 


continue; /* Skip blank lines */ 
if (line[o] == '?') { 

displayCmdFmt () ; 

continue; 


} 


whence = 's'; /* In case not otherwise filled in */ 


numRead = sscanf(line, "%c %c %lld %lld %c", &cmdCh, &lock, 
&st, &len, &whence); 

f1.1 start = sk 

fl. llen = len 


if (numRead < 4 || strchr("gsw", cmdCh) == NULL || 
strchr("rwu", lock) == NULL || strchr("sce", whence) == NULL) { 
printf("Invalid command! \n") ; 


continue; 
} 
cmd = (cmdCh == 'g') ? F_GETLK : (cmdCh == 's') ? F_SETLK : F_SETLKW; 
fl.1_type = (lock == 'r') ? F RDLCK : (loc == 'w') ? F WRLCK : F UNLCK; 
f1.1_whence = (whence == 'c') ? SEEK CUR : 
(whence == 'e') ? SEEK END : SEEK SET; 
status = fcntl(fd, cmd, &f1); /* Perform request... */ 
if (cmd == F_GETLK) { /* ... and see what happened */ 
if (status == -1) { 
errMsg("fcntl - F_GETLK"); 
} else { 
if (fl.1_type == F_UNLCK) 
printf("[PID=%ld] Lock can be placed\n", (long) getpid()); 
else /* Locked out by someone else */ 
printf("[PID=%1ld] Denied by %s lock on %lld:%11d " 
"(held by PID %ld)\n", (long) getpid(), 
(f1.1_type == F_RDLCK) ? "READ" : "WRITE", 
(long long) fl.1_ start, 
(long long) fl.l_len, (long) fl.1_pid); 
} 
} else { /* F_SETLK, F_SETLKW */ 
if (status == 0) 
printf("[PID=%ld] %s\n", (long) getpid(), 
(lock == 'u') ? "unlocked" : “got lock"); 
else if (errno == EAGAIN || errno == EACCES) /® FE SETLK */ 
printt("[PID=%ld] failed (incompatible lock)\n", 
(long) getpid()); 
else if (errno == EDEADLK) /* F_SETLKW */ 
printf("[PID=%ld] failed (deadlock)\n", (long) getpid()); 
else 
errMsg("fentl - F_SETLK(W)"); 
} 
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在 下 面 的 shell 会 话 日 志 中 演示 了 如 何 使 用 程序 清单 55-2 中 的 程序 ， 

人 全 同一 个 大 小 为 100 字 市 的 文件 file) 上 放置 

图 55-5 给 出 了 shell 会 话 日 志 中 各 个 点 上 准予 的 和 排队 的 加 锁 请 求 的 
Rass 下 面 的 注释 中 进行 的 标注 。 





授予 锁 1 MAN | 


一 一 一 一 一 一 一 一 


0 SCPE A ES 99 





70 99 


PID=800, 类 型 =READ 





PID=790, 类 型 =WRITE 


图 55-5: 运行 running i_fentl_locking.c 时 被 准予 的 和 排队 的 加 锁 请 求 的 状态 


首先 启动 程序 程序 清单 55-2 中 的 程序 的 第 一 个 实例 “进程 A〉 并 在 
文件 中 0~~39 字 市 区 域 上 放置 一 把 读 锁 。 


Terminal window 1 

$ 1s -1 tfile 

-IW-I--I-- 1 mtk Users 100 Apr 18 12:19 tfile 
$ ./i_fcntl_locking tfile 

Enter ? for help 

PID=790> s r 0 40 

[PID=790] got lock 


接着 局 动 程序 的 第 二 个 实例 进程 B， 并 在 文件 中 第 70 个 字 市 到 文 
件 结尾 的 区 域 上 放置 一 把 读 锁 。 











Terminal window 2 

$ ./i_fcntl_locking tfile 
Enter ? for help 

PID=800> s r -30 0 e 
[PID=800] got lock 


此 刻 出 现 了 图 55-5 中 a 部 分 的 情形 ， 其 中 进程 A CHEREID A790) 和 
进程 B〈 进 程 ID 为 800) 持 有 了 文件 的 不 同 部 分 上 的 锁 。 


现在 回 到 进程 A 让 其 尝试 在 整个 文件 上 放置 一 把 写 锁 。 首 先 通过 
F_GETLK 检 测 是 否 可 以 加 锁 并 得 到 存在 一 个 冲突 的 锁 的 信息 。 接 着 尝 
试 通过 F_SETLK 放 置 一 把 锁 ， 但 这 个 操作 也 会 失败 。 最 后 尝试 通过 
F_SETLKW 放 置 一 把 锁 ， 这 次 将 会 阻塞 。 





PID=790> g w00 
[PID=790] Denied by READ lock on 70:0 (held by PID 800) 
PID=790> sw00 

[PID=790] failed (incompatible lock) 

PID=790> ww 0 0 


此 刻 出 现 了 图 55-5 中 b 部 分 的 情形 ， 其 中 进程 A 和 进程 B 分 别 持 有 了 
0 同 部 分 上 的 锁 ， 并 且 进 程 A 还 有 一 个 排 着 队 的 对 整个 文件 的 加 
UT OK o 


接着 继续 在 进程 B 中 尝试 在 整个 文件 上 放置 一 把 写 锁 。 首 先 使 用 
F_GETLK 检 测 一 下 是 否 可 以 加 锁 并 得 到 存在 一 个 冲突 的 锁 的 信息 。 接 
着 尝试 使 用 F_SETLKW 加 锁 。 


PID=800> g w 0 0 

[PID=800] Denied by READ lock on 0:40 
(held by PID 790) 

PID=800> ww 0 0 

[PID=800] failed (deadlock) 


图 55-5 中 的 c 部 分 给 出 了 当 进 程 B 发 起 一 个 在 整个 文件 上 放置 一 把 写 
锁 的 阻 奢 请 求 发 生 的 情形 : 死 锁 。 此 刻 内 核 将 会 选择 让 其 中 一 个 加 锁 请 





求 失败 在 本 例 中 进程 B 的 请 求 将 会 被 选中 并 从 其 fcnt10 调 用 中 接收 到 
EDEADLK 错 误 。 


接着 继续 在 进程 B 中 删除 其 在 文件 上 的 所 有 锁 。 


PID=800> s u00 
[PID=800] unlocked 
[PID=790] got lock 


从 上 面 输出 的 最 后 一 行 中 可 以 看 出 进程 A 的 被 阻塞 的 加 锁 请 求 被 准 








重要 的 一 点 是 ， 需 要 意识 到 即使 进程 B 的 死 锁 请 求 被 取消 之 后 它 仍 
然 持 有 了 其 他 的 锁 ， 因 此 进程 A 的 排 痢 队 的 加 锁 请 求 仍然 会 被 阻 玫 。 进 
程 A 加 锁 请 求 只 有 在 进程 B 删 除了 其 持 有 的 锁 之 后 才 会 被 准予 ， 这 就 出 
现 了 图 55-5 中 d 部 分 的 情形 。 


55.3.3 abil: 一 个 加 锁 函 数 库 


程序 清单 55-3 给 出 了 一 组 在 其 他 程序 中 可 以 使 用 的 加 锁 函 数 ， 如 下 
ZN o 


lockRegion0 函 数 使 用 F_SETLK 在 文件 描述 符 fd 引 用 的 打开 着 的 文 
件 上 放置 一 把 锁 。type 参 数 指定 了 锁 的 类 型 (F_RDLCK 或 
F_WRLCK) 。whence、start 以 及 len 人 参数 指定 了 需 加 锁 的 字 节 范 
这 些 参数 为 用 来 加 锁 的 flockstr 结 构 中 名 称 类 似 的 字段 提供 了 
lockRegionWaitO 函 数 与 IjockRegion0 类 似 ， 但 它 发 起 的 是 一 个 阻塞 
式 加 锁 请 求 ， 即 它 使 用 了 F_SETLKW 而 不 是 F_SETLK。 
regionIsLocked0 函 数 检 测 是 否 可 以 在 一 个 文件 上 放置 一 把 锁 。 这 个 
函数 的 参数 与 ]ockRegion0 函 数 接收 的 参数 是 一 样 的 。 这 个 函数 在 
没有 进程 持 有 与 调用 中 指定 的 锁 神 突 的 锁 时 将 返回 0。 如 果 存 在 其 
中 一 个 进程 持 有 了 冲突 的 锁 ， 那 么 这 个 函数 束 会 返回 一 个 非 零 值 
( Eltrue ) 持 有 冲突 锁 的 进程 的 进程 ID。 


程序 清单 55-3: 文件 区 域 加 锁 函 数 
































filelock/region_locking.c 


#include <fcntl.h> 
#include “region_locking.h" /* Declares functions defined here */ 


/* Lock a file region (private; public interfaces below) */ 


static int 
lockReg(int fd, int cmd, int type, int whence, int start, off t len) 


struct flock fl; 
fl.1_type = type; 
fl.1_whence = whence; 
fl.l start = start; 
f1.1 len = len; 


return fcntl(fd, cmd, &f1); 


} 
int /* Lock a file region using nonblocking F_SETLK */ 
lockRegion(int fd, int type, int whence, int start, int len) 
{ 
return lockReg(fd, F_SETLK, type, whence, start, len); 
} 
int /* Lock a file region using blocking F_SETLKW */ 


lockRegionWait(int fd, int type, int whence, int start, int len) 


return lockReg(fd, F_SETLKW, type, whence, start, len); 
} 


/* Test if a file region is lockable. Return 0 if lockable, or 
PID of process holding incompatible lock, or -1 on error. */ 


pid t 
regionIsLocked(int fd, int type, int whence, int start, int len) 


struct flock fl; 


f1.1 type = type; 

fl.1_whence = whence; 

fl.l_start = start; 

f1.1 len = len; 

if (fcntl(fd, F_GETLK, &f1) == -1) 
return -1; 


return (fl.1_type == F_UNLCK) ? 0 : fl.1_pid; 


filelock/region_locking.c 


55.3.4” 锁 的 限制 和 性 能 


SUSv3 人 允许 一 个 实现 为 所 能 获取 的 记录 锁 的 数量 设置 一 个 固定 的 、 
系统 级 别 的 上 限 。 当 达到 这 个 限制 时 ，fcnt0 就 会 失败 并 返回 ENOLCK 
错误 。Linux 并 没有 为 所 能 获取 的 记录 锁 的 数量 设置 一 个 固定 的 上 限 ， 
至 于 具体 数量 则 受 限于 可 用 的 内 存 数量 。 很 多 其 他 UNIX 实 现 也 采用 
了 类 似 的 做 法 。) 


获取 和 释放 记录 锁 的 速度 有 多 快 呢 ? 这 个 问题 没有 固定 的 答案 ， 因 
为 这 些 操作 的 速度 取 诀 于 用 来 维护 记录 锁 的 内 核 数 据 结构 和 具体 的 某 一 
把 锁 在 这 个 数据 结构 中 所 处 的 位 置 。 本 章 稍 后 就 会 介绍 这 个 数据 结构 ， 
在 此 之 前 首先 来 考虑 几 扣 能 够 影响 其 设计 的 需求 。 


。 内 核 需 要 能 够 将 一 个 新 锁 和 任意 位 于 新 锁 任意 一 端的 模式 相同 的 既 
AW (由 同一 个 进程 持 有 ) 合并 起 来 。 

。 新 锁 可 能 会 完全 取代 调用 进程 持 有 的 一 把 或 多 把 既 有 锁 。 内 核 需 要 
容易 地 定位 出 所 有 这 些 锁 。 

e 当 在 一 把 既 有 锁 的 中 间 创 建 一 个 模式 不 同 的 新 锁 时 ， 分 隔 既 有 锁 的 
工作 〈 图 55-3) 应 该 是 比较 简单 的 。 


用 来 维护 锁 相 关 信 息 的 内 核 数据 结构 需要 被 设计 成 满足 这 些 需 求 。 
每 个 打开 着 的 文件 都 有 一 个 关联 链表 ， 链 表 中 保存 着 该 文件 上 的 锁 。 列 
nr ene ere Gere 
这 样 的 列表 。 





























图 例 说 明 























图 55-6: 单个 文件 上 的 记录 锁 列 表 


内 核 在 与 一 个 打开 着 的 文件 相关 联 的 锁链 表 中 维护 着 
flockO 锁 与 文件 租用 。 在 55.5 节 中 讨论 /proc/locks 文 件 时 
将 会 对 文件 租用 进行 简要 介绍 。) 但 这 种 类 型 的 锁 的 数量 
通常 要 小 很 多 很 多 ， 因 此 不 太 可 能 会 对 性 能 产生 影响 ， 所 
Dh El 








每 次 需要 在 这 个 数据 结构 中 添加 一 把 新 锁 时 ， 内 核 都 必须 要 检查 是 


人 盏 与 文件 上 的 既 有 锁 有 冲突 。 这 个 搜索 过 程 是 从 列表 头 开 始 顺 序 开展 


的 。 


假设 有 大 量 的 锁 随机 地 分 布 在 很 多 进程 中 ， 那 么 就 可 以 说 ， 添 加 或 





删除 一 个 锁 所 需 的 时 间 与 文件 上 已 有 的 锁 的 数量 之 间 大 概 是 一 个 线性 关 


ZINO 


55.3.5” 锁 继承 和 释放 的 语义 


fentl() 记 录 锁 继承 和 释放 的 语义 与 使 用 flock0O) 创 建 的 锁 的 继承 和 释 





放 的 语义 是 不 同 的 ， 以 下 几 点 需要 注意 。 





由 forkO 创 建 的 子 进 程 不 会 继承 记录 锁 。 这 与 lockO 是 不 同 的， 在 使 
用 flock0O 创 建 的 锁 时 ， 子 进程 会 继承 一 个 引用 同一 把 锁 的 引用 并 且 
能 够 释放 这 把 锁 ， 从 而 导致 父 进程 也 会 失去 这 把 锁 。 

记录 锁 在 exec() 中 会 得 到 保留 。( 但 需要 注意 下 面 描述 的 close-on- 
exec 标 记 的 作用 。) 

一 个 进程 中 的 所 有 线程 会 共享 同一 组 记录 锁 。 

记录 锁 同 时 与 一 个 进程 和 一 个 i-node 〈 参 见 5.4 节 ) 关联 。 从 这 种 关 
联 关 系 可 以 得 出 一 个 宣 不 意外 的 结果 束 是 当 一 个 进程 终止 之 后 ， 其 
所 有 记录 锁 会 被 释放 。 另 一 个 稍微 有 点 出 乎 意料 的 结果 是 当 一 个 进 
程 关闭 了 一 个 文件 摘 述 符 之 后 ， 进 程 持 有 的 对 应 文件 上 的 所 有 锁 会 
被 释放 ， 不 管 这 些 锁 是 通过 哪个 文件 描述 符 获 得 的 。 例 如 在 下 面 的 
代码 中 ，close(fd2) 调 用 会 释放 调用 进程 持 有 的 testfile 文 件 之 上 的 
锁 ， 尽 管 这 把 锁 是 通过 文件 描述 符 fd1 获 得 的 。 




















struct flock fl; 


f1.1 type = F _WRLCK; 
f1.1_ whence = SEEK SET; 
f1.1 start = 0; 
fl.l_len = 0; 


fd1 = open({"testfile", O_RDWR); 
fd2 = open("testfile", O RDWR); 


if (fentl(fd1, cmd, &f1) == -1) 
errExit("fcntl"); 


close{fd2); 


不 管 引 用 同一 个 文件 的 各 个 描述 符 是 如 何 获 得 的 以 及 不 管 摘 述 符 是 
如 何 被 天 闭 的 ， 上 面 最 后 一 点 中 描述 的 语义 都 是 适用 的 。 例 如 dup()、 
dup20 以 及 fcnt0 都 可 以 用 来 获取 一 个 打开 痢 的 文件 摘 述 符 的 副本 。 除 了 
执行 一 个 显 式 的 close0 之 外 ， 一 个 描述 符 在 设置 了 close-on-exec 标 记 时 
会 被 一 个 exec() 调 用 关闭 ， 或 者 也 可 以 通过 一 个 dup20 调 用 来 关闭 其 第 二 
个 文件 描述 符 参 数 ， 当 然 前 提 是 该 描述 符 已 经 被 打开 了 。 


fcntl() 锁 的 继承 和 释放 语义 是 一 个 架构 上 的 缺陷 。 例 如 它们 使 得 使 
用 库 包 中 的 记录 锁 容易 发 生 问 题 ， 因 为 一 个 库 函 数 无 法 阻止 调用 者 关闭 
一 个 引用 了 一 个 被 锁 住 的 文件 的 文件 描述 符 ， 从 而 会 导致 删除 一 个 通过 
库 代 码 获得 的 锁 。 另 一 种 可 选 的 实现 方案 是 将 锁 与 文件 描述 符 关联 起 
来 ， 而 不 是 与 jnode 关 联 起 来 。 但 之 所 以 采用 当前 这 种 语义 是 存在 历史 
原因 的 ， 并 且 这 种 语义 现在 已 经 变 成 了 记录 锁 的 标准 行为 。 遗 憾 的 是 ， 
这 些 语义 会 极 大 地 限制 fcnt10 加 锁 工 具 的 实用 性 。 


在 使 用 flockO 时 ， 一 把 锁 只 会 与 一 个 打开 的 文件 描述 
关联 ， 并 且 会 持续 发 挥 作用 直到 持 有 这 把 锁 的 引用 的 任意 
进程 显 式 地 释放 这 把 锁 或 所 有 引用 这 个 打开 着 的 文件 描述 
的 文件 描述 符 被 关闭 之 后 为 止 。 


55.3.6 ”锁定 饿 死 和 排队 加 锁 请 求 的 优先 级 


当 多 个 进程 必须 要 等 待 以 便 能 够 在 当前 被 锁 住 的 区 域 上 放置 一 把 锁 
时 ， 一 系列 的 问题 就 出 现 了 。 


一 个 进程 是 否 能 够 等 待 以 便 在 由 一 系列 进程 放置 读 锁 的 同一 块 区 域 
上 放置 一 把 写 锁 并 因此 可 能 会 导致 饼 死 ? 在 Linux 上 《以 及 很 多 其 他 
UNIX 实 现 上 ) ， 一 系列 的 读 锁 确 实 能 够 导致 一 个 被 阻塞 的 写 锁 饿 死 ， 
ERA TCR ERE 


当 两 个 或 多 个 进程 等 待 放置 一 把 锁 时 ， 是 否 存 在 一 些 规则 来 确定 在 
锁 可 用 时 哪个 进程 会 获取 锁 ? 例 如， 锁 请 求 是 否 满 足 FIFO 顺 序 ? 规则 跟 
每 个 进程 请 求 的 锁 的 类 型 是 否 有 关系 ( 即 一 个 请 求 读 锁 的 进程 是 否 会 优 
先 于 请 求 一 个 写 锁 的 进程 ， 或 反之 亦 然 ， 或 都 不 是 ) ? 在 Linux 上 的 规 
则 如 下 所 述 。 


。 排队 的 锁 请 求 被 准予 的 顺序 是 不 确定 的 。 如 果 多 个 进程 正在 等 待 加 
锁 ， 那 么 它们 被 满足 的 顺序 取决 于 进程 的 调度 。 

。 写 者 并 不 比 读者 拥有 更 局 的 优先 权 ， 反 之 亦 然 。 
在 其 他 系统 上 这 些 论断 可 能 就 是 不 正确 的 了 。 在 一 些 UNIX 实 现 


上 ， 锁 请 求 的 服务 是 按照 FIFO 的 顺序 来 完成 的 ， 并 且 读 者 比 写 者 拥有 更 
高 的 优先 权 。 








55.4 强制 加 锁 


到 目前 为 止 介绍 的 锁 都 是 劝告 式 锁 。 这 意味 着 一 个 进程 可 以 自由 地 
忽略 fcntlO 〈 或 fockO) 的 使 用 或 简单 地 在 文件 上 执行 JO。 内 核 不 会 阻 
止 进程 的 这 种 行为 。 在 使 用 劝告 式 锁 时 ， 应 用 程序 的 设计 者 需要 : 


。 为 文件 设置 合适 的 所 有 权 (或 组 所 有 权 〉 以 及 权限 以 防止 非 协作 进 
程 执行 文件 1/O; 

° A A 程序 的 进程 相互 
办 作 。 


与 其 他 很 多 UNIX 实 现 一 样 ，Linux 也 人 允许 fcntlO0 记 录 锁 是 强制 式 
的 。 这 表示 需 对 每 个 文件 VO 操作 进行 检查 以 判断 其 他 进程 在 执行 WO 所 
在 的 文件 区 域 上 是 否 持 有 任何 不 兼容 的 锁 。 





劝告 式 模 式 加 锁 有 时 候 被 称 为 自由 加 锁 (discretionary 
locking) ， 而 强制 式 加 锁 有 时 候 则 被 称 为 强制 模式 加 锁 
Cenforcement-mode locking) 。SUSv3 并 没有 规定 强制 式 加 
锁 ， 但 在 大 多 数 现代 UNIX 实 现 上 都 存在 这 种 加 锁 模 式 〈 细 
节 方 面 可 能 存在 一 些 差 异 ) 。 


为 了 在 Linux 上 使 用 强制 式 加 锁 就 必须 要 在 包含 符 加 锁 的 文件 的 文 
件 系统 以 及 每 个 待 加 锁 的 文件 上 局 用 这 一 项 功能 。 通 过 在 挂 载 文件 系统 
时 使 用 (Linux 特 有 的 ) -o mand 选 项 能 够 在 该 文件 系统 上 局 用 强制 式 加 
锁 。 


# mount -o mand /dev/sda10 /testfs 


在 程序 中 可 以 通过 在 调用 mount(2) (14.8.1 节 ) 时 指定 
MS_MANDLOCK 标 记 来 取得 同样 的 结果 。 





通过 香 看 不 带 任 何 选项 的 mount(8) 命 令 的 输出 丈 能 够 看 出 一 个 挂 载 
文件 系统 是 否 局 用 了 强制 式 加 锁 。 


# mount | grep sda10 
/dev/sda10 on /testfs type ext3 (rw,mand) 


文件 上 强制 式 加 锁 的 启用 是 通过 开局 set-group-ID 权 限 位 和 关闭 
group-execute 权 限 来 完成 的 。 这 种 权限 位 组 合 在 其 他 场景 中 是 富 无 意义 
的 ， 并 且 在 之 前 的 UNIX 实 现 中 并 没有 用 到 这 种 权限 位 组 合 。 正 因为 如 
此 ， 后 面 的 UNIX 系 统 在 新 增强 制式 加 锁 时 就 无 需 修改 既 有 程序 或 添加 
ae 了 。 在 shell 中 可 以 按照 下 面 的 方法 在 一 个 文件 上 局 用 强制 
TUNA o 


$ chmod g+s,g-x /testfs/file 


在 一 个 程序 中 可 以 通过 使 用 chmod0 或 fthmod0 (15.4.745) 恰当 地 
设置 文件 上 的 权限 来 启用 该 文件 上 的 强制 式 加 锁 。 


当 显 示 一 个 局 用 了 强制 式 加 锁 权 限 位 的 文件 的 权限 时 ，1s(1) 会 在 
group-execute 权 限 列 中 显示 一 个 S。 


$ 1s -1 /testfs/file 
-IW-I-SI-- 1 mtk users 0 Apr 22 14:11 /testfs/file 


所 有 原生 Linuxz 和 UNIX 文 件 系统 都 支持 强制 式 加 锁 ， 但 一 些 网 络 文 
件 系统 和 非 UNIX 文 件 系统 可 能 就 不 支持 强制 式 加 锁 了 。 人 例如， 微软 的 
VEFAT 文 件 系统 没有 set-group-ID 权 限 位 ， 因 此 在 VFAT 文 件 系统 上 就 无 
法 启用 强制 式 加 锁 了 。 


强制 式 加 锁 对 文件 WO 操作 的 影响 


如 果 在 一 个 文件 上 启用 强制 式 加 锁 时 ， 那 么 执行 数据 传输 的 系统 调 
用 (如 read0O 或 writeO〉 在 磁 到 锁 冲 突 〈( 即 在 当前 被 读 或 写 操作 锁 住 的 区 
域 上 执行 一 个 写 入 操作 或 在 当前 被 写 锁 住 的 区 域 上 执行 一 个 读 操 作 〉 时 
会 发 生 什 么 呢 ? 这 个 问题 的 答案 取决 于 是 以 阻 赛 模式 还 是 非 阻塞 模式 打 
开 了 文件 。 如 果 以 阻塞 模式 打开 了 文件 ， 那 么 系统 调用 就 会 阻塞 。 如 果 
在 打开 文件 时 使 用 了 O_NONBLOCK 标 记 ， 那 么 系统 调用 就 会 立即 失败 
并 返回 EAGAIN 错 误 。 类 似 的 规则 同样 适用 于 truncate() 和 ftruncate()， 前 
S ee ee era Veen (为 了 
读 或 者 写 ) 了 。 





























如 果 以 阻塞 模式 打开 了 一 个 文件 〈 即 在 open0 调 用 中 没有 指定 
O_NONBLOCK) ， 那 么 IO 系统 调用 可 能 会 导致 死 锁 情形 的 出 现 。 考 虑 
图 55-7 中 给 出 的 例子 ， 其 中 两 个 进程 都 打开 了 同一 个 文件 以 执行 阻塞 式 
W/O， 它们 先 获取 了 文件 中 不 同 部 分 上 的 写 锁 ， 然 后 分 别 尝试 写 入 被 对 
方 锁 住 的 区 域 。 内 核 在 解决 这 个 问题 时 采用 的 方式 与 解决 由 两 个 fcnt10 
调用 引起 的 死 锁 问题 时 所 用 的 方式 是 一 样 的 〈55.3.1 节 ) : 它 选 择 死 锁 
所 涉及 到 的 其 中 一 个 进程 并 使 其 write0 系 统 调用 失败 并 返回 EDEADLK 


\ 口 





进程 A 进程 B 





(2) 文件 X 的 F_SETLKW 
字 节 100 一 1999 等 待 写 入 


[el fH 





图 55-7: 启用 强制 式 加 锁 时 发 生 的 死 锁 








使 用 O_TRUNC 标 记 open0 一 个 文件 在 存在 其 他 进程 持 有 该 文件 任 
意 部 分 上 的 一 个 读 锁 或 写 锁 时 会 立即 失败 (返回 EAGAIN 错 误 ) 。 


如 果 存 在 进程 持 有 了 一 个 文件 任意 部 分 上 的 强制 式 读 锁 或 写 锁 ， 那 
么 就 无 法 在 该 文件 上 创建 一 个 共享 内 存 映射 〈 即 在 调用 mmap0 时 指定 了 
MAP_SHARED 标 记 ) 。 同 样 ， 如 果 一 个 文件 参与 了 一 个 共享 内 存 映 
射 ， 那 么 就 无 法 在 该 文件 的 任意 部 分 上 放置 一 把 强制 式 锁 。 在 这 两 种 情 
况 中 ， 相 关 的 系统 调用 会 立即 失败 并 返回 EAGAIN 错 误 。 之 所 以 存在 这 
些 限制 的 原因 在 考虑 内 存 映 射 的 实现 之 后 就 变 得 清晰 起 来 了 。 在 49.4.2 
节 中 曾经 介绍 过 一 个 既 从 文件 中 读 取 又 向 文件 写 入 的 共享 文件 映射 〈 特 
别 是 后 一 个 操作 会 与 文件 上 任意 类 型 的 锁 产 生 冲 突 ) 。 此 外 ， 这 种 文件 
IO 是 通过 内 存 管理 子 系统 完成 的 ， 而 这 个 子 系统 是 不 清楚 系统 中 任意 





一 个 文件 锁 所 处 的 位 置 的 。 因 此 为 防 正 一 个 映射 更 新 一 个 被 放置 了 强制 
式 锁 的 文件 ， 内 核 需要 执行 一 个 简单 的 检查 一 一 在 执行 mmapO 调 用 时 检 
有 








强制 式 加 锁 警 告 


强制 式 锁 所 起 的 作用 其 实 没 有 其 一 开始 看 起 来 那么 大 ， 它 存在 一 些 
潜在 的 缺陷 和 问题 。 


© 在 一 个 文件 上 持 有 一 把 强制 式 锁 并 不 能 阻止 其 他 进程 删除 这 个 文 

Be E E 
。 在 一 个 可 公开 访问 的 文件 上 启用 强制 式 锁 之 前 需要 经 过 深思 熟 虑 ， 

因为 即使 是 特权 进程 也 无 法 履 善 一 个 强制 式 锁 。 恶 意 用 户 可 能 会 持 
续 地 持 有 该 文件 上 的 锁 以 制造 拒绝 服务 的 攻击 。【〔 在 大 多 数 情 况 下 
可 以 通过 关闭 set-group-ID 位 来 使 得 该 文件 再 次 可 访问 ， 但 当 强 制式 
文件 锁 造 成 系统 挂 起 时 就 无 法 这 样 做 了 。) 

使 用 强制 式 加 锁 存 在 性 能 开销 。 在 启用 了 强制 式 加 锁 的 文件 上 执行 
的 每 个 VO 系统 调用 中 ， 内 核 都 必须 要 检查 在 文件 上 是 否 存 在 冲突 

的 锁 。 如 果 文 件 上 存在 大 量 的 锁 ， 那 么 这 种 检查 工作 会 极 大 地 降低 
IO 系统 调用 的 效率 。 

强制 式 加 锁 还 会 在 应 用 程序 设计 阶段 造成 额外 的 开销 ， 因 为 需要 处 
理 每 个 IO 系统 调用 返回 EAGAIN (〈 非 阻塞 VO) 或 EDEADLK (BE 

塞 IJO) 错误 的 情况 。 

因为 在 当前 的 Linux 实 现 中 存在 一 些 内 核 竞 争 条 件 ， 因 此 在 有 些 情 
况 下 执行 WO 操作 的 系统 调用 在 文件 上 存在 本 应 该 拒绝 这 些 操作 的 

强制 式 锁 时 也 能 成 功 。 


忆 的 来 说 ， 应 该 尽 可 能 避免 使 用 强制 式 锁 。 











55.5 /proc/locks 文 件 


通过 检查 Linux 特 有 的 /proc/locks 文 件 中 的 内 容 能 够 租 看 系统 中 当前 
存在 的 锁 。 下 面 给 出 了 一 个 示例 文件 所 包含 的 信息 《在 本 例 中 是 四 个 
Bi) 
$ cat /proc/locks 
1: POSIX ADVISORY WRITE 458 03:07:133880 0 EOF 
2: FLOCK ADVISORY WRITE 404 03:07:133875 0 EOF 


3: POSIX ADVISORY WRITE 312 03:07:133853 0 EOF 
4: FLOCK ADVISORY WRITE 274 03:07:81908 0 EOF 


/proc/locks 文 件 显 示 了 使 用 flock() 和 fcnt10 创 建 的 锁 的 相关 信息 。 
把 锁 的 8 个 字段 的 含义 如 下 《从 左 至 右 ) 。 


1. 锁 在 该 文件 上 所 有 锁 中 的 序号 〈 人 参见 55.3.4 节 ) 。 


2. 锁 的 类 型 。 其 中 FLOCK 表 示 flockO 创 建 的 锁 ，POSIX 表 示 fcntl0) 
创建 的 锁 。 


3. 锁 的 模式 ， 其 值 是 ADVISORY 或 MANDATORY。 


锁 的 类 型 ， 其 值 是 READ 或 WRITE 〈 对 应 于 fcntl0 的 共享 锁 和 互 








4. 
F) 。 

5. 持 有 和 锁 的 进程 的 进程 ID。 

6. 三 个 用 冒号 分 隔 的 数字 ， 它 们 标识 出 了 锁 所 属 的 文件 。 这 些 数 
字 是 文件 所 处 的 文件 系统 的 主要 和 次 要 设备 号 ， 后 面 跟着 文件 的 inode 
= 


O 


7. 锁 的 起 始 字 节 。 对 于 flock0 锁 来 讲 ， 其 值 永远 是 0。 


8. 锁 的 结尾 字 节 。 其 中 EOF 表 示 锁 延伸 到 文件 的 结尾 〈 即 对 于 
fcntO 创 建 的 锁 来 讲 是 将 ]L_len 指 定 为 0) 。 对 于 flock0 锁 来 讲 ， 这 一 列 的 
值 永远 是 EOF。 


在 Linux 2.4 以 及 之 前 的 版 本 上 ，/proc/locks 文 件 中 的 每 一 行 都 还 包 
含 五 个 额外 的 十 六 进 制 值 。 它 们 是 内 核 用 来 记录 在 各 个 列表 中 的 锁 的 指 


针 地 址 ， 这 些 值 对 于 应 用 程序 来 讲 是 坚 无 用 处 的 。 


使 用 /proclocks 中 的 信息 能 够 找 出 哪个 进程 持 有 了 哪个 文件 上 的 
锁 。 下 面 的 shell 会 话 显示 了 如 何 找 出 上 面 列表 中 序号 为 3 的 锁 的 此 类 信 
上 县。 这 个 锁 由 进程 ID 为 312 的 进程 持 有 ， 其 所 属 的 文件 在 主要 ID 为 3、 次 
要 ID 为 7 的 设备 上 的 第 133853 个 i-node 上 上。 下面 首 先 使 用 ps(1) 列 出 进程 
ID 为 312 的 进程 的 相关 信息 。 


$ ps -p 312 
PID TTY TIME CMD 
312 ? 00:00:00 atd 


从 上 面 的 输出 可 以 看 出 持 有 锁 的 程序 是 atd， 即 执行 批 处 理 作业 的 


daemon. 
为 找 出 被 锁 住 的 文件 ， 下 面 首 先 在 /dev 目 录 中 搜索 文件 并 确定 ID 为 
3:7 的 设备 是 /dev/sda7。 


$ ls -li /dev/sda7 | awk '$6 == "3," && $7 == 10' 
1311 brw-rw---- 1 root disk 3, 7 May 12 2006 /dev/sda7 


接着 确定 设备 /dev/sda7 的 挂 载 点 并 在 该 部 分 文件 系统 中 搜索 i-node 
号 为 133853 的 文件 。 





$ mount | grep sda7 


/dev/sda7 on / type reiserfs (rw) Device is mounted on / 

$ su So we can search, all directories 
Password: 

# find / -mount -inum 133853 Search for inode 133853 


/var/run/atd. pid 


find -mount 选 项 防止 fnd 进 入 /下 的 子 目 录 《 表 示 其 他 文件 系统 的 挂 
载 点 ) 进行 搜索 。 


最 后 显示 被 锁 住 的 文件 的 内 容 。 


# cat /var/run/atd.pid 
312 


这 样 就 能 看 出 atd daemon 持 有 了 /varvrun/atd.pid 文 件 上 的 一 把 锁 ， 而 
这 个 文件 中 的 内 容 束 是 运行 atd 的 进程 的 进程 ID。 这 个 daemon 采 用 了 一 
项 技术 来 确保 在 一 个 时 刻 只 有 一 个 daemon 实 例 在 运行 ， 在 55.6 节 中 将 会 
对 这 项 技术 进行 摘 述 。 





通过 /proclocks 还 能 够 获取 被 阻塞 的 锁 请 求 的 相关 信息 ， 如 下 面 的 
输出 所 示 。 


$ cat /proc/locks 

1: POSIX ADVISORY WRITE 11073 03:07:436283 100 109 

1: -> POSIX ADVISORY WRITE 11152 03:07:436283 100 109 
2: POSIX MANDATORY WRITE 11014 03:07:436283 0 9 

2: -> POSIX MANDATORY WRITE 11024 03:07:436283 0 9 

2: -> POSIX MANDATORY READ 11122 03:07:436283 0 19 

3: FLOCK ADVISORY WRITE 10802 03:07:134447 0 EOF 

3: -> FLOCK ADVISORY WRITE 10840 03:07:134447 0 EOF 


其 中 锁 号 后 面 随即 跟着 -> 字符 的 行 表示 被 相应 锁 号 阻塞 的 锁 请 求 。 
因此 从 上 面 的 输出 可 以 看 出 一 个 请 求 被 阻塞 在 锁 1 上 ， 两 个 请 求 被 阻塞 
在 锁 2 上 《使 用 fcnt0 创 建 的 一 把 锁 ) ， 一 个 请 求 被 阻塞 在 锁 3 上 EH 
flockO 创 建 的 一 把 锁 ) 。 


/proc/locks 文 件 还 显示 了 系统 中 进程 持 有 的 文件 租用 的 
相关 信息 。 文 件 租用 是 Linux 特 有 的 的 机 制 ， 它 自 Linux 2.4 
起 可 用 。 如 果 一 个 进程 租用 了 一 个 文件 ， 那 么 该 进程 在 其 
他 进程 尝试 open0) 或 truncateO) 该 文件 时 会 收 到 通知 (通过 发 
送信 号 ) 。 (包括 truncate() 是 有 必要 的 ， 因 为 它 是 唯一 一 
个 在 无 需 打 开 文 件 的 情况 下 就 能 够 改变 文件 的 内 容 的 系统 
调用 。) 之 所 以 提供 文件 租用 功能 是 为 了 使 得 Samba 能 够 
支持 Microsoft SMB 的 机 会 锁 〈oplocks) 功能 以 及 允许 第 4 
版 的 NFS 支 持 委 托 (delegations， 它 与 SMB oplocks 类 
似 ) 。 更 多 有 关 文 件 租用 的 细节 可 以 在 fcntl(2) 手 册 中 关于 
F_SETLEASE 操 作 的 描述 中 找到 。 


55.6” 仅 运行 一 个 程序 的 单个 实例 


一 些 程序 一 一 特别 是 很 多 daemon 需要 确保 同一 时 刻 只 有 一 个 程 
序 实例 在 系统 中 和 运行。 完成 这 项 任务 的 一 个 各 见方 法 是 让 daemon 在 一 个 
标准 目录 中 创建 一 个 文件 并 在 该 文件 上 放置 一 把 写 锁 。daemon 在 其 执行 
期 间 一 直 持 有 这 个 文件 锁 并 在 即将 终止 之 前 删除 这 个 文件 。 如 果 启 动 了 
daemon 的 男 一 个 实例 ， 那 么 它 在 获取 该 文件 上 的 写 锁 时 就 会 失败 ， 其 结 
果 是 它 会 意识 到 daemon 的 男 一 个 实例 肯定 正在 运行 ， 然 后 终止 。 








很 多 网 络 服 务 器 采用 了 男 一 种 常规 做 法 ， 即 当 服 务 器 
绑 定 的 众所周知 的 socket 端 口号 已 经 被 使 用 时 就 认为 该 服务 
器 实例 已 经 处 于 运行 状态 了 〈61.10 节 ) © 








/Var/run 目 录 通 常 是 存放 此 类 锁 文件 的 位 置 。 或 者 也 可 以 在 daemon 
的 配置 文件 中 加 一 行 来 指定 文件 的 位 置 。 


通常 ，daemon 会 将 其 进程 ID 写 入 锁 文 件 ， 因 此 这 个 文件 在 命名 时 
通 弟 将 .pid 作 为 扩展 名 《如 syslogd 会 创建 文件 /varrun/syslogd.pid) 。 这 
对 于 那些 需要 找 出 daemon 的 进程 ID 的 应 用 程序 来 讲 是 比较 有 用 的 。 它 
还 允许 执行 额外 的 健全 检查 可 以 像 20.5 节 中 摘 述 的 那样 使 用 kill(pid， 
0) 来 检查 进程 ID 是 否 存在 。 【在 较 早 的 不 提供 文件 加 锁 的 UNIX 实 现 
上 ， 这 是 一 种 不 完美 但 很 实用 的 方法 ， 用 于 检查 一 个 daemon 实 例 是 否 在 
运行 或 前 一 个 实例 在 终止 之 前 是 否 没 有 成 功 删 除 这 个 文件 。) 


用 来 创建 和 锁 住 一 个 进程 ID 锁 文件 的 代码 存在 很 多 微小 的 差异 。 程 
序 清单 55-4 根 据 [Stevens, 1999] 提 供 的 想法 提供 了 一 个 函数 
createPidFile()， 它 封装 了 上 面 描述 的 步 又 。 调 用 这 个 函数 通常 会 使 用 下 
面 这 样 的 代码 。 
if (createPidFile("mydaemon", "/var/run/mydaemon.pid", 0) == -1) 
errExit("createPidFile") ; 











createPidFileO) 函 数 中 的 一 个 精妙 之 处 是 使 用 ftruncate() 来 清除 锁 文 件 
中 之 前 存在 的 所 有 字符 串 。 之 所 以 要 这 样 做 是 因为 daemon 的 上 一 个 实例 
在 删除 文件 时 可 能 因 系统 骨 溃 而 失败 。 在 这 种 情况 下 ， 如 果 新 daemon 实 
例 的 进程 了 PE 较 小 ， 那 么 可 能 就 无 法 完全 履 盖 之 前 文件 中 的 内 容 。 例 如 ， 
如 果 进 程 ID 是 789， 那 么 加 只 会 同文 件 写 入 789n， 但 之 前 的 daemon 实 例 
可 能 已 经 向 文件 写 入 了 12345\m， 这 时 如 果 不 截 断 文件 的 话 得 到 的 内 容 
就 会 是 789m5\n。 从 严格 意义 上 来 讲 ， 清 除 所 有 既 有 字符 串 并 不 是 必需 
的 ， 但 这 样 做 显得 更 加 简洁 并 且 能 排除 产生 混 请 的 可 能 。 


在 flags 参 数 中 可 以 指定 常量 CPF_CLOEXEC 将 会 导致 createPidFile() 
为 文件 描述 符 设置 close-on-exec 标 记 (27.477) 。 这 对 于 通过 调用 exec() 
重启 自己 的 服务 器 来 讲 是 比较 有 用 的 。 如 果 在 exec0O 时 文件 描述 符 没有 
那么 重新 启动 的 服务 器 会 认为 服务 器 的 另 一 个 实例 正 处 于 运行 


























建 一 个 PID 锁 文件 以 确保 只 有 一 个 程序 实例 被 启动 了 


= 





程序 清单 55-4: 包 


filelock/create pid file.c 


#include <sys/stat.h> 

#include <fcntl.h> 

#include “region locking.h" /* For lockRegion() */ 

#include “create pid file.h" /* Declares createPidFile() and 
defines CPF_CLOEXEC */ 

#include "tlpi_hdr.h" 


#define BUF SIZE 100 /* Large enough to hold maximum PID as string */ 


/* Open/create the file named in 'pidFile', lock it, optionally set the 
close-on-exec flag for the file descriptor, write our PID into the file, 
and (in case the caller is interested) return the file descriptor 
referring to the locked file. The caller is responsible for deleting 
‘pidFile' file (just) before process termination. ‘progName' should be the 
name of the calling program (i.e., argv[0] or similar), and is used only for 
diagnostic messages. If we can't open 'pidFile', or we encounter some other 
error, then we print an appropriate diagnostic and terminate. */ 


int 
createPidFile(const char *progName, const char *pidFile, int flags) 


int fd; 
char buf[BUF SIZE]; 


fd = open(pidFile, O RDWR | O CREAT, S IRUSR | S IWUSR); 
if (fd == -1) 
errExit("Could not open PID file %s", pidFile); 


if (flags & CPF _CLOEXEC) { 
/* Set the close-on-exec file descriptor flag */ 


flags = fcntl(fd, F_GETFD); /* Fetch flags */ 
if (flags == -1) 
errExit("Could not get flags for PID file %s", pidFile); 


flags |= FD_CLOEXEC; /* Turn on FD_CLOEXEC */ 


if (fcntl(fd, F_SETFD, flags) == -1) /* Update flags */ 
errExit("Could not set flags for PID file %s", pidFile); 
} 


if (lockRegion(fd, F_WRLCK, SEEK SET, 0, 0) == -1) { 
if (errno == EAGAIN || errno == EACCES) 
fatal("PID file '%s' is locked; probably " 
"'%s' is already running", pidFile, progName); 
else 
errExit("Unable to lock PID file '%s'", pidFile); 


} 


if (ftruncate(fd, 0) == -1) 
errExit("Could not truncate PID file '%s'", pidFile); 


snprintf(buf, BUF SIZE, "%ld\n", (long) getpid()); 
if (write(fd, buf, strlen{buf)) != strlen(buf)) 
fatal("Writing to PID file '%s'", pidFile); 


return fd; 


filelock/create_pid_file.c 


55.7 ”老式 加 锁 技 术 


在 较 早 的 不 支持 文件 加 锁 的 UNIX 实 现 上 可 以 使 用 一 些 特别 的 加 锁 
技术 。 尺 管 所 有 这 些 技术 都 已 经 被 fcntl0) 记 录 加 锁 所 取代 ， 但 这 里 仍然 
要 介绍 它们 ， 因 为 在 一 些 较 早 的 应 用 程序 中 仍然 存在 它们 的 里 影 。 所 有 
这 些 技术 在 性 质 上 都 是 劝告 式 的 。 


open(file, 0_CREAT |0_EXCL,..) 加 上 unlink(file) 


SUSv3 要 求 使 用 了 O_CREAT 和 O_EXCL 标 记 的 open0 调 用 有 原子 地 
执行 检查 文件 的 存在 性 以 及 创建 文件 两 个 步骤 〈5.1 节 ) 。 这 意味 着 如 
果 两 个 进程 尝试 在 创建 一 个 文件 时 指定 这 些 标记 ， 那 么 就 保证 只 有 其 中 
一 个 进程 能 够 成 功 。〔 男 一 个 进程 会 从 open0 〇 中 收 到 EEXIST 错 误 。) 这 
种 调用 与 unlink() 系 统 调用 组 合 起 来 就 构成 了 一 种 加 锁 机 制 的 基础 。 获 
取 锁 可 通过 成 功 地 使 用 O_CREAT 和 O_EXCL 标 记 打 开 文 件 后 ， 立 即 跟 
着 一 个 close0 来 完成 。 释 放 锁 则 可 以 通过 使 用 unlink0 来 完成 。 尽 管 这 项 
技术 能 够 正常 工作 ， 但 它 存 在 一 些 局 限 。 


。 如 果 open0 失 败 了 ， 即 表示 其 他 进程 拥有 了 锁 ， 那 么 就 必须 要 在 某 
种 循环 中 重 试 open0 操 作 ， 这 种 循环 既 可 以 是 持续 不 停 地 (这 将 会 
浪费 CPU 时 间 ) ， 也 可 以 在 相 邻 两 次 尝试 之 间 加 上 一 定 的 延迟 〈 意 
味 着 在 锁 可 用 的 时 刻 和 实际 获取 锁 的 时 刻 之 间 可 能 存在 一 定 的 延 
R) 。 有 了 fcnt0 之 后 则 可 以 使 用 F_SETLKW 来 阻塞 直到 锁 可 用 为 
Ik 


使 用 open0 和 unlinkO 获 取 和 释放 锁 涉 及 到 文件 系统 的 操作 ， 这 上 比 记 
录 锁 要 慢 很 多 。 (在 笔者 的 一 台 运 行 Linux 2.6.31 的 x86-32 系 统 上 ， 

使 用 这 里 摘 述 的 技术 获取 和 释放 一 个 ext3 文 件 上 的 1 百 万 个 锁 需 要 

e a aa a 
要 2.5 秒 。) 

如 果 一 个 进程 意外 终止 并 且 没 有 删除 锁 文 件 ， 那 么 锁 就 不 会 被 释 

放 。 处 理 这 个 问题 存在 特别 的 技术 ， 包 括 检 碍 文件 的 上 次 修改 时 间 
和 让 锁 的 持 有 者 将 其 进程 ID 写 入 文件 ， 这 样 就 能 够 检查 进程 是 否 存 
在 ， 但 这 些 技术 中 没有 一 项 技术 是 安全 可 靠 的 。 与 之 相反 的 是 ， 在 
一 个 进程 终止 时 记录 锁 的 释放 操作 是 原子 的 。 

如 果 放 置 多 把 锁 〈 即 使 用 多 个 锁 文 件 ) ， 那 么 束 无 法 检测 出 死 锁 。 
如 果 发 生 了 死 锁 ， 那 么 造成 死 锁 的 进程 就 会 永远 保持 阻塞 。 (每 个 











进程 都 会 定 在 那里 检查 是 否 能 够 获取 请 求 的 锁 。) 与 之 形成 对 比 的 
是 ， 内 核 会 对 fcnt0 记 录 锁 进程 死 锁 检测 。 

。 第 二 版 的 NFS 不 支持 O_EXCL 语 义 。Linux 2.4 NFS 客 户 端 也 没有 正 
确 地 实现 O_EXCL， 即 使 是 第 三 版 的 NFS 以 及 之 后 的 版 本 也 没 能 完 
成 这 个 任务 。 


link(file, lockfile) 加 上 unlink(lockfile) 


linkO 系 统 调用 在 新 链接 已 经 存在 时 会 失败 的 事实 可 用 作 一 种 加 锁 
机 制 ， 而 解锁 功能 则 还 是 使 用 unlink0 来 完成 。 常 规 的 做 法 是 让 需要 获 
取 锁 的 进程 创建 一 个 唯一 的 临时 文件 名 ， 一 般 来 讲 需要 包含 进程 ID 〈 如 
果 锁 文件 被 创建 于 一 个 网 络 文件 系统 上 ， 那 么 可 能 的 话 再 加 上 主机 
Z) 。 要 获取 锁 则 需要 将 这 个 临时 文件 链接 到 某 个 约定 的 标准 路 径 名 
上 。《 硬 链接 在 语义 上 需要 两 个 路 径 名 位 于 同一 个 文件 系统 上 。) 如 果 
linkO 调 用 成 功 ， 那 么 就 是 获取 了 锁 。 如 果 失 败 CEEXIST) ， 那 么 就 是 
另 一 个 进程 持 有 了 锁 ， 因 此 必须 要 在 稍 后 某 个 时 刻 重 新 尝试 获取 锁 。 这 
项 技术 与 上 面 介绍 的 open(file, O_CREAT | O_EXCL,...) 技 术 存 在 相同 的 
局 限 。 


open(file, O_CREAT | O_TRUNC | O_WRONLY, 0) plus unlink( file) 


当 指 定 O_TRUNC 并 且 写 权限 被 拒 绝 时 在 一 个 既 有 文件 上 调用 
open0 会 失败 的 事实 可 作为 一 项 加 锁 技 术 的 基础 。 要 获取 一 把 锁 可 以 使 
用 下 面 的 代码 《和 省略 了 错误 检查 ) 来 创建 一 个 新 文件 。 


fd = open({file, O CREAT | O TRUNC | O WRONLY, (mode t) 0); 
close(fd); 








至 于 为 何在 上 面 的 open0 调 用 中 使 用 (mode_b 转 换 可 参 
见 附录 C。 





如 果 openO 调 用 成 功 〈 即 文件 之 前 不 存在 ) ， 那 么 就 是 获取 了 锁 。 
如 果 因 EACCES 而 失败 《〈 即 文件 存在 但 没有 人 拥有 权限 ) ， 那 么 其 他 进 
程 持 有 了 锁 ， 还 需要 在 后 面 某 个 时 刻 尝试 重新 获取 锁 。 这 项 技术 与 前 面 














介绍 的 技术 存在 相同 的 局 限 ， 还 需要 注意 的 是 不 能 在 具备 超级 用 户 特权 
ne 因为 open0 总 是 会 成 功 ， 不 管 文 件 上 设置 的 权 
限 是 什么 。 


55.8 ”总 结 


文件 锁 使 得 进程 能 够 同步 对 一 个 文件 的 访问 。Linux 提 供 了 两 种 文 
件 加 锁 系 统 调 用 : 从 BSD 衍 生出 来 的 flockO0 和 从 System V 衍 生出 来 的 
fcntl()。 人 尽管 这 两 组 系统 调用 在 大 多 数 UNIX 实 现 上 都 是 可 用 的 ， 但 只 有 
fcntl() 加 锁 在 SUSv3 中 进行 了 标准 化 。 


flockO 系 统 调用 对 整个 文件 加 锁 ， 可 放置 的 锁 有 两 种 : 一 种 是 共有 至 
锁 ， 这 种 锁 与 其 他 进程 持 有 的 共享 锁 是 兼容 的 ， 另 一 种 是 互 斥 锁 ， 这 种 
锁 能 够 阻止 其 他 进程 放置 这 两 种 锁 。 


fcntl0 系 统 调用 将 一 个 文件 的 任意 区 域 上 放置 锁 〈“ 记 录 锁 ?>) ， 这 
个 区 域 可 以 是 单个 字 节 也 可 以 是 整个 文件 。 可 放置 的 锁 有 两 种 : 读 锁 和 
写 锁 ， 它 们 之 间 的 兼容 性 语义 与 lock0O 放 置 的 共享 锁 和 互 斥 锁 之 间 的 兼 
容 性 语义 类 似 。 如 果 一 个 阻塞 式 (F_SETLKW) 锁 请 求 将 会 导致 死 锁 ， 
那么 内 核 会 让 其 中 一 个 受 影响 的 进程 的 fcnt10 失 败 〈( 返 回 EDEADLK 错 
误 ) 。 


使 用 flockO0 和 fcntl0 放 置 的 锁 之 间 是 相互 不 可 见 的 〈 除 了 在 使 用 
fcntl0 实 现 flockO 的 系统 ) 。 通 过 flock0 和 fcnt0 放 置 的 锁 在 forkO 中 的 继 
承 语 义 和 在 文件 描述 符 被 关闭 时 的 释放 语义 是 不 同 的 。 

Linux 特 有 的 /proclocks 文 件 给 出 了 系统 中 所 有 进程 当期 持 有 的 文件 
锁 。 

更 多 信息 

[Stevens & Rago,2005] 和 [Stevens, 1999] 对 fcntO0 记 录 加 锁 进 行 了 详尽 

的 讨论 。[Bovet & Cesati, 2005] 提 供 了 Linux 上 flock() 和 fentl0 加 锁 的 一 些 


实现 细节 。[Tanenbaum, 2007] 和 [Deitel et al., 2004] 从 总 体 上 摘 述 了 和 死 锁 
的 概念 ， 包 括 死 锁 检 测 履 产 、 避 人 免 以 及 防止 。 








55.9 ”习题 


55-1. 试验 运行 程序 清单 55-1 中 给 出 的 程序 (tflock.c) 的 多 个 实 
例 以 确认 下 列 有 关 flockO 操 作 的 各 项 要 点 : 


(a) 一 系列 取得 一 个 文件 上 的 共 至 锁 的 进程 是 否 会 导致 一 个 尝试 在 该 
文件 上 放置 互 斥 锁 的 进程 饿 死 ? 


人 b) 假 设 一 个 文件 被 互 斥 地 锁 住 了 ， 并 且 其 他 进程 正在 等 待 在 该 文件 
上 放置 共 吾 锁 和 互 斥 锁 。 那 么 当 第 一 把 锁 被 释放 之 后 是 否 存在 什么 规则 
来 确定 哪个 进程 能 够 获取 这 把 锁 ? 如 共享 锁 是 售 比 互 斥 锁 拥 有 更 高 的 优 
先 级 ， 或 反之 亦 然 ? 锁 的 准予 是 否 按照 FIFO 顺 序 ? 


(O) 读 者 如 果 能 够 访问 其 他 提供 了 flock() 的 UNIX 实 现 ， 那 么 在 该 实 
现 上 对 这 些 规则 进行 确认 。 


55-2. 写 一 个 程序 来 确认 flock0 在 被 两 个 进程 用 来 锁 住 两 个 不 同 的 
文件 时 是 否 对 死 锁 进行 检测 。 


55-3. 写 一 个 程序 来 验证 55.2.1 节 中 有 关 flockO 锁 的 继承 和 释放 语 
义 的 论断 。 


55-4. 试验 运行 程序 清单 55-1 中 的 程序 〈t_flock.c) 和 程序 清单 55- 
2 中 的 程序 〈i_fcntl_locking.c) 来 观察 通过 flock0 和 fcntlO0 取 得 的 锁 是 否 
会 相互 影响 。 读 者 如 果 能 够 访问 其 他 UNIX 实 现 ， 那 么 请 在 那些 实现 上 
开展 同样 的 实验 。 


55-5. 55.3.4 节 中 指出 过 在 Linuxz 上 ， 添 加 或 检查 一 把 锁 的 存在 性 所 
需 的 时 间 取 决 于 锁 在 该 文件 上 所 有 锁 的 列表 中 的 位 置 。 编 写 两 个 程序 验 
UE: 


(a) 第 一 个 程序 应 该 在 一 个 文件 上 获取 《比如 说 ) 40 001 个 写 锁 。 这 
些 锁 交 蔡 地 被 放置 在 文件 中 的 各 个 字 节 上 ， 即 锁 会 被 放置 在 字 节 0、2、 
4、6， 以 此 类 推 直到 《比如 说 ) 字 节 80 000。 取 得 这 些 锁 之 后 进程 就 进 
入 睡眠 。 


人 b) 在 第 一 个 程序 处 于 睡眠 的 时 候 ， 第 二 个 程序 循环 《比如 说 ) 10 











000 次 ， 在 每 个 循环 中 使 用 F_SETLK 来 尝试 锁 住 被 上 一 个 程序 锁 住 的 其 
中 一 个 字 节 《这 些 加 锁 请 求 总 是 会 失败 ) 。 不 管 在 哪 次 运行 中 ， 这 个 程 
序 总 是 尝试 锁 住 文件 的 第 N* 24 Fo 


使 用 shell 内 置 的 time 命 令 ， 测 量 N 等 于 0、10 000、20 000、30 000 以 
及 40 000 时 执行 第 二 个 程序 所 需 的 时 间 。 得 到 的 结果 是 否 与 预期 的 线性 
行为 匹配 ? 

55-6. 试验 程序 清单 55-2 中 的 程序 G_fentl_locking.c) 来 验证 
55.3.6 节 中 有 关 锁 猴 死 和 fcntl0 记 录 锁 优先 级 的 论断 。 


55-7. 读者 如 果 能 够 访问 其 他 UNIX 实 现 ， 那 么 请 使 用 程序 清单 55- 
2 中 的 程序 〈i_fcntL_locking.c) 来 观察 是 否 可 以 得 出 fcntO 记 录 加 锁 在 写 
者 饿 死 方面 以 及 多 个 排队 锁 请 求 被 准予 的 顺序 方面 的 处 理 规则 。 


55-8. 使 用 程序 清单 55-2 中 的 程序 〈i fcntl_locking.c) 来 说 明 内 核 
会 检测 出 包含 三 个 (或 更 多 ) 对 同一 文件 进行 加 锁 的 进程 的 循环 死 锁 。 


55-9. 编写 一 对 程序 〈 或 使 用 一 个 子 进 程 的 单个 程序 ) 使 它们 使 用 
55.4 市 中 搬 述 的 强制 式 锁 来 造成 死 锁 的 情形 。 


55-10. 阅读 procmail 提 供 的 lockfile(1) 实 用 工具 的 手册 ， 为 该 程序 
编写 一 个 简化 版 。 




















#5622 SOCKET: 介绍 


socket 是 一 种 IPC 方 法 ， 它 允许 位 于 同一 主机 (计算机) 或 使 用 网 络 
连接 起 来 的 不 同 主机 上 的 应 用 程序 之 间 交 换 数据 。 第 一 个 被 广泛 接受 的 
socket API 实 现 于 1983 年 ， 出 现在 了 4.2BSD 中 ， 实 际 上 这 组 API 已 经 被 
移植 到 了 所 有 UNIX 实 现 以 及 其 他 大 多 数 操作 系统 上 了 。 





socket API 是 在 POSIX.1g 中 进行 正式 规定 的 ， 它 作为 标 
准 草 案 在 经 历 了 10 年 之 后 于 2000 年 被 正式 认可 。 现 在 它 已 
经 被 SUSv3 所 取代 了 。 








本 章 以 及 后 续 章 节 将 介绍 socket 的 用 法 ， 有 具体 如 下 。 


。 本 章 将 对 socket API 进 行 一 个 全 面 的 介绍 。 下 面 的 章节 将 假设 读者 
己 经 理解 了 本 半 介 绍 的 常规 概念 。 本 章 不 会 介绍 任何 示例 代码 ， 后 
续 章 节 将 会 介绍 有 关 UNIX 和 Internet domain 的 代码 示例 。 

第 57 章 将 介绍 UNIX domain socket， 它 允许 位 于 同一 主机 系统 上 的 
应 用 程序 之 间 通 信 。 

第 58 章 将 介绍 各 种 计算 机 联网 概念 并 描述 TCP/P 联 网 协议 的 关键 特 
性 ， 它 为 后 续 章 节 提 供 了 需要 的 背景 知识 。 

第 59 章 将 描述 Internet domain socket， 它 允许 位 于 不 同 主机 上 的 应 用 
程序 之 间 通 过 一 个 TCP/IP 网 络 进行 通信 。 

第 60 章 将 讨论 使 用 socket 的 服务 设计 。 

第 61 章 将 介绍 一 些 高 级 主题 ， 包 括 socket IO 的 其 他 特性 、TCP 协 议 
A 细节 信息 以 及 如 何 使 用 socket 选 项 来 获取 和 修改 socket 的 各 种 特 








这 些 章节 的 目标 仅仅 是 让 读者 在 使 用 socket 方 面 建立 展 好 的 基础 。 
socket 程 序 设 计 ， 特 别 是 网 络 通 信 ， 本 号 就 是 一 个 庞大 的 主题 ， 它 需要 
使 用 一 整 本 书 来 介绍 。59.15 节 列 出 了 有 关 这 一 主题 的 更 多 信息 源 。 


56.1 概述 


在 一 个 典型 的 客户 端 /服务 器 场景 中 ， 应 用 程序 使 用 socket 进 行 通信 
Az san FB 


© 各 个 应 用 程序 创建 一 个 socket。socket 是 一 个 允许 通信 的 “设备 ”， 两 
个 应 用 程序 都 需要 用 到 它 。 
。 服务 器 将 目 己 的 socket 绑 定 到 一 个 众所周知 的 地 址 〈 名 称 ) 上 使 得 
客户 并 能 够 定位 到 它 的 位 置 。 
使 用 socketO 系 统 调用 能 够 创建 一 个 socket， 它 返回 一 个 用 来 在 后 续 
系统 调用 中 引用 该 socket 的 文件 描述 符 。 


fd = socket(domain, type, protocol); 


在 后 续 章 节 中 将 会 对 socket domain 和 类 型 进行 介绍 。 在 本 书 介绍 的 
所 有 应 用 程序 中 ，protocol 参 数 总 是 被 指定 为 0。 








通信 domain 
socket 存 在 于 一 个 通信 domain 中 ， 它 确定 : 


识别 出 一 个 socket 的 方法 〈 即 socket“ 地 址 ”的 格式 ) ; 
通信 范围 ( 即 是 在 位 于 同一 主机 上 的 应 用 程序 之 间 还 是 在 位 于 使 用 
一 个 网 络 连接 起 来 的 不 同 主机 上 的 应 用 程序 之 间 ) 。 


现代 操作 系统 至 少 支 持 下 列 domain。 


e UNIX (AF_UNIX) domain 人 允许 在 同一 主机 上 的 应 用 程序 之 间 进 行 通 
信 。 (POSIX.1g 使 用 名 称 AF_LOCAL 作 为 AF_UNIX 的 同义词 ， 但 
SUSv3 并 没有 使 用 这 个 名 称 。) 

IPv4 (AF_INET) domain 人 允许 在 使 用 因特网 协议 第 4 版 “IPv4) 网 络 
连接 起 来 的 主机 上 的 应 用 程序 之 间 进 行 通信 。 

IPv6 (AF_INET6) domain 人 允许 在 使 用 因特网 协议 第 6 版 〈IPv6) 网 络 
连接 起 来 的 主机 上 的 应 用 程序 之 间 进 行 通信 。 尽 管 IPv6 被 设计 成 了 
IPv4 接 任 者 ， 但 目前 后 一 种 协议 仍然 是 使 用 最 广 的 协议 。 




















表 56-1 对 这 些 socket domain 的 特点 进行 了 总 结 。 


在 一 些 代码 中 读者 可 能 会 看 到 名 称 诸如 PF_UNIX 而 不 是 AF_UNIX 
的 和 常量。 在 这 种 上 下 文中 ，AF 表 示 “ 地 址 族 (address family) ”，PF 表 
示 “ 协 议 族 (protocol family) ”。 在 一 开始 的 时 候 ， 设 计 人 员 相 信和 单个 协 
议 族 可 以 文 持 多 个 地 址 族 。 但 在 实践 中 ， 没 有 哪 一 个 协议 族 能 够 文 持 多 
个 已 经 被 定义 的 地 址 族 ， 并 且 所 有 既 有 实现 都 将 PE _ 和 党 量 定义 成 对 应 的 
AF 常量 的 同义词 。 (SUSv3 规 定 了 AF_ 常 量 ， 但 没有 规定 PF_ 常 量 。) 
在 本 书 中 会 一 直 使 用 AF_ 和 常量 。 更 多 有 关 这 些 和 常量 的 历史 信息 可 以 在 
[Stevens et al., 2004] 的 4.2 节 中 找到 。 

















表 56-1: socket domain 


AE 应 用 程序 间 的 通信 地 址 格 地 址 结构 


式 
I 
口号 

















y ks 2 y 7 
g i pMoERICR 32 位 IPv4 地 址 +16 位 端 
Yi i 7 y 7 
NEE Bad a 128 位 TPv6 地 址 +6 人 


socket 类 型 




















每 个 socket 实 现 都 至 少 提供 了 两 种 socket: 流 和 数据 报 。 这 两 种 
socket 类 型 在 UNIX 和 Internet domain 中 都 得 到 了 支持 。 表 56-2 对 这 两 种 
socket 类 型 的 属性 进行 了 总 结 。 


表 56-2: socket 类 型 及 其 属性 


m 
aR 


可 靠 地 递送 ? 是 | 5 
消息 边界 保留 ? 
面向 连接 ? 








fl 





> 











| 
Oh 





HH 
=i 

: 
fa | 





流 socket (SOCK_STREAM) 提供 了 一 个 可 靠 的 双向 的 字 节 流通 信 
信道 。 在 这 段 描述 中 的 术语 的 含义 如 下 。 


。 可 靠 的 : 表示 可 以 保证 发 送 者 传输 的 数据 会 完整 无 缺 地 到 达 接 收 应 
ses 《假设 网 络 链接 和 接收 者 都 不 会 朋 涡 ) 或 收 到 一 个 传输 失败 
JJ 通知。 

e MURA: 表示 数据 可 以 在 两 个 socket 之 间 的 任意 方向 上 传输 。 

。 字 市 流 : 表示 与 管道 一 样 不 存在 消息 边界 的 概念 〈 参 见 44.1 节 ) 。 


一 个 流 socket 类 似 于 使 用 一 对 允许 在 两 个 应 用 程序 之 则 进行 双 同 通 
信 的 管道 ， 它 们 之 间 的 差别 在 于 (Internet domain) socket AFE N E 
进行 通信 。 


流 socket 的 正常 工作 需要 一 对 相互 连接 的 socket， 因 此 流 socket 通 常 
被 称 为 面向 连接 的 。 术 语 “ 对 等 socket” 是 指 连接 另 一 端的 socket，“ 对 等 
地 址 ”表示 该 socket 的 地 址 , “对 等 应 用 程序 ”表示 利用 这 个 对 等 socket 的 
应 用 程序 。 有 些 时 候 ， 术 语 “ 远 程 ” (或 外 部 ) 是 作为 对 等 的 同义词 使 
用 。 类 似 地 ， 有 些 时 候 术语 “本 地 ”被 用 来 指 连 接 的 这 一 端 上 的 应 用 程 
序 、socket 或 地 址 。 一 个 流 socket 只 能 与 一 个 对 等 socket 进 行 连接 。 


数据 报 socket (SOCK_DGRAM) 人 允许 数据 以 被 称 为 数据 报 的 消息 
的 形式 进行 交换 。 在 数据 报 socket 中 ， 消 息 边 界 得 到 了 保留 ， 但 数据 传 
ee 消息 的 到 达 可 能 是 无 序 的 、 重 复 的 或 者 根本 就 无 法 到 














数据 报 socket 是 更 一 般 的 无 连接 socket 概 念 的 一 个 示例 。 与 流 socket 
不 同 ， 一 个 数据 报 socket 在 使 用 时 无 需 与 男 一 个 socket 连 接 。 (在 56.6.2 
节 中 将 会 看 到 数据 报 socket 可 以 与 男 一 个 socket 连 接 :， 但 其 语义 与 连接 的 
流 socket 是 不 同 的 。) 


在 Internet domain 中 ， 数 据 报 socket 使 用 了 用 户 数据 报 协 议 
(UDP) ， 而 流 socket 则 OK) 使 用 了 传输 控制 协议 (TCP) 。 一 般 
来 讲 ， 在 称呼 这 两 种 socket 时 不 会 使 用 术语 “Internet domain 数 据 报 
socket” Fll“Internet domain 流 socket”， 而 是 分 别 使 用 术语 “UDP 
socket” 和 “TCP socket”。 
socket 系 统 调 用 
关键 的 socket 系 统 调用 包括 以 下 几 种 。 


。 socket() 系 统 调 用 创建 一 个 新 socket。 


bindO 系 统 调用 将 一 个 socket 绑 定 到 一 个 地 址 上 。 通 常 ， 服 务 器 需要 
使 用 这 个 调用 来 将 其 socket 绑 定 到 一 个 众所周知 的 地 址 上 使 得 客户 
端 能 够 定位 到 该 socket 上 。 

listen() 系 统 调 用 允许 一 个 流 socket 接 受 来 白 其 他 socket 的 接 入 连接 。 
accept() 系 统 调用 在 一 个 监听 流 socket 上 接受 来 自 一 个 对 等 应 用 程序 
的 连接 ， 并 可 选 地 返回 对 等 socket 的 地 址 。 

connectO 系 统 调用 建立 与 另 一 个 socket 之 间 的 连接 。 


在 大 多 数 Linux 架 构 上 【除了 Alpha 和 IA-64) ， 所 有 这 
些 socket 系 统 调用 实际 上 被 实现 成 了 通过 单个 系统 调用 
socketcall0 进 行 多 路 复 用 的 库 函 数 。《〈 这 是 Linux socket 实 
现 的 最 初 的 开发 工作 ， 作 为 一 个 单独 的 项 目的 产物 。) 但 
在 本 书 中 将 所 有 这 些 函 数 都 称 为 系统 调用 ， 因 为 它们 在 最 
初 的 BSD 实 现 以 及 其 他 很 多 同时 代 的 UNIX 实 现 上 是 被 实现 
成 系统 调用 的 。 


socket IO 可 以 使 用 传统 的 read0 和 write0 系 统 调 用 或 使 用 一 组 socket 
特有 的 系统 调用 (如 send()、recv()、sendto() 以 及 recvfrom()) 来 完成 。 
在 默认 情况 下 ， 这 些 系统 调用 在 IO 操作 无 法 被 立即 完成 时 会 阻塞 。 通 
过 使 用 fentl() F_SETFL 操 作 〈5.3 节 ) 来 启用 O_NONBLOCK 打 开 文 件 状 
态 标记 可 以 执行 非 阻 塞 1/O。 


在 Linux 上 可 以 通过 调用 ioctl(fd, FIONREAD, &cnt) 来 
获取 文件 描述 符 fd 引 用 的 流 socket 中 可 用 的 未 读 字 节 数 。 对 
于 数据 报 socket 来 讨 ， 这 个 操作 会 返回 下 一 个 未 读数 据 报 中 
的 字 节 数 〈 如 果 下 一 个 数据 报 的 长 度 为 零 的 话 就 返回 零 ) 
或 在 没有 未 决 数据 报 的 情况 下 返回 0。 这 种 特性 没有 在 





56.2 ”创建 一 个 socket: socket() 
socket() 系 统 调用 创建 一 个 新 socket。 





#include «sys/socket.h> 


int socket(int domain, int type, int protocol); 





Returns file descriptor on success, or -1 on error 





domain 参 数 指定 了 socket 的 通信 domain。type 参 数 指定 了 socket 类 
型 。 这 个 参数 通常 在 创建 流 socket 时 会 被 指定 为 SOCK_STREAM， 而 在 
创建 数据 报 socket 时 会 被 指定 为 \OCK_DGRAM。 

protocol 参 数 在 本 书 描述 的 socket 类 型 中 总 会 被 指定 为 0。 在 一 些 
socket 类 型 中 会 使 用 非 零 的 protocol 值 ， 但 本 书 并 没有 对 这 些 socket 类 型 
进行 描述 。 如 在 裸 socket (SOCK_RAW) 中 会 将 protocol 指 定 为 
IPPROTO_RAW. 


socket() 在 成 功 时 返回 一 个 引用 在 后 续 系 统 调用 中 会 用 到 的 新 创建 
的 Socket 的 文件 描述 符 。 


从 内 核 2.6.27 开 始 ，Linux 为 type 参 数 提供 了 第 二 种 用 
途 ， 即 允许 两 个 非 标准 的 标记 与 socket 类 型 取 OR。 
SOCK_CLOEXEC 标 记 会 导致 内 核 为 新 文件 描述 符 局 用 
close-on-exec 标 记 (FD_CLOEXEC) 。 这 个 标记 之 所 以 有 
用 的 原因 与 4.3.1 节 中 描述 的 open() O_CLOEXEC 标 记 有 用 的 
原因 是 一 样 的 。SOCK_NONBLOCK 标 记 导 致 内 核 在 底层 
打开 着 的 文件 描述 符 上 设置 O_NONBLOCK 标 记 ， 这 样 后 
面 在 该 socket 上 发 生 的 IO 操作 就 变 成 非 阻 塞 了 ， 从 而 无 需 
通过 调用 fcnt0 来 取得 同样 的 结果 。 


56.3 ”将 socket 绑 定 到 地 址 : bind() 
bindO 系 统 调用 将 一 个 socket 绑 定 到 一 个 地 址 上 。 





#include <sys/socket.h> 


int bind(int sockfd, const struct sockaddr *addr, socklen_t addrlen); 


Returns 0 on Success, OT -1 on error 











sockfd 参 数 是 在 上 一 个 socketO 调 用 中 获得 的 文件 描述 符 。addr 人 参数 
是 一 个 指针 ， 它 指向 了 一 个 指定 该 socket 绑 定 到 的 地 址 的 结构 。 传 入 这 
个 参数 的 结构 的 类 型 取决 于 socket domain。addrlen 参 数 指 定 了 地 址 结构 
的 大 小 。addrlen 参 数 使 用 的 socklen_t 数 据 类 型 在 SUSv3 被 规定 为 一 个 整 
数 类 型 。 

一 般 来 讲 ， 会 将 一 个 服务 器 的 socket 绑 定 到 一 个 众所周知 的 地 址 
m 定 的 与 服务 器 进行 通信 的 客户 端 应 用 程序 提前 就 知道 的 地 


除了 将 一 个 服务 器 的 socket 绑 定 到 一 个 众所周知 的 地 址 
之 外 还 存在 其 他 做 法 。 例 如 ， 对 于 一 个 Intermnet domain 
socket 来 讲 ， 服 务 器 可 以 不 调用 bindO) 而 直接 调用 listen()， 
这 将 会 导致 内 核 为 该 socket 选 择 一 个 临时 端口 。( 在 58.6.1 
节 中 将 会 介绍 临时 端口 。) 之 后 服务 器 可 以 使 用 
getsockname() (61.577) 来 获取 socket 的 地 址 。 在 这 种 场景 
中 ， 服 务 器 必须 要 发 布 其 地 址 使 得 客户 端 能 够 知道 如 何 定 
位 到 服务 器 的 socket。 这 种 发 布 可 以 通过 同一 个 中 心目 录 服 
务 应 用 程序 注册 服务 器 的 地 址 来 完成 ， 之 后 客户 端 可 以 通 
过 这 个 服务 来 获取 服务 器 的 地 址 。 (如 Sun RPC 使 用 了 自己 
的 portmapper 服 务 器 来 解决 这 个 问题 。〉 当然 ， 目 录 服 务 应 


用 程序 的 socket 必 须要 位 于 一 个 众所周知 的 地 址 上 。 


56.4 ”通用 socket 地 址 结构 : struct sockaddr 


传 入 bind0 的 addr 和 addrlen 参 数 比 较 复 杂 ， 有 必要 对 其 做 进一步 解 
释 。 从 表 56-1 中 可 以 看 出 每 种 socket domain 都 使 用 了 不 同 的 地 址 格式 。 
如 UNIX domain socket 使 用 路 径 名 ， 而 Internet domain socket 使 用 了 IP 地 
址 和 端口 号 。 对 于 各 种 socket domain 都 需要 定义 一 个 不 同 的 结构 类 型 来 
存储 socket 地 址 。 然 而 由 于 诸如 bind0 之 类 的 系统 调用 适用 于 所 有 socket 
domain， 因 此 它们 必须 要 能 够 接受 任意 类 型 的 地 址 结构 。 为 文 持 这 种 行 
X, socket API 定 义 了 一 个 通用 的 地 址 结构 struct sockaddr。 这 个 类 型 的 
唯一 用 途 是 将 各 种 domain 特 定 的 地 址 结构 转换 成 单个 类 型 以 供 socket 系 
中 的 各 个 参数 使 用 。sockaddr 结 构 通 常 被 定义 成 如 下 所 示 的 结 


struct sockaddr { 
sa family t sa family; /* Address family (AF * constant) */ 
char sa _data[14]; /* Socket address (size varies 
according to socket domain) */ 








这 个 结构 是 所 有 domain 特 定 的 地 址 结构 的 模板 ， 其 中 每 个 地 址 结构 
均 以 与 sockaddr 结 构 中 sa_family 字 段 对 应 的 family 字 段 打头 。 
《sa_family_t 数 据 类 型 在 SUSv3 中 被 规定 成 一 个 整数 类 型 。) 通过 family 
的 值 足以 确定 存储 在 这 个 结构 的 剩余 部 分 中 的 地 址 的 大 小 和 格式 


一 些 UNIX 实 现 还 在 sockaddr 结 构 中 定义 了 一 个 额外 的 
字段 sa len， 它 指定 了 这 个 结构 的 总 大 小 。SUSv3 并 没有 要 
求 这 个 字段 ， 在 socket API 的 Linux 实 现 中 也 不 存在 这 个 字 
as 





如 果 定 义 了 _GNU_SOURCE 特 性 测试 宏 ， 那 么 glibc 将 
使 用 一 个 gcc 扩 展 在 <sys/socket.h> 中 定义 各 个 socket 系 统 调 
用 的 原型 ， 从 而 束 无 需 进行 (struct sockaddr *) 转 换 了 ， 但 依 





赖 这 个 特性 是 不 可 移植 的 〈 在 其 他 系统 上 将 会 导致 编译 警 


T) o 


56.5 ” 流 socket 
流 socket 的 运作 与 电话 系统 类 似 。 


1. socketO 系 统 调用 将 会 创建 一 个 socket， 这 等 价 于 安装 一 个 电 
话 。 为 使 两 个 应 用 程序 能 够 通信 ， 每 个 应 用 程序 都 必须 要 创建 一 个 


socket. 


2. 通过 一 个 流 socket 通 信 类 似 于 一 个 电话 呼叫 。 一 个 应 用 程序 在 进 
行 通 信之 前 必须 要 将 其 socket 连 接 到 男 一 个 应 用 程序 的 socket 上。 两 个 
socket 的 连接 过 程 如 下 。 


(a) 一 个 应 用 程序 调用 bind0 以 将 socket 绑 定 到 一 个 众所周知 的 地 址 
上 ， 然 后 调用 listen0 通 知 内 核 它 接 受 接 入 连接 的 意愿 。 这 一 步 类 似 于 已 
a fae ene PFT SASSER RAT IP SH, EA ty LA 
] 进 电话 了 。 


人) 其 他 应 用 程序 通过 调用 connect0 建 立 连 接 ， 同 时 指定 需 连 接 的 
socket 的 地 址 。 这 类 似 于 拨 某 人 的 电话 号 人 码 。 


(OO 调用 jlisten0 的 应 用 程序 使 用 acceptO 接 受 连 接 。 这 类 似 于 在 电话 啊 
起 时 拿 起 电话 。 如 果 在 对 等 应 用 程序 调用 connect0 之 前 执行 了 accept(0)， 
那么 acceptO 就 会 阻塞 〈“ 等 竺 电话”) 。 


3. 一 旦 建立 了 一 个 连接 之 后 就 可 以 在 应 用 程序 之 间 (类 似 于 两 路 
电话 会 话 ) 进行 双 辐 数据 传输 直到 其 中 一 个 使 用 close0 关 闭 连 接 为 止 。 
通信 是 通过 传统 的 read0 和 write0) 系 统 调 用 或 通过 一 些 提 供 了 额外 功能 的 
socket 特 定 的 系统 调用 (如 sendO 和 recv()) 来 完成 的 。 


图 56-1 演 示 了 如 何在 流 socket 上 使 用 这 些 系统 调用 。 
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图 56-1: 流 socket 上 用 到 的 系统 调用 概述 


























主动 和 被 动 socket 
流 socket 通 常 可 以 分 为 主动 和 被 动 两 种 。 


。 在 默认 情况 下 ， 使 用 socket0) 创 建 的 socket 是 主动 的 。 一 个 主动 的 
socket 可 用 在 connect() 调 用 中 来 建立 一 个 到 一 个 被 动 socket 的 连接 。 
这 种 行为 被 称 为 执行 一 个 主动 的 打开 。 

。 一 个 被 动 socket〈 也 被 称 为 监听 socket) 是 一 个 通过 调用 listen0 以 被 
标记 成 允许 接 入 连接 的 socket。 接 受 一 个 接 入 连接 通 利 被 称 为 执行 
— AS AR TAT FF 


在 大 多 数 使 用 流 socket 的 应 用 程序 中 ， 服 务 嚣 会 执行 被 动 式 打开 ， 
而 客户 端 会 执行 主动 式 打开 。 在 后 面 的 小 节 中 将 会 假设 这 种 场景 ， 因 此 
不 会 再 说 “执行 主动 socket 打 开 的 应 用 程序 ”， 而 是 直接 说 “客户 端 ”。 类 
With, “服务器 ”等 价 于 “执行 被 动 socket 打 开 的 应 用 程序 ”。 





56.5.1 监听 接 入 连接 :listen() 


listen() 系 统 调用 将 文件 描述 符 sockfd 引 用 的 流 socket 标 记 为 被 动 。 这 
个 socket 后 面 会 被 用 来 接受 来 目 其 他 《主动 的 ) socket 的 连接 。 





#tinclude <sys/socket.h> 


int listen(int sockfd, int backlog); 








Returns 0 on success, or -1 on error 





无 法 在 一 个 已 连接 的 socket 〈 即 已 经 成 功 执行 connectO 的 socket 或 由 
acceptO 调 用 返回 的 socket) 上 执行 listen()。 


要 理解 backlog 参 数 的 用 途 首 先 需要 注意 到 客户 端 可 能 会 在 服务 器 调 
用 accept0 之 前 调用 connect()。 这 种 情况 是 有 可 能 会 发 生 的 ， 如 服务 器 可 
能 正 忙 于 处 理 其 他 客户 问 。 这 将 会 产生 一 个 未 决 的 连接 ， 如 图 56-2 所 
TR 
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图 56-2: 一 个 未 决 的 socket 连 接 


内 核 必须 要 记录 所 有 末 决 的 连接 请 求 的 相关 信息 ， 这 样 后 续 的 
accept() 就 能 够 处 理 这 些 请 求 了 。backlog 参 数 允 许 限制 这 种 未 决 连接 的 
数量 。 在 这 个 限制 之 内 的 连接 请 求 会 立即 成 功 。〈 对 于 TCP socket 来 讲 
事情 就 稍微 有 点 复杂 了 ， 有 具体 会 在 61.6.4 节 中 进行 介绍 。) 之 外 的 连接 














请 求 就 会 阻塞 直到 一 个 未 决 的 连接 被 接受 〈 通 过 acceptD)) ， 并 从 未 决 
连接 队列 删除 为 止 。 


SUSv3 人 允许 一 个 实现 为 backlog 的 可 取 值 规定 一 个 上 限 并 允许 一 个 实 
现 静 默 地 将 backlog 值 同 下 舍 入 到 这 个 限制 值 。SUSv3 规 定 实 现 应 该 通过 
在 <sys/socket.h> 中 定义 SOMAXCONN 和 常量 来 发 布 这 个 限制 。 在 Linux 
上 ， 这 个 常量 的 值 被 定义 成 了 128。 但 从 内 核 2.4.25 起 ，Linux 人 允许 在 运 
行 时 通过 Linux 特 有 的 /proc/sys/net/core/somaxconn 文 件 来 调整 这 个 限 
制 。〔 在 早期 的 内 核 版 本 中 ，SOMAXCONN 限 制 是 不 可 变 的 。) 











在 最 初 的 BSD socket 实 现 中 ，backlog 的 上 限 是 5， 并 且 
在 较 早 的 代码 中 可 以 看 到 这 个 数值 。 所 有 现代 实现 允许 为 
backlog 指 定 更 高 的 值 ， 这 对 于 使 用 TCP socket 服 务 大 量 客 
户 的 网 络 服务 器 来 讲 是 有 必要 的 。 





56.5.2 ”接受 连接 : accept() 


accept() 系 统 调用 在 文件 描述 符 sockfd 引 用 的 监听 流 socket 上 接受 一 
个 接 入 连接 。 如 果 在 调用 acceptO 时 不 存在 未 决 的 连接 ， 那 么 调用 就 会 
阻塞 直到 有 连接 请 求 到 达 为 止 。 








#include <sys/socket.h> 


int accept(int sockfd, struct sockaddr *addr, socklen_t *addrlen); 


Returns file descriptor on success, or -1 on error 











理解 accept() 的 关键 点 是 它 会 创建 一 个 新 socket， 并 且 正 是 这 个 新 
socket 会 与 执行 connectO 的 对 等 socket 进 行 连接 。acceptO 调 用 返回 的 函数 
结 末 是 已 连接 的 socket 的 文件 摘 述 符 。 监 听 socket (sockfd) 会 保持 打开 
状态 ， 并 且 可 以 被 用 来 接受 后 续 的 连接 。 一 个 典型 的 服务 器 应 用 程序 会 
创建 一 个 监听 socket， 将 其 绑 定 到 一 个 众所周知 的 地 址 上 ， 然 后 通过 接 
受 该 socket 上 的 连接 来 处 理 所 有 客户 端的 请 求 。 


传 入 acceptO 的 剩余 参数 会 返回 对 端 socket 的 地 址 。addr 参 数 指向 了 
一 个 用 来 返回 socket 地 址 的 结构 。 这 个 参数 的 类 型 取决 于 socket 
domain (与 bind() 一 样 )。 


addrlen 参 数 是 一 个 值 -结果 参数 。 它 指向 一 个 整数 ， 在 调用 被 执行 
之 前 必须 要 将 这 个 整数 初始 化 为 addr 指 向 的 缓冲 区 的 大 小 ， 这 样 内 核 就 
知道 有 多 少 空 间 可 用 于 返回 socket 地 址 了 。 当 accept0 返 回 之 后 ， 这 个 整 
数 会 被 设置 成 实际 被 复制 进 缓冲 区 中 的 数据 的 字 节 数 。 


如 果 不 关 心 对 等 socket 的 地 址 ， 那 么 可 以 将 addr 和 addrlen 分 别 指定 
为 NULL 和 0。 (如 果 希 望 的 话 可 以 像 61.5 市 中 插 sa 
刻 使 用 getpeernameO 系 统 调 用 来 获取 对 端的 地 址 。 





从 内 核 2.6.28 开 始 ，Linux 支 持 一 个 新 的 非 标准 系统 调 

用 accept4()。 这 个 系统 调用 执行 的 任务 与 accept() 相 同 ， 但 
支持 一 个 额外 的 参数 flags， 而 这 个 参数 可 以 用 来 改变 系统 
调用 的 行为 。 目 前 系统 文 持 两 个 标记 : SOCK_CLOEXEC 
和 SOCK_NONBLOCK。SOCK_CLOEXEC 标 记 导 致 内 核 在 
调用 返回 的 新 文件 描述 符 上 局 用 close-on-exec 标 记 

(FD_CLOEXEC) 。 这 个 标记 之 所 以 有 用 的 原因 与 4.3.1 节 
中 描述 的 open() O_CLOEXEC 标 记 有 用 的 原因 是 一 样 的 。 
SOCK_NONBLOCK 标 记 导 致 内 核 在 底层 打开 着 的 文件 描 
述 上 启用 O_NONBLOCK 标 记 ， 这 样 在 该 socket 上 发 生 的 后 
续 IO 操 作 将 会 变 成 非 阻 塞 了 ， 从 而 无 需 通过 调用 fcntl() 来 
取得 同样 的 结果 。 


56.5.3 ”连接 到 对 等 socket: connect() 


connect() 系 统 调用 将 文件 描述 符 sockfd 引 用 的 主动 socket 连 接 到 地 址 
通过 addr 和 addrlen 指 定 的 监听 socket 上 。 








#include <sys/socket.h> 


int connect(int sockfd, const struct sockaddr *addr, socklen_t addrlen); 


Returns 0 on success, or -1 on error 








addr 和 addrlen 参 数 的 指定 方式 与 bind0 调 用 中 对 应 参数 的 指定 方式 
相同 。 


如 果 connect() 失 败 并 且 和 希望 重新 进行 连接 ， 那 么 SUSv3 规 定 完成 这 
个 任务 的 可 移植 的 方法 是 关闭 这 个 socket， 创 建 一 个 新 socket， 在 该 新 
socket 上 重新 进行 连接 。 








56.5.4 jitsocket I/O 


一 对 连接 的 流 socket 在 两 个 端点 之 间 提 供 了 一 个 双 辐 通信 信道 ， 图 
56-3 给 出 了 UNIX domain 的 情形 。 


应 用 A 


应 用 B 


sockfd 











图 56-3: UNIX domain 流 socket 提 供 了 一 个 双向 通信 信道 
连接 流 socket 上 IO 的 语义 与 管道 FIUO 的 语义 类 似 。 


。 要 执行 JO 需 要 使 用 read0 和 writeO 系 统 调用 《或 在 61.3 节 中 描述 的 
socket 特 有 的 send0 和 recvO 调 用 ) 。 由 于 socket 是 双向 的 ， 因 此 在 连 
接 的 两 端 都 可 以 使 用 这 两 个 调用 。 

e 一 个 socket 可 以 使 用 close() 系 统 调用 来 关闭 或 在 应 用 程序 终止 之 后 
关闭 。 之 后 当 对 等 应 用 程序 试图 从 连接 的 另 一 端 读 取 数 据 时 将 会 收 
到 文件 结束 〈 当 所 有 缓冲 数据 都 被 读 取 之 后 ) 。 如 果 对 等 应 用 程序 
试图 向 其 socket 写 入 数据 ， 那 么 它 就 会 收 到 一 个 SIGPIPE 信 号 ， If 

且 系统 调用 会 返回 EPIPE 错 误 。 在 44. 245 中 曾 提 及 过 处 理 这 种 情况 
和 过 EPIPE 错 误 找 出 被 关闭 的 连 








56.5.5 ”连接 终止 : close) 


终止 一 个 流 socket 连 接 的 常见 方式 是 调用 close()。 如 果 多 个 文件 描 
述 符 引用 了 同一 个 socket， 那 么 当 所 有 描述 符 被 关闭 之 后 连接 束 会 终 
JE 


o 
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理 了 之 前 发 送 给 它 的 数据 。 在 这 种 情况 下 就 无 法 知道 已 经 发 生 了 一 个 错 
误 。 如 果 需 要 确保 数据 被 成 功 地 读 取 和 处 理 ， 那 么 就 必须 要 在 应 用 程序 
e 这 通常 由 一 个 从 对 等 应 用 程序 传 过 来 的 显 式 的 确 
认 消 息 构成 。 


在 61.2 节 将 会 描述 shutdown0O 系 统 调 用 ， 它 为 如 何 关 闭 一 个 流 socket 
连接 提供 了 更 加 精细 的 控制 。 





56.6 ”数据 报 socket 
数据 报 socket 的 运作 类 似 于 邮政 系统 。 


1. socket() 系统 调 用 等 价 于 创建 一 个 邮箱 。 “这 里 假设 一 个 系统 与 
一 些 国家 的 农村 中 的 邮政 服务 类 似 ， 取 信和 送信 都 是 在 邮箱 中 发 生 
的 。) 所 有 需要 发 送 和 接收 数据 报 的 应 用 程序 都 需要 使 用 socketO 创 建 
一 个 数据 报 socket。 


2. 为 允许 另 一 个 应 用 程序 发 送 其 数据 报 〈 信 ) ， 一 个 应 用 程序 需 
要 使 用 bind() 将 其 socket 绑 定 到 一 个 众所周知 的 地 址 上 。 一 般 来 讲 ， 一 个 
服务 器 会 将 其 socket 绑 定 到 一 个 众所周知 的 地 址 上 ， 而 一 个 客户 端 会 通 
过 向 该 地 址 发 送 一 个 数据 报 来 发 起 通信 。 (在 一 些 domain 中 一 一 特别 是 
UNIX domain 一 一 客户 端 如 果 想 要 接受 服务 器 发 送 来 的 数据 报 的 话 可 能 
还 需要 使 用 bind() 将 一 个 地 址 赋 给 其 socket。) 


3. 要 发 送 一 个 数据 报 ， 一 个 应 用 程序 需要 调用 sendto()， 它 接收 的 
其 中 一 个 参数 是 数据 报 发 送 到 的 socket 的 地 址 。 这 类 似 于 将 收 信 人 的 地 
址 写 到 信件 上 并 投递 这 封 信 。 


4. 为 接收 一 个 数据 报 ， 一 个 应 用 程序 需要 调用 recvfrom()， 它 在 没 
有 数据 报到 达 时 会 阻塞 。 由 于 recvfrom() 允 许 获取 发 送 者 的 地 址 ， 因 此 
可 以 在 需要 的 时 候 发 送 一 个 响应 。 〈 这 在 发 送 者 的 socket 没 有 绑 定 到 一 
个 众所周知 的 地 址 上 时 是 有 用 的 ， 客 户 端 通 癌 是 会 倍 到 这 种 情况 。) 这 
a ee 因为 已 投递 的 信件 上 是 无 需 标记 上 发 送 者 


5. 当 不 再 需要 socket 时 ， 应 用 程序 需要 使 用 close() 关 闭 socket。 


与 邮政 系统 一 样 ， 当 从 一 个 地 址 向 另 一 个 地 址 发 送 多 个 数据 报 
Cf) 时 是 无 法 保证 它们 按照 被 发 送 的 顺序 到 达 的 ， 甚 至 还 无 法 保证 它 
们 都 能 够 到 达 。 数 据 报 还 新 增 了 邮政 系统 所 不 具备 的 一 个 特点 : 由 于 底 
候 会 重新 传输 一 个 数据 包 ， 因 此 同样 的 数据 包 可 能 会 
次 到 过 。 


图 56-4 演 示 了 数据 报 socket 相 关系 统 调用 的 使 用 。 
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图 56-4: 数据 报 socket 系 统 调用 概述 
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56.6.1 交换 数据 报 : recvfrom 和 sendto() 


recvfrom() 和 sendto() 系 统 调用 在 一 个 数据 报 socket 上 接收 和 发 送 数 据 
报 。 





#include <sys/socket.h> 
ssize t recvfrom(int sockfd, void *buffer, size t length, int flags, 
struct sockaddr *src¢_addr, socklen t *addrlen); 
Returns number of bytes received, 0 on EOF, or -1 on error 


ssize_t sendto(int sockfd, const void *buffer, size_t length, int flags, 
const struct sockaddr *dest_addr, socklen_t addrlen); 


Returns number of bytes sent, or -1 on error 











这 两 个 系统 调用 的 返回 值 和 前 三 个 参数 与 read() 和 write() 中 的 返回 值 
和 相应 参数 是 一 样 的 。 


第 四 个 参数 flags 是 一 个 位 掩 码 ， 它 控制 着 了 socket 特 定 的 IO 特性 。 
在 61.3 节 中 介绍 recv0 和 send( 系 统 调用 时 将 对 这 些 特性 进行 介绍 。 如 果 
无 需 使 用 其 中 任何 一 种 特性 ， 那 么 可 以 将 flags 指 定 为 0。 


src_addr 和 addrlen 参 数 被 用 来 获取 或 指定 与 之 通信 的 对 等 socket 的 地 





Hke 


对 于 recvfrom() 来 讲 ，src_addr 和 addrlen 参 数 会 返回 用 来 发 送 数据 报 
的 远程 socket 的 地 址 。 (这 些 参 数 类 似 于 accept() 中 的 addr 和 addrlen 参 
数 ， 它 们 返回 已 连接 的 对 等 socket 的 地 址 。) src_addr 参 数 是 一 个 指针 ， 
它 指向 了 一 个 与 通信 domain 匹 配 的 地 址 结构 。 与 acceptO 一 样 ，addrlen 
是 一 个 值 -结果 参数 。 在 调用 之 前 应 该 将 addrlen 初 始 化 为 src_addr 指 回 的 
结构 的 大 小 ; 在 返回 之 后 ， 它 包含 了 实际 写 入 这 个 结构 的 字 节 数 。 


如 果 不 关 心 发 送 者 的 地 址 ， 那 么 可 以 将 src_addr 和 addrlen 都 指定 为 
NULL。 在 这 种 情况 下 ，recvfrom0O 等 价 于 使 用 recv0 来 接收 一 个 数据 
报 。 也 可 以 使 用 read0O) 来 读 取 一 个 数据 报 ， 这 等 价 于 在 使 用 recvO 时 将 
flags 参 数 指定 为 0。 


不 管 length 的 参数 值 是 什么 ，recvfrom0 只 会 从 一 个 数据 报 socket 中 
读 取 一 条 消息 。 如 果 消 息 的 大 小 超过 了 length 字 节 ， 那 么 消息 会 被 静默 
地 截断 为 langth 字 节 。 


如 果 使 用 了 recvmsg() 系 统 调 用 (61.13.2 节 ) ， 那 么 通 
过 返回 的 msghdr 结 构 中 的 msg_flags 字 段 中 的 MSG_TRUNC 
标记 来 找 出 被 截断 的 数据 报 ， 有 具体 细 贡 请 参考 recvmsg(2) 手 
Ht. 


对 于 sendto0) 来 讲 ，dest_addr 和 addrlen 参 数 指 定 了 数据 报 发 送 到 的 
socket。 这 些 参数 的 使 用 方式 与 connectO 中 相应 参数 的 使 用 方式 是 一 样 
的 。dest_addr 参 数 是 一 个 与 通信 domain 匹 配 的 地 址 结构 ， 它 会 被 初始 化 
成 目标 socket 的 地 址 。addrlen 参 数 指定 了 addr 的 大 小 。 





在 Linux 上 可 以 使 用 sendto0) 发 送 长 度 为 0 的 数据 报 ， 但 
不 是 所 有 的 UNIX 实 现 都 允许 这 样 做 的 。 


56.6.2 ”在 数据 报 socket 上 使 用 connect() 


尽管 数据 报 socket 是 无 连接 的 ， 但 在 数据 报 socket 上 应 用 connect() 系 
统 调 用 仍然 是 起 作用 的 。 在 数据 报 socket 上 调用 connectO 会 导致 内 核 记 
录 这 个 socket 的 对 等 socket 的 地 址 。 术 语 已 连接 的 数据 报 socket 就 是 指 此 
种 socket。 术 语 非 连接 的 数据 报 socket 是 指 那些 没有 调用 connect0 的 数据 
报 socket〈 即 新 数据 报 socket 的 默认 行为 ) 。 


当 一 个 数据 报 socket 已 连接 之 后 : 


数据 报 的 发 送 可 在 socket 上 使 用 write() 〈 或 sand0) 来 完成 并 且 会 自 
动 被 发 送 到 同样 的 对 等 socket 上。 与 sendto() 一 样 ， 每 个 writeO) 调 用 
会 友 送 一 个 独立 的 数据 报 ; 

在 这 个 socket 上 只 能 读 取 由 对 等 socket 发 送 的 数据 报 。 


注意 connectO 的 作用 对 数据 报 socket 是 不 对 称 的 。 上 面 的 论断 只 适 
用 于 调用 了 connectO 数 据 报 socket， 并 不 适用 于 它 连 接 的 远程 socket 〈 除 
非 对 等 应 用 程序 在 其 socket 上 也 调用 了 connect() ) 。 


通过 再 发 起 一 个 connectO 调 用 可 以 修改 一 个 已 连接 的 数据 报 socket 
的 对 等 socket。 此 外 ， 通 过 指定 一 个 地 址 族 〈 如 UNIX domain 中 的 
sun_family 字 段 ) 为 AF_UNSPEC 的 地 址 结构 还 可 以 解除 对 等 关联 关系 。 
EN 要 注意 的 是 ， 其 他 很 多 UNIX 实 现 并 不 文 持 将 AF_UNSPEC 用 于 这 种 
用 途 。 














SUSvV3 在 解除 对 等 关系 方面 的 论断 是 比较 模糊 的 ， 它 
只 是 声称 通过 调用 一 个 指定 了 “空地 址 ”的 connect() 调 用 可 以 
重 置 一 个 连接 ， 并 没有 定义 那样 一 个 术语 。SUSv4 则 明确 
规定 了 需要 使 用 AF_UNSPEC。 


为 一 个 数据 报 socket 设 置 一 个 对 等 socket， 这 种 做 法 的 一 个 明显 优势 
是 在 该 socket 上 传输 数据 时 可 以 使 用 更 简单 的 VO 系统 调用 ， 即 无 需 使 用 


指定 了 dest_addr 和 addrlen 参 数 的 sendto0， 而 只 需要 使 用 write0) 即 可 。 设 
置 一 个 对 等 socket 主 要 对 那些 需要 同 单 个 对 等 socket (通常 是 某 种 数据 报 
FP) 发 送 多 个 数据 报 的 应 用 程序 是 比较 有 用 的 。 


在 一 些 TCP/IP 实 践 中 ， 将 一 个 数据 报 socket 连 接 到 一 个 
对 等 socket 能 够 带 来 性 能 上 的 提升 〈([Stevens et al., 2004])。 
在 Linux 上 上， 连接 一 个 数据 报 socket 能 对 性 能 产生 些许 差 


= 
FF o 


56.7 ”总结 


socket 人 允许 在 同一 主机 或 通过 一 个 网 络 连 接 起 来 的 不 同 主机 上 的 应 
用 程序 之 间 通 重信 。 


一 个 socket 存 在 于 一 个 通信 domain 中 ， 通 信 domain 确 定 了 通信 范围 
和 用 来 标识 socket 的 地 址 格式 。 SUSV3 规 定 了 UNIX (AF UNIX) 、 
IPv4 (AF_INET) 以 及 IPv6 (AF_INET6) 通信 domain 。 


大 多 数 应 用 程序 使 用 流 socket 和 数据 报 socket 中 的 一 种 。 流 
socket (SOCK_STREAM) 为 两 个 端 之 间 提 供 了 一 颗 可 靠 的 、 双 向 的 字 
节 流 通信 信道 。 数 据 报 socket (SOCK_DGRAM) 提供 了 不 可 靠 的、 无 
连接 的 、 面 向 消息 的 通信 。 


一 个 典型 的 流 socket 服 务 器 会 使 用 socket() 创 建 其 socket， 然 后 使 用 
bind0O 将 这 个 socket 绑 定 到 一 个 众所周知 的 地 址 上 。 服 务 器 接着 调用 
listenQ) 以 允许 在 该 socket 上 接受 连接 。 监 昕 socket 上 的 客户 端 连接 是 通过 
accept(O 米 接受 的 ， 它 将 返回 一 个 与 客户 端的 socket 进 行 连接 的 新 socket 
的 文件 描述 符 。 一 个 典型 的 Fisocker® 户 端 会 使 用 socketO 创 建 一 个 
socket, 然后 通过 调用 connect() 建 立 一 个 连接 并 制定 服务 器 的 众所周知 
的 地 址 。 当 两 个 流 socket 连 接 之 后 就 可 以 使 用 read0 和 write0 在 任意 一 个 
方向 上 传输 数据 了 。 一 旦 拥有 引用 一 个 流 socket 端 点 的 文件 描述 符 的 所 
有 进程 都 执行 了 一 个 隐 式 或 显示 的 close0 之 后 ， 连 接 就 会 终止 。 


一 个 典型 的 数据 报 socket 服 务 器 会 使 用 socket() 创 建 一 个 socket， 然 
后 使 用 bind0 将 其 绑 定 到 一 个 众所周知 的 地 址 上 。 由 于 数据 报 socket 是 无 
连接 的 ， 因 此 服务 器 的 socket 可 以 用 来 接收 任意 客户 端的 数据 报 。 使 用 
read() 或 socket 特 定 的 recvfrom() 系 统 调用 能 够 接收 数据 报 ， 其 中 
recvfrom() 能 够 返回 oe 的 地 址 。 一 个 数据 报 socket 客 户 端 会 使 用 
SocketO 创 建 一 个 socket， 然 后 使 用 sendto0 将 一 个 数据 报 发 送 到 指定 的 
( 即 服 务 器 的) 地址 上 。connect() 系 统 调用 可 以 用 来 为 数据 报 socket 设 
定 一 个 对 等 地 址 。 在 设 定 完 对 等 地 址 之 后 就 无 需 为 发 出 去 的 数据 报 指定 
目标 地 址 了 ; write() 调 用 可 以 用 来 及 送 一 个 数据 报 。 


更 多 信息 


参考 59.15 节 列 出 的 更 多 信息 源 。 


第 57 音 SOCKET: UNIX 
DOMAIN 


本 章 将 介绍 允许 位 于 同一 主机 系统 上 的 进程 之 间 相 互通 信 的 UNIX 
domain socket 的 用 法 ， 包 括 UNIX domain 中 流 socket 和 数据 报 socket 的 使 
用 ， 如 何 使 用 文件 权限 来 控制 对 UNIX domain socket 的 访问 ， 如 何 使 用 
socketpair() 创 建 一 对 相互 连接 的 UNIX domain socket， 以 及 Linux 抽 象 
socket 名 空间 。 





57.1 UNIX domain socket 地 址 : struct 
sockaddr_un 


在 UNIX domain 中 ，socket 地 址 以 路 径 名 来 表示 ，domain 特 定 的 
socket 地 址 结构 的 定义 如 下 所 示 。 


struct sockaddr un { 
sa family t sun family; /* Always AF UNIX */ 
char sun_path[108]; /* Null-terminated socket pathname */ 


好 


sockaddr_ un 结构 中 字段 的 sun_ 前缀 与 Sun Microsystems 
没有 任何 关系 ， 它 是 根据 socket unix 而 来 的 。 


SUSv3 并 没有 规定 sun_path 字 段 的 大 小 。 早 期 的 BSD 实 现 使 用 108 和 
104 字 节 ， 而 一 个 稍微 现代 一 点 的 实现 CHP-UX 11) 则 使 用 了 92 字 节 。 
可 移植 的 应 用 程序 在 编码 时 应 该 采用 最 低 值 ， 并 且 在 同 这 个 字段 写 入 数 
HE A snprintf()ekstrncpy() VA it Se RIP DX Tint HY o 


为 将 一 个 UNIX domain socket 绑 定 到 一 个 地 址 上 ， 需 要 初始 化 一 个 
sockaddr_un 结 构 ， 然 后 将 指 癌 这 个 结构 的 一 个 (转换 ) 指针 作为 addr 参 
数 传 入 bindO 〇 并 将 addrlen 指 定 为 这 个 结构 的 大 小 ， 如 程序 清单 57-1 所 
Ro 











程序 清单 57-1: 绑 定 一 个 UNIX domain socket 




















const char *SOCKNAME = "/tmp/mysock"; 
int sfd; 
struct sockaddr un addr; 


sfd = socket(AF_ UNIX, SOCK STREAM, 0); /* Create socket */ 
if (sfd == -1) 
errExit("socket"); 
memset(&addr, 0, sizeof(struct sockaddr_un)); /* Clear structure */ 
addy.sun family = AF UNIX; /* UNIX domain address */ 


strncpy{addr.sun_path, SOCKNAME, sizeof(addr.sun_path) - 1); 


if (bind(sfd, (struct sockaddr *) &addr, sizeof{struct sockaddr_un)) == -1) 
errExit("bind") ; 








程序 清单 57-1 使 用 memset(O 调 用 来 确保 结构 中 所 有 字段 的 值 都 为 0。 
《后 面 的 strncpyO 调 用 利用 这 一 点 并 将 其 最 后 一 个 参数 指定 为 sun_path 
字段 的 大 小 减 一 来 确保 这 个 字段 总 是 拥有 一 个 结束 的 null 字 节 。) 使 用 
memset() 将 整个 结构 清 零 而 不 是 一 个 字段 一 个 字段 地 进行 初始 化 能 够 确 
保 一 些 实现 提供 的 所 有 非 标准 字段 都 会 被 初始 化 为 0。 





从 BSD 衍 生出 来 的 bpzero0 函 数 是 一 个 可 以 用 来 取代 
memset() 对 一 个 结构 的 内 容 进 行 清 零 的 函数 。SUSv3 规 定 了 
bzero() 以 及 相关 的 bcopy0 〇 (与 memmove() 类 似 )， 但 将 这 
两 个 函数 标记 成 了 LEGACY 并 指出 首选 使 用 memsetO0 和 
memmove0。SUSv4 则 删除 了 与 bzero0 和 bcopyO 有 关 的 规 
YW o 





当 用 来 绑 定 UNIX domain socket 时 ，bind0 会 在 文件 系统 中 创建 一 个 
条 目 。 《因此 作为 socket 路 径 名 的 一 部 分 的 目录 需要 可 访问 和 可 写 。) 
文件 的 所 有 权 将 根据 第 规 的 文件 创建 规则 来 确定 (15.3.10) 。 这 个 文 
件 会 被 标记 为 一 个 socket。 当 在 这 个 路 径 名 上 应 用 stat0 时 ， 它 会 在 stat 结 
构 的 st_mode 字 上段 中 的 文件 类 型 部 分 返回 值 S_IFSOCK 〈15.1 节 ) 。 当 使 
Hls -] 列 出 时 ，UNIX domain socket 在 第 一 列 将 会 显示 类 型 s， 而 ls -F 则 








会 在 socket 路 径 名 后 面 附 加 上 一 个 等 号 (=) 。 


尽管 UNIX domain socket 是 通过 路 径 名 来 标识 的 ， 但 在 
这 些 socket 上 发 生 的 IO 无 须 对 底层 设备 进行 操作 。 








有 关 绑 定 一 个 UNIX domain socket 方 面 还 需要 注意 以 下 几 点 。 


。 无 法 将 一 个 socket 绑 定 到 一 个 既 有 路 径 名 上 〈bind0O 会 失败 并 返回 

EADDRINUSE 错 误 ) 。 

通 稍 会 将 一 个 Socket 绑 定 到 一 个 绝对 路 径 名 上 ， 这 样 这 个 socket 就 会 

位 于 文件 系统 中 的 一 个 固定 地 址 处 。 当 然 ， 也 可 以 使 用 一 个 相对 路 

径 名 ， 但 这 种 做 法 并 不 常见 ， 因 为 它 要 求 想 要 connect() 这 个 socket 

的 应 用 程序 知道 执行 bind0 的 应 用 程序 的 当前 工作 目录 。 

一 个 socket 只 能 绑 定 到 一 个 路 径 名 上 ， 相 应 地 ， 一 个 路 径 名 只 能 被 

一 个 socket 绑 定 。 

无 法 使 用 open0 打 开 一 个 socket。 

e 当 不 再 需要 一 个 socket 时 可 以 使 用 unlink()( 或 remove()) 删除 其 路 
径 名 条 目 ( 通 常 也 应 该 这 样 做 )。 


在 本 章 给 出 的 大 多 数 示例 程序 中 ， 将 会 把 UNIX domain socket 绑 定 
到 J/tmp 目 录 下 的 一 个 路 径 名 上 ， 因 为 通常 这 个 目录 在 所 有 系统 上 都 是 存 
在 并 且 可 写 的 。 这 样 读 者 就 能 够 很 容易 地 运行 这 些 程序 而 无 需 编 辑 这 些 
socket 路 径 名 了 。 但 需要 知道 的 是 这 通常 不 是 一 种 优秀 的 设计 技术 。 正 
如 在 38.7 节 中 指出 的 那样 ， 在 诸如 /tmp 此 类 公共 可 写 的 目录 中 创建 文件 
可 能 会 导致 各 种 各 样 的 安全 问题 。 例 如 在 /Htmp 中 创建 一 个 名 字 与 应 用 程 
序 socket 的 路 径 名 一 样 的 路 径 名 之 后 就 能 够 完成 一 个 简单 的 拒绝 服务 攻 
击 了 。 现 实 世界 中 的 应 用 程序 应 该 将 UNIX domain socket bindO 到 一 个 
采取 了 恰当 的 安全 保护 措施 的 目录 中 的 绝对 路 径 名 上 。 

















57.2 UNIX domain 中 的 流 socket 


下 面 讲解 一 个 简单 的 使 用 了 UNIX domain 中 的 流 socket 的 客户 端 - 服 
务 句 应 用 程序 。 客 户 痢 程序 程序 清单 57-4)〉 连接 到 服务 器 并 使 用 该 连 
接 将 其 标准 输入 中 的 数据 传输 到 服务 器 上 。 服 务 顺 程序 《程序 清单 57- 
3) 接受 客户 端 连接 并 将 客户 端 在 该 连接 上 发 过 来 的 数据 传输 到 标准 输 
出 上 。 这 个 服务 器 是 一 个 简单 的 大 代 式 服务 器 一 一 服务 器 在 处 理 下 一 个 
客户 端 之 前 一 次 只 处 理 一 个 客户 端 。《 在 第 60 章 中 将 会 考虑 更 多 有 头 服 
务 需 设计 方面 的 细节 。 ) 


程序 清单 57-2 是 这 些 程序 使 用 的 头 文件 。 


程序 清单 57-2: us_xfr_sv.c 和 us _xfr_clc 的 头 文件 








sockets/us_xfr.h 
#include <sys/un.h> 
#include <sys/socket.h> 
#include "tlpi hdr.h” 
#define SV_SOCK_PATH "/tmp/us_xfr" 


#define BUF_SIZE 100 
sockets/us_xfr.h 


在 下 面 几 页 中 首先 会 给 出 服务 器 和 客户 端的 源 代码 ， 然 后 讨论 这 些 
程序 的 细节 并 给 出 一 个 使 用 这 两 个 程序 的 例子 。 


程序 清单 57-3: 一 个 简单 的 UNIX domain 流 socket 服 务 器 





sockets/us xfr sv.c 
#include "us xfr.h" 


#define BACKLOG 5 


int 
main(int argc, char *argv[]) 


struct sockaddr un addr; 
int sfd, cfd; 

ssize_t numRead; 

char buf[BUF SIZE]; 


sfd = socket(AF_UNIX, SOCK_STREAM, 0); 
if (sfd == -1) 
errExit("socket"); 


/* Construct server socket address, bind socket to it, 
and make this a listening socket */ 


if (remove(SV_SOCK PATH) == -1 && errno != ENOENT) 
errExit("remove-%s", SV_SOCK_PATH); 


menset(&addr, 0, sizeof(struct sockaddr un)); 
addr.sun_family = AF_UNIX; 
strncpy(addr.sun_path, SV_SOCK_PATH, sizeof(addr.sun_path) - 1); 


if (bind({sfd, (struct sockaddr *) &addr, sizeof(struct sockaddr_un)) == -1) 
errExit("bind"); 


if (listen(sfd, BACKLOG) == -1) 
errExit("listen"); 


for (;;) { /* Handle client connections iteratively */ 


/* Accept a connection. The connection is returned on a new 
socket, ‘cfd’; the listening socket ('sfd') remains open 
and can be used to accept further connections. */ 


cfd = accept(sfd, NULL, NULL); 
if (cfd == -1) 
errExit("accept"); 


/* Transfer data from connected socket to stdout until EOF */ 
while ((numRead = read(cfd, buf, BUF SIZE)) > 0) 
if (write(STDOUT_FILENO, buf, numRead) != numRead) 
fatal("partial/failed write"); 


if (numRead == -1) 
errExit("read"); 


if (close(cfd) == -1) 
errMsg("close"); 


sockets/us_xfr_sv.c 
程序 清单 57-4: 一 个 简单 的 UNIX domain 流 socket 客 户 端 


sockets/us xfr cl.c 


#include "us xfr.h" 


int 


main(int argc, char *argv[]) 


{ 


struct sockaddr un addr; 
int sfd; 

ssize t numRead; 

char buf[BUF SIZE]; 


sfd = socket(AF UNIX, SOCK STREAM, 0); /* Create client socket */ 
if (sfd == -1) 

errExit ("socket"); 
/* Construct server address, and make the connection */ 
memset(&addr, 0, sizeof(struct sockaddr un)); 
addr.sun family = AF UNIX; 
strncpy(addr.sun path, SV SOCK PATH, sizeof(addr.sun path) - 1); 
if (connect(sfd, (struct sockaddr *) &addr, 

sizeof(struct sockaddr_un)) == -1) 

errExit("connect"}; 
/* Copy stdin to socket */ 
while ((numRead = read{STDIN FILENO, buf, BUF SIZE)) > 0) 

if (write(sfd, buf, numRead) != numRead) 

fatal("partial/failed write"); 


if (numRead == -1) 
errExit("read") ; 


exit (EXIT_SUCCESS) ; /* Closes our socket; server sees EOF */ 


sockets/us_ xfr_cl.c 


程序 清单 57-3 给 出 了 服务 器 程序 。 这 个 服务 露 执行 了 下 列 任务 。 


。 创建 一 个 socket。 
。 有 删除 所 有 与 路 径 名 一 致 的 既 有 文件 ， 这 样 束 能 将 socket 绑 定 到 这 个 


路 径 名 上 。 
e 为 服务 器 socket 构 建 一 个 地 址 结构 ， 将 socket 绑 定 到 该 地 址 上， 将 这 
个 socket 标 记 为 监听 socket。 
0 
列 任 
o 接受 一 个 连接 ， 为 该 连接 获取 一 个 新 socket cfd. 
o 从 已 连接 的 socket 中 读 取 所 有 数据 并 将 这 些 数据 写 入 到 标准 输 


出 中 。 
o 关闭 已 连接 的 socket cfd. 
服务 器 必须 要 手工 终止 〈 如 向 其 发 送 一 个 信号 ) 。 
客户 端 程序 〈 程 序 清单 57-4) 执行 下 列 任务 。 


。 创建 一 个 socket。 

。 为 服务 器 socket 构 建 一 个 地 址 结构 并 连接 到 位 于 该 地 址 处 的 socket。 

° DT“ IA SSE pa TEA l Bllsock ett tk E « 当 遇 到 标准 输入 
中 的 文件 结尾 时 客户 端 就 终止 ， 其 结果 是 客户 端 socket 将 会 被 关闭 
i dd ig HJ socket Fie Ay Ha IN BI SCE AG 





六 下 面 的 shell 会 话 日 志 演 示 了 如 何 使 用 这 些 程序 。 首 先 在 后 台 运 行 服 
AÑ o 


$ ./us xfr sv > b & 


[1] 9866 
$ ls -1F /tmp/us_xfr Examine socket file with ls 
SIWXI-XI-X 1 mtk users O Jul 18 10:48 /tmp/us_xfr= 


然后 创建 一 个 客户 并 用 作 输 入 的 测试 文件 并 运行 客户 端 。 


$ cat *.c>a 
$ ./us xfr cl < a Client takes input from test file 


此 刻 子 进程 已 经 结束 了 。 现 在 终止 服务 器 并 检查 服务 器 的 输出 是 否 
与 客户 端的 输入 匹配 。 


$ kill %1 Terminate server 

[1]+ Terminated ./us_xfr_sv >b Shell sees server’s termination 
$ diff ab 
$ 


diff 命 令 没 有 产生 任何 输出 ， 表 示 和 输入 和 输出 文件 是 一 致 的 。 


注意 在 服务 器 终止 之 后 ，socket 路 径 名 会 继续 存在 。 这 残 是 为 何 服 
务 器 在 调用 bind() 之 前 使 用 remove() 删 除 socket 路 径 名 的 所 有 既 有 实例 。 
(假设 拥有 合适 的 权限 ， 这 个 remove() 调 用 将 会 删除 名 称 为 这 个 路 径 名 
的 所 有 类 型 的 文件 ， 即 使 这 个 文件 不 是 一 个 socket。) 如 有 果 没 有 这 样 
A 了 这 个 socket 路 径 名 时 就 
an 由 o 





57.3 UNIX domain 中 的 数据 报 socket 


在 56.6 节 中 有 关 数 据 报 socket 的 一 般 性 描述 中 指出 过 使 用 数据 报 
socket 的 通信 和 是 不 可 靠 的 。 这 个 论断 适用 于 通过 网 络 传输 的 数据 报 。 但 
对 于 UNIX domain socket 来 讲 ， 数 据 报 的 传输 是 在 内 核 中 发 生 的 ， 并 且 
也 是 可 靠 的 。 所 有 消息 都 会 按 序 被 递送 并 且 也 不 会 发 生 重 复 的 状况 。 


UNIX domain 数 据 报 socket 能 传输 的 数据 报 的 最 大 大 小 


SUSv3 并 没有 规定 通过 UNIX domain socket 传 输 的 数据 报 的 最 大 大 
小 。 在 Linux 上 可 以 发 送 一 个 相当 大 的 数据 报 ， 其 限制 是 通过 
SO_SNDBUF socket 选 项 和 各 个 /proc 文 件 来 控制 的 ， 有 具体 可 参考 
socket(7) 手 册 。 但 其 他 一 些 UNIX 实 现 采 用 的 限制 值 更 小 一 些 ， 如 2048 
z., KA SUNIX domain 数 据 报 socket 的 可 移植 的 应 用 程序 应 该 考虑 
为 所 使 用 的 数据 报 大 小 的 上 限 值 设 定 一 个 较 低 的 值 。 


示例 程序 
程序 清单 57-6 和 程序 清单 57-7 给 出 了 一 个 简单 的 使 用 UNIX domain 


数据 报 socket 的 客户 端 /服务 器 应 用 程序 。 程 序 清单 57-5 给 出 了 这 两 个 程 
序 所 用 到 的 头 文 件 。 



































程序 清单 57-5: ud_ucase_sv.c 和 ud_ucase_clc 使 用 的 头 文 件 




















sockets/ud_ucase.h 


#include <sys/un.h> 
#include <sys/socket.h> 
#include <ctype.h> 
#include "tlpi hdr.h" 


#define BUF_SIZE 10 /* Maximum size of messages exchanged 
between client to server */ 


#define SV_SOCK_PATH "/tmp/ud_ucase" 
sockets/ud_ucase.h 


服务 器 程序 程序 清单 57-6〉 首 先 创 建 一 个 socket 并 将 其 绑 定 到 一 
个 众所周知 的 地 址 上 。 (服务 器 先 删 除了 与 该 地 址 匹配 的 路 径 名 ， 以 防 
出 现 这 个 路 径 名 已 经 存在 的 情况 。) 服务 器 然后 进入 一 个 无 限 循环 ， 在 
循环 中 使 用 recvfrom() 接 收 来 自 客户 端的 数据 报 ， 将 接收 到 的 文本 转换 








成 大 小 格式 并 使 用 通过 recvfrom() 获 取 的 地 址 将 转换 过 的 文本 返回 给 客 
户 端 。 


客户 端 程 序 〈 程 序 清单 57-7) 创建 一 个 socket 并 将 这 个 socket 绑 定 到 
一 个 地 址 上， 这样 服务 器 就 能 够 发 送 啊 应 了 。 客 户 端 地 址 的 唯一 性 是 通 
过 在 路 径 名 中 包含 客户 端的 进程 ID 来 保证 的 。 然 后 客户 端 循环 ， 将 所 有 
命令 行 参数 作为 一 个 个 独立 的 消息 发 送 给 服务 器 。 在 发 送 完 每 条 消息 之 
后 ， 客 户 端 读 取 服 务 器 的 响应 并 将 内 容 显示 在 标准 输出 上 。 











程序 清单 57-6: 一 个 简单 的 UNIX domain 数 据 报 服务 器 


sockets/ud_ucase_sv.c 
#include "ud_ucase.h" 


int 
main(int argc, char *argv[]) 


struct sockaddr un svaddr, claddr; 
int sfd, j; 

ssize t numBytes; 

socklen_t len; 

char buf[BUF SIZE]; 


sfd = socket(AF_UNIX, SOCK_DGRAM, 0); /* Create server socket */ 
if (sfd == -1) 
errExit("socket"); 


/* Construct well-known address and bind server socket to it */ 


if (remove(SV SOCK PATH) == -1 && errno != ENOENT) 
errExit("remove-%s", SV SOCK PATH); 


memset(&svaddr, 0, sizeof(struct sockaddr un)); 
svaddr.sun_family = AF_UNIX; 
strncpy(svaddr.sun_ path, SV SOCK PATH, sizeof(svaddr.sun path) - 1); 


if (bind(sfd, (struct sockaddr *) &svaddr, sizeof(struct sockaddr_un)) == -1) 
errExit("bind"); 


/* Receive messages, convert to uppercase, and return to client */ 


for (53) { 
len = sizeof(struct sockaddr un); 
numBytes = recvfrom(sfd, buf, BUF SIZE, 0, 
(struct sockaddr *) &claddr, &len); 
if (numBytes == -1) 
errExit("recvfrom"); 


printf("Server received %ld bytes from %s\n", (long) numBytes, 
claddr.sun_path); 


for (j = 0; j < numBytes; j++) 
buf[j] = toupper((unsigned char) buf[j]); 


if (sendto(sfd, buf, numBytes, 0, (struct sockaddr *) &claddr, len) != 


numBytes) 
fatal("sendto"); 


sockets/ud_ucase_sv.c 


程序 清单 57-7: 一 个 简单 的 UNIX domain 数 据 报 客户 端 


sockets/ud_ucase_cl.c 
#include “ud_ucase.h" 


int 
main(int argc, char *argv[ ]) 


struct sockaddr un svaddr, claddr; 
int sfd, j; 

size_t msgLen; 

ssize_t numBytes; 

char resp[BUF_SIZE]; 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("%s msg...\n", argv[0]); 


/* Create client socket; bind to unique pathname (based on PID) */ 


sfd = socket(AF UNIX, SOCK DGRAM, 0); 
if (sfd == -1) 
errExit("socket"); 


memset(&claddr, 0, sizeof(struct sockaddr_un)); 

claddr.sun_ family = AF_UNIX; 

snprintf(claddr.sun_path, sizeof(claddr.sun_path), 
"/tmp/ud_ucase cl.%ld", (long) getpid()); 


if (bind(sfd, (struct sockaddr *) &claddr, sizeof(struct sockaddr_un)) == -1) 
errExit("bind"); 


/* Construct address of server */ 


memset(&svaddr, 0, sizeof(struct sockaddr un)); 
svaddr.sun_family = AF_UNIX; 
strncpy(svaddr.sun path, SV SOCK PATH, sizeof(svaddr.sun path) - 1); 


/* Send messages to server; echo responses on stdout */ 


for (j = 1; j < argc; j++) { 
msgLen = strlen(argv[j]); /* May be longer than BUF SIZE */ 
if (sendto(sfd, argv[j], msglen, 0, (struct sockaddr *) &svaddr, 
sizeof(struct sockaddr un)) != msgLen) 
fatal("sendto"); 


numBytes = recvfrom(sfd, resp, BUF_SIZE, 0, NULL, NULL); 
if (numBytes == -1) 
errExit("recvfrom"); 
printf("Response %d: %.*s\n", j, (int) numBytes, resp); 
} 


remove(claddr.sun_ path); /* Remove client socket pathname */ 
exit(EXIT_SUCCESS) ; 


sockets/ud_ucase_cl.c 


下 面 的 shell 会 话 日 志 演 示 了 如 何 使 用 服务 器 和 客户 端 程序 。 


$ ./ud ucase sv & 

[1] 20113 

$ ./ud ucase cl hello world Send 2 messages to server 
Server received 5 bytes from /tmp/ud_ucase_cl.20150 

Response 1: HELLO 

Server received 5 bytes from /tmp/ud_ucase_cl.20150 

Response 2: WORLD 

$ ./ud_ucase_cl ‘long message’ Send I longer message to server 
Server received 10 bytes from /tmp/ud_ucase_cl.20151 

Response 1: LONG MESSA 

$ kill %1 Terminale server 


对 客户 端 程序 的 第 二 个 调用 有 意 在 recvfromO 调 用 中 指定 了 一 个 比 
消息 更 小 的 length 值 BUF_SIZE 在 程序 清单 57-5 中 被 定义 成 了 10〉 以 说 
lak in ae heath 以 看 出 这 种 截断 确实 发 生 了 ， 因 为 服务 
器 打印 出 了 一 条 消息 声 只 收 到 了 10 个 字 节 ， 而 客户 端 发 送 的 消息 则 
由 12 个 字 节 构成 。 


57.4 UNIX domain socket 权 IR 


socket 文 件 的 所 有 权 和 权限 决定 了 哪些 进程 能 够 与 这 个 socket 进 行 通 


要 连接 一 个 UNIX domain 流 socket 需 要 在 该 socket 文 件 上 拥有 写 权 
IRo 


要 通过 一 个 UNIX domain 数 据 报 socket 发 送 一 个 数据 报 需要 在 该 
socket 文 件 上 拥有 写 权 限 。 


j 此 外 ， 需 要 在 存放 socket 路 径 名 的 所 有 目录 上 都 拥有 执行 “搜索 ) 
又 限 。 


在 默认 情况 下 ， 创 建 socket 〈 通 过 bindO0 ) 时 会 给 所 有 者 (用 户 ) 、 
组 以 及 other 用 户 赋 予 所 有 的 权限 。 要 改变 这 种 行为 可 以 在 调用 bind0 之 
前 先 调 用 umask0 来 禁用 不 希望 厂子 的 权限 。 


一 些 系统 会 忽略 Socket 文 件 上 的 权限 〈SUSv3 人 允许 这 种 行为 ) 。 
此 无 法 可 移植 地 使 用 socket 文 件 权 限 来 控制 对 socket 的 访问 ， 尽 管 可 以 可 
移植 地 使 用 宿主 目录 上 的 权限 来 达到 这 一 目标 。 











57.5 ”创建 互联 socket 对 : socketpair() 


有 了 时候 让 单个 进程 创建 一 对 socket 并 将 它们 连接 起 来 是 比较 有 用 
的 。 这 可 以 通过 使 用 两 个 socketO 调 用 和 一 个 bind0 调 用 以 及 对 listen()、 
connect(). accept) 〈 用 于 流 socket) 的 调用 或 对 connect()( 用 于 数据 报 
eee a 调用 来 完成 。socketpair0O 系 统 调 用 则 为 这 个 操作 提供 了 一 个 
快捷 方式 。 








#include «sys/socket.h> 


int socketpair(int domain, int type, int protocol, int seckfd[2]); 





Returns 0 on success, or -1 on error 








socketpair() 系 统 调 用 只 能 用 在 UNIX domain 中 ， 即 domain 参 数 必 须 
被 指定 为 AF_UNIX。〈 这 个 约束 适用 于 大 多 数 实现 ， 但 却 是 合理 的 ， 
因为 这 一 对 socket 是 创建 于 单个 主机 系统 上 的 。) socket 的 type 可 以 被 指 
定 为 SOCK_DGRAM 或 SOCK_STREAM。protocol 参 数 必 须 为 0。sockfd 
数组 返回 了 引用 这 两 个 相互 连接 的 socket 的 文件 摘 述 符 。 


将 type 指 定 为 SOCK_STREAM 相 当 于 创建 一 个 双 辐 管道 〈 也 被 称 为 
MEE) 。 每 个 socket 都 可 以 用 来 读 取 和 写 入 ， 并 且 这 两 个 socket 之 间 每 
个 方向 上 的 数据 信道 是 分 开 的 。 “在 从 BSD 演 化 来 的 实现 中 ，pipeO 被 
实现 成 了 一 个 对 socketpair() 的 调用 。) 


一 般 来 讲 ，socket 对 的 使 用 方式 与 管道 的 使 用 方式 类 似 。 在 调用 完 
socketpair() 之 后 ， 进 程 会 使 用 fork0O 创 建 一 个 子 进程 。 子 进程 会 继承 父 进 
程 的 文件 描述 符 的 副本 ， 包 括 引 用 socket 对 的 描述 符 。 因 此 父 进 程 和 子 
进程 就 可 以 使 用 这 一 对 socket 来 进行 PC 了 。 





使 用 socketpairO 创 建 一 对 socket 与 手工 创建 一 对 相互 连接 的 socket 这 
两 种 做 法 之 间 的 一 个 差别 在 于 前 一 对 socket 不 会 被 绑 定 到 任意 地 址 上 。 
这 样 束 能 够 避免 一 类 安全 问题 了 ， 因 为 这 一 对 socket 对 其 他 进程 是 不 可 
见 的 。 





从 内 核 2.6.27 开 始 ，Linux 为 type 参 数 提 供 了 第 二 种 用 
途 ， 即 允许 将 两 个 非 标 准 的 标记 与 socket type 取 OR。 
SOCK_CLOEXEC 标 记 会 导致 内 核 为 两 个 新 文件 描述 符 局 
用 close-on-exec 标 记 (FD_CLOEXEC) 。 这 个 标记 之 所 以 
有 用 的 原因 与 4.3.1 节 中 描述 的 open() O_CLOEXEC 标 记 有 用 
的 原因 是 一 样 的 。SOCK_NONBLOCK 标 记 会 导致 内 核 在 
两 个 底层 打开 着 的 文件 描述 符 上 设置 O_NONBLOCK 标 
记 ， 这 样 在 该 socket 上 发 生 的 后 续 IVO 操 作 束 不 会 阻塞 了 ， 
从 而 就 无 需 通过 调用 fcntl0) 来 取得 同样 的 结果 了 。 





57.6 Linux 抽象 socket 名 空间 


所 谓 的 抽象 路 径 名 空间 是 Linux 特 有 的 一 项 特性 ， 它 允许 将 一 个 
UNIX domain socket 绑 定 到 一 个 名 字 上 但 不 会 在 文件 系统 中 创建 该 名 
字 。 这 种 做 法 具备 几 点 优势 。 


。 无需 担心 与 文件 系统 中 的 既 有 名 字 产 生 冲 突 。 

。 没有 必要 在 使 用 完 socket 之 后 删除 socket 路 径 名 。 当 socket 被 关闭 之 
后 会 自动 删除 这 个 抽象 名 。 

e 无 需 为 socket 创 建 一 个 文件 系统 路 径 名 了 。 这 对 于 chroot 环 境 以 及 在 
不 具备 文件 系统 上 的 写 权 限时 是 比较 有 用 的 。 


要 创建 一 个 抽象 绑 定 就 需要 将 sun_path 字 段 的 第 一 个 字 节 指定 为 null 
字 节 (\0) 。 这 样 就 能 够 将 抽象 socket 名 字 与 传统 的 UNIX domain socket 
路 径 名 区 分 开 来 ， 因 为 传统 的 名 字 是 由 一 个 或 多 个 非 空 字 节 以 及 一 个 终 
止 null 字 节 构 成 的 字符 串 。sun_path 字 上 段 的 余下 的 字 节 为 socket 定 义 了 抽 
象 名 字 。 在 解释 这 个 名 字 时 需要 用 到 全 部 字 节 ， 而 不 是 将 其 看 成 是 一 个 
以 null 结 尾 的 字符 串 。 


程序 清单 57-8 演 示 了 如 何 创建 一 个 抽象 Socket 绑 定 。 


程序 清单 57-8: 创建 一 个 抽象 socket 绑 定 





























from sockets/us_abstract_bind.c 
struct sockaddr un addr; 


memset(&addr, 0, sizeof(struct sockaddr_un)); /* Clear address structure */ 
addr.sun_family = AF_UNIX; /* UNIX domain address */ 


/* addr.sun path[0] has already been set to 0 by memset{) */ 


strncpy(&addr.sun_path[1], "xyz", sizeof(addr.sun path) - 2); 
/* Abstract name is "xyz" followed by null bytes */ 


sockfd = socket(AF_UNIX, SOCK_STREAM, 0); 
if (sockfd == -1) 
errExit("socket"); 


if (bind(sockfd, (struct sockaddr *) &addr, 
sizeof(struct sockaddr_un)) == -1) 
errExit("bind"); 
from sockets/us_abstract_bind.c 


使 用 一 个 初始 nul 字 节 来 区 分 抽象 Socket 名 和 传统 的 socket 名 会 带 来 
不 同 寻 各 的 结果 。 假 设 变 量 name 正 好 指 癌 了 一 个 长 度 为 零 的 字符 串 并 将 
一 个 UNIX domain socket 绑 定 到 一 个 按照 下 列 方 式 初始 化 sun_path 的 名 字 


strncpy(addr.sun_path, name, sizeof(addr.sun_path) - 1); 


在 Linuxz 上 ， 就 会 在 无 意 中 创建 了 一 个 抽象 socket 绑 定 。 但 这 种 代码 
可 能 并 不 是 期 望 中 的 代码 〈 即 一 个 bpug) 。 在 其 他 UNIX 实 现 中 ， 后 续 的 
bindO 调 用 会 失败 。 


57.7 总结 


UNIX domain socket 人 允许 位 于 同一 主机 上 的 应 用 程序 之 间 进 行 通 
信 。UNIX domain 支 持 流 和 数据 报 socket。 


UNIX domain socket 是 通过 文件 系统 中 的 一 个 路 径 名 来 标识 的 。 文 
件 权 限 可 以 用 来 控制 对 UNIX domain socket 的 访问 。 


socketpair() 系 统 调用 创建 一 对 相互 连接 的 UNIX domain socket。 这 
样 就 无 需 调 用 多 个 系统 调用 来 创建 、 绑 定 以 及 连接 socket。 一 个 socket 对 
的 使 用 方式 通常 与 管道 类 似 ， 一 个 进程 创建 socket 对 ， 然 后 创建 一 个 其 
引用 socket 对 的 描述 符 的 子 进程 。 然 后 这 两 个 进程 就 能 够 通过 这 个 socket 
对 进行 通信 了 。 


Linux 特 有 的 抽象 socket 名 空间 允许 将 一 个 UNIX domain socket 绑 定 
到 一 个 不 存在 于 文件 系统 中 的 名 字 上 。 


更 多 信息 
参考 59.15 市 中 列 出 的 更 多 信息 源 。 





57.8 “习题 


57-1. 在 57.3 节 中 指出 过 UNIX domain 数 据 报 socket 是 可 靠 的 。 编 写 
程序 说 明 如 果 一 个 发 送 者 向 一 个 UNIX domain 数 据 报 socket 发 送 数据 报 
的 速度 大 于 接收 者 读 取 的 速度 ， 那 么 发 送 者 最 终 会 阻塞 ， 并 保持 阻塞 直 
到 接收 者 读 取 了 其 中 一 些 未 决 的 数据 报 为 止 。 


57-2. 重 写 程序 清单 57-3 中 的 程序 Cus_xfr_sv.c) 和 程序 清单 57-4 
中 的 程序 (us_xfr_cl.c) 使 它们 使 用 Linux 特 有 的 抽象 Socket 名 空间 (57.6 
ae 


57-4. 假设 创建 了 两 个 绑 定 到 路 径 /somepath/a 和 /somepath/b 上 的 
UNIX domain 数 据 报 socket， 并 将 socket /somepath/a 连 接 到 /somepath/b 
上 。 如 果 创 建 第 三 个 数据 报 socket 并 尝试 通过 绑 定 到 /somepath/a 的 socket 
发 送 (sendto()) 一 个 数据 报 会 发 生 什么 情况 呢 ? 编写 一 个 程序 来 确认 
这 个 问题 的 答案 。 读 者 如 果 能 够 访问 其 他 UNIX 系 统 的 话 ， 可 以 在 那些 
系统 上 测试 这 个 程序 并 观察 一 下 管 案 是 否 会 发 生变 化 。 
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本 章 将 介绍 计算 机 联网 概念 和 TCP/IP 联 网 协议 ， 理 解 这 些 主题 对 于 
有 效 利用 下 一 章 介绍 的 Internet domain socket 来 讲 是 非常 有 必要 的 。 


从 本 章 开 始 将 会 提 及 各 个 RFC 文 档 。 在 本 书 中 介绍 的 每 一 种 联网 协 
议 都 是 通过 RFC 来 进行 正式 描述 的 。 在 58.7 节 中 将 会 介绍 更 多 有 关 RFC 
的 信息 以 及 与 本 书 介绍 的 主题 特别 相关 的 一 系列 REFC。 














58.1 互联 网 


互联 网 络 〈internetwork) ， 或 更 一 般 地 ， 互 联网 (internet， 小 写 的 
i) ， 会 将 不 同 的 计算 机 网 络 连 接 起 来 并 允许 位 于 网 络 中 的 主机 相互 之 
间 进 行 通 信 。 换 句 话 说， 一 个 互联 网 是 由 计算 机 网 络 组 成 的 一 个 网 络 。 
术语 子 网 络 ， 或 子 网 ， 用 来 指 组 成 因特网 的 其 中 一 个 网 络 。 互 联网 的 目 
标 是 隐藏 不 同 物理 网 络 的 细节 以 便 同 互联 网 络 中 的 所 有 主机 呈现 一 个 统 
例如 ， 这 意味 着 可 以 使 用 单个 地 址 格式 来 标识 互联 网 上 
t 主机 。 


尽管 已 经 设计 出 了 多 种 互联 网 互联 协议 ， 但 TCP/PP 已 经 成 了 使 用 为 
最 广泛 的 协议 套件 了 ， 它 甚至 已 经 取代 了 之 前 在 局 域 网 和 广域网 中 常见 
的 私有 联网 协议 了 。 术 语 Internet (大 写 的 1) 被 用 来 指 将 全 球 成 千 上 万 
的 计算 机 连接 起 来 的 TCP/IP 互 联网 。 


第 一 个 被 广泛 使 用 的 TCP/IP 实 现 出 现在 了 1983 年 的 4.2BSD 中 。 一 些 
TCP/IP 实 现 是 直接 从 BSD 代 人 码 演化 而 来 的 ， 其 他 的 实现 (包括 Linux) 
则 是 从 零 开始 编写 的 ， 但 它们 在 定义 TCP/IP 的 操作 时 将 BSD 代 码 的 操作 
当成 了 参考 标准 。 








TCP/IP 是 从 美国 国防 部 先进 研究 项 目 局 (Advanced 
Research Projects Agency，ARPA， 之 后 义 被 称 为 DARPA， 
其 中 D 表 示 Defense) 资助 的 一 个 项 目 中 成 长 出 来 的 ， 该 项 
目 主 要 是 想 设 计 出 一 个 计算 机 联网 架构 以 供 早 期 的 广域网 
ARPANET 使 用 。 在 20 世 纪 70 年 代 ， 一 个 新 的 协议 族 被 设计 
出 来 供 ARPANET 使 用 。 准 确 地 讲 ， 这 些 协议 被 称 为 
DARPA 因 特 网 协议 套件 ， 但 它们 通常 被 称 为 TCP/IP 协 议 套 
件 ， 或 者 简单 地 被 称 为 TCP/IP。 


网 页 http://www.isoc.org/internet/history/brief.shtml 提 供 


了 与 Intemet 和 TCP/IP 有 关 的 一 段 简 短 的 历史 。 


图 58-1 给 出 了 一 个 简单 的 互联 网 。 在 这 幅 图 中 ， 机 需 tekapo 是 一 种 
路 由 器 ， 它 一 台 将 一 个 子 网 络 连接 到 另 一 个 子 网 络 并 在 它们 之 间 传 输 数 
据 的 计算 机 。 除 了 需要 理解 所 使 用 的 互联 网 协议 之 外 ， 一 台 路 由 器 还 必 
须要 理解 它 连 接 的 各 个 子 网 所 使 用 的 (可 能 ) 不 同 的 数据 链 路 层 协议 。 


Network Í 











tekapo 


Network 2 
图 58-1: 使 用 一 台 路 由 器 连接 两 个 网 络 的 互联 网 


一 从 路 由 融 拥 有 多 个 网 络 接口 ， 每 个 接口 都 连接 到 一 个 子 网 上 。 更 
通用 的 术语 “多 窒 主 机 ”用 来 指 拥有 多 个 网 络 接口 的 任意 主机 一 一 不 必 是 
一 台 路 由 器 。“《 必 一 种 描述 路 由 露 的 方式 是 说 它 是 将 包 从 一 个 于 网 转发 
到 男 一 个 子 网 的 一 台 多 窒 主 机 。) 一 个 多 宿主 机 的 各 个 接口 上 的 网 络 地 
址 是 不 同 的 〈 即 其 连接 的 各 个 子 网 的 地 址 是 不 同 的 )。 
































58.2 ”联网 协议 和 层 


一 个 联网 协议 是 定义 如 何在 一 个 网 络 上 传输 信息 的 一 组 规则 。 联 网 
协议 通常 会 修 组 织 成 一 系列 的 层 ， 其 中 每 一 层 都 构建 于 下 层 之 上 并 提供 
特性 以 供 上 层 使 用 。 


TCP/IP 协 议 套 件 是 一 个 分 层 联网 协议 (图 58-2) ， 它 包括 因特网 协 
WX AP) 和 位 于 其 上 层 的 各 个 协议 层 。【〔 实 现 这 些 层 的 代码 通常 被 称 为 
协议 栈 。) 名 字 TCP/PP 是 从 传输 控制 协议 CTCP) 是 使 用 最 为 广泛 的 传 
输 层 协议 这 样 一 个 事实 而 得 出 来 的 。 
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图 58-2: TCP/IP 套 件 中 的 协议 


在 图 58-2 中 省 略 了 其 他 一 些 TCP/IP 协 议 ， 因 为 它们 与 

本 章 的 主题 无 关 。 地 址 解析 协议 (ARP) 关注 的 是 如 何 将 
因特网 地 址 映射 到 硬件 (如 以 太 网 地址。 因特网 控制 消 
息 协 议 CICMP) 用 来 在 网 络 中 传输 错误 和 控制 信息 。 
(ping 和 traceroute 程 序 使 用 的 是 ICMP 协 议 ， 人 们 通常 使 用 
ping 来 检查 一 台 特 定 的 主机 是 耕 存 活 以 及 是 否 在 TCP/IP 网 
络 中 可 见 ， 使 用 traceroute 来 跟踪 一 个 卫 包 在 网 络 中 的 传输 
路 径 。) 主机 和 路 由 器 使 用 因特网 组 管理 协议 (IGMP) 来 
文 持 卫 数 据 报 的 多 播 。 





协议 分 层 如 此 强大 和 灵活 的 其 中 一 个 原因 是 透明 每 一 个 协议 层 
都 对 上 层 隐 藏 下 层 的 操作 和 复杂 性 ， 如 一 个 使 用 TCP 的 应 用 程序 只 需要 
使 用 标准 的 socket API 并 清楚 自己 正在 使 用 一 项 可 靠 的 字 节 流传 输 服 
务 ， 而 无 需 理解 TCP 操 作 的 细节 。 (在 61.9 节 中 介绍 socket 选 项 时 将 会 看 
到 严格 地 讲 这 一 论断 并 不 总 是 正确 的 ， 应 用 程序 偶尔 也 需要 和 弄 清楚 底层 
传输 协议 的 操作 细节 。) 应 用 程序 也 无 需 知道 IP 和 数据 链 路 层 的 操作 细 
节 。 从 应 用 程序 的 角度 来 讲 ， 它 束 像 是 通过 socket API 直 接 与 其 他 层 进 
行 通信 了 ， 如 图 58-3 所 示 ， 其 中 虚 横 线 表示 对 应 应 用 程序 之 间 的 虚拟 通 
信和 路 径 以 及 两 个 主机 上 的 TCP 和 IP 实 体 。 
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网 络 介质 
图 58-3: 通过 TCP/IP 协 议 进行 的 分 层 通 信 


封装 


封装 是 分 层 联 网 协议 中 的 一 个 重要 的 原则 。 图 58-4 给 出 了 TCP/IP 协 
议 层 中 的 封装 。 封 装 中 的 关键 概念 是 低层 会 将 从 高 层 问 低层 传递 的 信息 
《如 应 用 程序 数据 、TCP 段 、 卫 数据 报 ) 当成 不 透明 的 数据 来 处 理 。 换 
句 话说 ， 低 层 不 会 尝试 对 高 层 发 送 过 来 的 信息 进行 解释 ， 而 只 会 将 这 些 
言 息 放 到 低层 所 使 用 的 包 中 并 在 将 这 个 包 疝 下 传递 到 低层 之 前 添加 自身 
这 一 层 的 头 信息 。 当 数据 从 低层 传递 到 高 层 时 将 会 进行 一 个 逆向 的 解 包 


过 程 。 
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图 58-4: TCP/IP 协 议 层 中 的 封装 





封装 的 概念 还 延伸 到 了 数据 链 路 层 ， 其 中 IP 数 据 报 会 
被 封装 进 网 络 帧 中 ， 但 在 图 58-4 中 并 没有 显示 出 这 些 。 封 
装 可 能 还 会 延伸 到 应 用 层 中 ， 其 中 应 用 程序 可 能 会 按照 日 
己 的 方式 对 数据 进行 打包 。 


58.3 ”数据 链 路 层 


图 58-2 中 的 最 低层 是 数据 链 路 层 ， 它 由 设备 驱动 和 a 到 底层 物理 媒介 
《如 电话 线 、 同 轴 电 绕 、 或 光纤 ) 的 人 硬件 接口 “网 卡 ) 构成 。 数 据 链 路 
层 关 注 的 是 在 一 个 网 络 的 物理 链接 上 传输 数据 。 


要 传输 数据 ， 数 据 链 路 层 需要 将 网 络 层 传递 过 来 的 数据 报 封 装 进 被 
称 为 帧 的 一 个 一 个 单元 。 除 了 需要 传输 的 数据 之 外 ， 每 个 帧 都 会 包含 一 
个 头 ， 如 头 中 可 能 包含 了 目标 地 址 和 帧 的 大 小 。 数 据 链 路 层 在 物理 链接 
上 传输 帧 并 处 理 来 自 接收 者 的 确认 。〔 不 是 所 有 的 数据 链 路 层 都 使 用 确 
认 。) 这 一 层 可 能 会 进行 错误 检测 、 重 传 以 及 流量 控制 。 一 些 数据 链 路 
和 
组 。 


从 应 用 程序 编程 的 角度 来 讲 通 音 可 以 忽略 数据 链 路 层 ， 因 为 所 有 的 
通信 细 市 都 是 由 驱动 和 硬件 来 处 理 的 。 


对 于 有 关 IP 的 讨论 来 讲 ， 数 据 链 路 层 中 比较 重要 的 一 个 特点 是 最 大 
传输 单元 MTU) 。 数 据 链 路 层 的 MTU 是 该 层 所 能 传输 的 帧 大 小 的 上 
限 。 不 同 的 数据 链 路 层 的 MTU 是 不 同 的 。 











命令 netstat -i 会 列 出 系统 中 的 网 络 接口 ， 包 括 其 
MTU. 


58.4 WJ% JÆ: IP 


位 于 数据 链 路 层 之 上 的 是 网 络 层 ， 它 关注 的 是 如 何 将 包 数 据 ) 从 
源 主机 发 送 到 目标 主机 。 这 一 层 执 行 了 很 多 任务 ， 包 括 以 下 几 个 。 


。 分 解 成 足够 小 的 片段 以 便 数据 链 路 层 进行 传输 (如 有 必要 的 


。 在 因特网 上 路 由 数据 。 
。 为 传输 层 提供 服务 。 


在 TCP/IP 协 议 套 件 中 ， 网 络 层 的 主要 协议 是 IP。 在 4.2BSD 实 现 中 出 
现 的 人 P 的 版 本 是 IP 版 本 4 (IPv4) 。 在 20 世 纪 90 年 代 早 期 设计 出 了 IP 的 一 
个 修正 版 : IP 版 本 6 (IPv6) 。 这 两 个 版 本 之 间 最 显著 的 差别 在 丁 IPv4 使 
用 32 位 地 址 来 标识 子 网 和 主机 ， 而 IPv6 则 使 用 了 128 位 的 地 址 ， 从 而 能 
为 主机 提供 更 大 的 地 址 范围 。 虽 然 目 前 在 因特网 上 IPv4 仍 然 是 使 用 最 广 
的 IP 版 本 ， 但 在 将 来 它 会 被 IPv6 所 取代 。IPv4 和 IPv6 都 支持 高 层 的 UDP 
和 TCP 传 输 层 协议 (以 及 很 多 其 他 协议 )。 








尽管 从 理论 上 来 讲 ，32 位 的 地 址 空间 提供 了 数 以 亿 计 
的 IPv4 网 络 地 址 ， 但 地 址 的 结构 和 分 配 放置 决定 了 实际 可 
用 的 地 址 数量 要 少许 多 。IPv4 地 址 空间 的 枯竭 是 创造 ITPv6 


主要 原因 。 
有 关 IPv6 的 简 史 可 


在 http://www.laynetworks.conmyIPV6.htm 处 找到 。 


IPvV4 和 IPv6 的 存在 引出 了 一 个 问题 “TPv5 呢 ?”” 事 实 上 从 
来 就 没有 IPv5 这 种 东西 。 每 个 IP 数 据 报头 都 包含 一 个 4 位 的 
版 本 号 字段 〈 即 IPv4 数 据 报 的 这 个 字段 值 总 是 数字 4) ， 而 
版 本 号 5 则 被 指派 给 了 一 个 试验 协议 因特网 流 协 议 Internet 
Stream Protocol. (RFC 1819 描 述 了 这 个 协议 的 第 三 版 ， 简 


写 为 ST-II。) 在 20 世 纪 70 年 代 最 初 构想 的 时 候 ， 这 个 面 癌 
连接 的 协议 就 被 设计 成 支持 音频 和 视频 传输 以 及 分 布 式 念 
真 。 由 于 IP 数 据 报 版 本 号 5 已 经 被 指派 过 了 ， 因 此 IPv4 的 升 
级 版 束 使 用 了 版 本 号 6。 


图 58-2 给 出 了 一 个 裸 socket (SOCK_RAW) ， 它 允许 应 用 程序 直接 

与 IP 层 进行 通信 。 这 里 不 会 对 裸 socket 的 使 用 进行 描述 ， 因 为 大 多 数 应 
用 程序 会 使 用 基于 其 中 一 种 传输 层 协议 〈TCP 或 UDP) 之 上 的 socket。 
[Stevens et al., 2004] 的 第 28 章 对 裸 socket 进 行 了 描述 。 有 关 裸 socket 的 使 
用 方面 的 一 个 富有 教育 意义 的 例子 是 sendip 程 序 

(http://www.earth.li/projectpurple/progs/sendip.html) ， 它 是 一 个 命令 行 
驱动 的 工具 ， 人 允许 使 用 任意 内 容 来 构建 和 传输 世 数 据 报 〈 包 括 构建 UDP 
数据 报 和 TCP 段 的 选项 ) 。 


IP 传 输 数 据 报 

IP 以 数据 报 ( 包 ) 的 形式 来 传输 数据 。 在 两 个 主机 之 间 发 送 的 每 一 
个 数据 报 都 是 在 网 络 上 独立 传输 的 ， 它 们 经 过 的 路 径 可 能 会 不 同 。 一 个 
了 数据 报 包含 一 个 头 ， 其 大 小 范围 为 20 字 节 到 60 字 节 。 这 个 头 中 包含 了 
目标 主机 的 地 址 ， 这 样 就 可 以 在 网 络 上 将 这 个 数据 报 路 由 到 目标 地 址 
et ee nel 


发 送 主机 可 以 伪造 一 个 包 的 源 地 址 ， 这 也 是 SYN 潜 泛 
这 种 TCP 拒 绝 服务 攻击 的 基础 。[Lemon, 2002] 描 述 了 这 种 
攻击 的 细节 以 及 现代 TCP 实 现 为 解决 这 个 问题 所 采取 的 措 
施 。 


一 个 IP 实 现 可 能 会 给 它 所 支持 的 数据 报 的 大 小 设 定 一 个 上 限 。 所 有 


IP 实 现 都 必须 做 到 数据 报 的 大 小 上 限 至 少 与 规定 的 卫 最 小 重组 缓冲 区 大 
小 Gninimum reassembly buffer size) 一 样 大 。 在 IPv4 中 ， 这 个 限制 值 是 
576 字 节 ; 在 IPv6 中 ， 这 个 限制 值 是 1500 字 贡 。 


IP 是 无 连接 和 不 可 靠 的 


IP 是 一 种 无 连接 协议 ， 因 为 它 并 没有 在 相互 连接 的 两 个 主机 之 间 提 
供 一 个 虚拟 电路 。IP 也 是 一 种 不 可 靠 的 协议 :， 它 尽 最 大 可 能 将 数据 报 从 
发 送 者 传输 给 接收 者 ， 但 并 不 保证 包 到 达 的 顺序 会 与 它们 被 传输 的 顺序 
一 致 ， 也 不 保证 包 是 人 否 重 复 ， 甚 至 都 不 保证 包 是 否 会 达到 接收 者 。 了 PP 也 
没有 提供 错误 恢复 《〈 头 信息 错误 的 包 会 被 静默 地 丢弃 ) 。 可 人 靠 性 是 通过 
使 用 一 个 可 靠 的 传输 层 协议 〈 如 TCP) 或 应 用 程序 本 身 来 保证 的 。 

















IPv4 为 卫 头 提供 了 一 个 校 验 和 ， 这 样 就 能 够 检测 出 头 
中 的 错误 ， 但 并 没有 为 包 中 所 传输 的 数据 提供 任何 错误 检 
测 机 制 。IPv6 并 没有 为 卫 头 提供 检验 和 ， 它 依赖 高 层 协议 
来 完成 错误 检测 和 可 靠 性 。 (UDP 校 验 和 在 IPv4 是 可 选 
的 ， 但 一 般 来 讲 都 是 启用 的 ，UDP 校 验 和 在 IPv6 是 强制 
的 。TCP 校 验 和 在 IPv4 和 IPv6 中 都 是 强制 的 。 ) 











IP 数 据 报 的 重复 是 可 能 发 生 的 ， 因 为 一 些 数据 链 路 层 
采用 了 一 些 技术 来 确保 可 靠 性 以 及 IP 数 据 报 可 能 会 以 隧道 
形式 穿越 一 些 采 用 了 重 传 机 制 的 非 TCP/P 网 络 。 


IP 可 能 会 对 数据 报 进行 分 段 


IPv4 数 据 报 的 最 大 大 小 为 65 535 字 节 。 在 默认 情况 下 ，IPv6 人 允许 一 
个 数据 报 的 最 大 大 小 为 65 575 字 节 〈40 字 节 用 于 存放 头 信息 ，65 535 字 
eee ， 并 且 为 更 大 的 数据 报 〈 上 所 谓 的 jumbograms) 提供 了 
一 个 好 项 8 


之 前 曾经 提 过 大 多 数 数据 链 路 层 会 为 数据 帧 的 大 小 设 定 一 个 上 限 
(MTU) 。 如 在 党 见 的 以 太 网 架构 中 这 个 上 限 值 是 1500 字 节 【〈 比 一 个 IP 
数据 报 的 最 大 大 小 要 小 得 多 ) 。 了 还 定义 了 路 径 MTU 的 概念 ， 它 是 源 主 
机 到 目的 主机 之 间 路 由 上 的 所 有 数据 链 路 层 的 最 小 MIU。 “在 实践 
中 ， 以 太 网 MTU 通 常 是 路 径 中 最 小 的 MTU。 ) 


当 一 个 IP 数 据 报 的 大 小 大 于 MTU 时 ，IP 会 将 数据 报 分 段 (分 解 ) 成 
一 个 个 大 小 适合 在 网 络 上 传输 的 单元 。 这 些 分 段 在 达到 最 终 目的 地 之 后 
会 被 重组 成 原始 的 数据 报 。 《每 个 IP 分 段 本 身 就 是 包含 了 一 个 偏 移 量 字 
段 的 耳 数 据 报 ， 该 字段 给 出 了 一 个 该 分 段 在 原始 数据 报 中 的 位 置 。) 


IP 分 段 的 发 生 对 于 高 层 协 议 层 是 透明 的 ， 并 且 一 般 来 讲 也 并 不 希望 
发 生 这 种 事情 〈[Kent & Mogul, 1987]) 。 这 里 的 问题 在 于 由 于 卫 并 不 进 
行 重 传 并 且 只 有 在 所 有 分 段 都 达到 目的 地 之 后 才能 对 数据 报 进 行 组 装 ， 
因此 如 果 其 中 一 些 分 段 丢 失 或 包含 传输 错误 的 话 就 会 导致 整个 数据 报 不 
可 用 。 在 一 些 情况 下 ， 这 会 导致 极 高 的 数据 丢失 率 〈 适 用 于 不 进行 重 传 
的 高 层 协 议 ， 如 UDP ) 或 降低 传输 速率 〈 适 用 于 进行 重 传 的 高 层 协 议 ， 
如 TCP) 。 现 代 TCP 实 现 采 用 了 一 些 算法 〈 路 径 MTU 发 现 ) 来 确定 主机 
之 间 的 一 条 路 径 的 MIU， 并 根据 该 值 对 传递 给 卫 的 数据 进行 分 解 ， 这 样 
IP 就 不 会 碰 到 需要 传输 大 小 超过 MTU 的 数据 报 的 情况 了 。UDP 并 没有 提 
-o a a 
AITEAL. 














58.5 JP 地 址 


一 个 IP 地 址 包含 两 个 部 分 : 一 个 是 网 络 ID， 它 指定 了 主机 所 属 的 网 
26; 男 一 个 是 主机 ID， 它 标识 出 了 位 于 该 网 络 中 的 主机 。 


IPv4 地 址 
一 个 IPv4 地 址 包含 32 位 〈 图 58-5) 。 当 以 人 类 可 读 的 形式 来 表示 


时 ， 这 些 地 址 通常 的 书写 通常 采用 点 分 十 进 制 标 记 法 ， 即 将 地 址 的 4 个 
字 节 写成 一 个 十 进 制 数字 ， 中 间 以 点 号 隔 开 ， 如 204.152.189.116。 











32 位 
abhi 
De m 


图 58-5: 一 个 IPv4 网 络 地 址 和 对 应 的 网 络 掩 码 


当 一 个 组 织 为 其 主机 申请 一 组 IPv4 地 址 时 ， 它 会 收 到 一 个 32 位 的 网 
络 地 址 以 及 一 个 对 应 的 32 位 的 网 络 掩 码 。 在 二 进 制 形式 中 ， 这 个 掩 码 最 
左边 的 位 由 1 构成 ， 掩 码 中 剩余 的 位 用 0 填充 。 这 些 1 表 示 地 址 中 哪些 部 
分 包含 了 所 分 配 到 的 网 络 ID， 而 这 些 0 则 表示 地 址 中 哪些 部 分 可 供 组 织 
用 来 为 网 络 中 的 主机 分 配 唯 一 的 ID。 掩 码 中 网 络 ID 部 分 的 大 小 会 在 分 配 
地 址 时 确定 。 由 于 网 络 ID 部 分 总 是 占据 着 掩 码 最 左边 的 部 分 ， 因 此 可 以 
通过 下 面 的 标记 法 来 指定 分 配 的 地 址 范围 。 


204.152.189.0/24 


这 里 的 /24 表 示 分 配 的 地 址 的 网 络 ID 由 最 左边 的 24 位 构成 ， 剩 余 的 8 
位 用 于 指定 主机 ID。 或 者 在 这 种 情况 下 也 可 以 说 网 络 掩 码 的 点 分 十 进 制 
标记 是 255.255.255.0。 


拥有 这 个 地 址 的 组 织 可 以 将 254 个 唯一 的 因特网 地 址 分 配给 其 计算 
机 一 一 204.152.189.1 到 204.152.189.254。 有 两 个 地 址 是 无 法 分 配给 计算 
机 的 ， 其 中 一 个 地 址 的 主机 ID 的 位 都 是 90， 它 用 来 标识 网 络 本 身 ， 男 一 
个 地 址 的 主机 ID 的 位 都 是 1 一 一 在 本 例 中 是 204.152.189.255 一 一 它 是 子 
网 广播 地 址 。 








一 些 IPv4 地 址 拥有 特殊 的 含义 。 特 殊 地 址 127.0.0.1 一 般 被 定义 为 回 
环 地 址 ， 它 通常 会 被 分 配给 主机 名 localhost。 (网 络 127.0.0.0/8 中 的 所 有 
地 址 都 可 以 被 指定 为 IPv4 回 环 地 址 ， 但 通常 会 选择 127.0.0.1。) 发 送 到 
这 个 地 址 的 数据 报 实际 上 不 会 到 达 网 络 ， 它 会 自动 回环 变 成 发 送 主机 的 
输入 。 使 用 这 个 地 址 可 以 便捷 地 在 同一 主机 上 测试 客户 端 和 服务 器 程 
序 。 在 C 程 序 中 定义 了 整数 常量 INADDR_LOOPBACK 来 表示 这 个 程 
序 。 








常量 INADDR_ANY 就 是 所 谓 的 IPv4 通 配 地 址 。 通 配 IP 地 址 对 于 将 
Internet domain socket 绑 定 到 多 宿主 机 上 的 应 用 程序 来 讲 是 比较 有 用 的 。 
如 果 位 于 一 台 多 宿主 机 上 的 应 用 程序 只 将 socket 绑 定 到 其 中 一 个 主机 IP 
地 址 上 ， 那 么 该 socket 就 只 能 接收 发 送 到 该 了 地 址 上 的 UDP 数据 报 和 
TCP 连 接 请 求 。 但 一 般 来 讲 都 希望 位 于 一 台 多 宿主 机 上 的 应 用 程序 能 够 
接收 指定 任意 一 个 主机 下 地 址 的 数据 报 和 连接 请 求 ， 而 将 socket 绑 定 到 
通 配 卫 地址 上 使 之 成 为 了 可 能 。SUSv3 并 没有 为 INADDR_ANY 规 定 一 
个 特定 的 值 ， 但 大 多 数 实 现 将 其 定义 成 了 0.0.0.0〈 全 是 0) © 


一 般 来 讲 ，IPv4 地 址 是 划分 子 网 的 。 划 分 子 网 将 一 个 IPv4 地 址 的 主 
机 ID 部 分 分 成 两 个 部 分 :一 个 子 网 ID 和 一 个 主机 ID (图 58-6) 。 (如 何 
划分 主机 ID 的 位 完全 是 由 网 络 管理 员 来 决定 的 。〉 子 网 划分 的 原理 在 于 
一 个 组 织 通 常 不 会 将 其 所 有 主机 接 到 单个 网 络 中 。 相 反 ， 组 织 可 能 会 开 
启 一 组 子 网 (一 个 “内 部 互联 网 络 ”) ， 每 个 子 网 使 用 网 络 ID 和 子 网 ID 组 
合 起 来 标识 。 这 种 组 合 通 常 被 称 为 扩展 网 络 ID。 在 一 个 子 网 中 ， 子 网 掩 
码 所 扮演 的 角色 与 之 前 描述 的 网 络 掩 码 的 角色 是 一 样 的 ， 并 且 可 以 使 用 
类 似 的 标记 法 来 表示 分 配给 一 个 特定 子 网 的 地 址 范围 。 


32 位 


eu 
a 扩展 网 络 ID = 
Tr 


图 58-6: IPv4 子 网 划分 


例如 假设 分 配 到 的 网 络 ID 是 204.152.189.0/24， 这 样 可 以 通过 将 主机 
ID 的 8 位 中 的 4 位 划分 成 子 网 ID 并 将 剩余 的 4 位 划分 成 主机 ID 来 对 这 个 地 
址 范围 划分 子 网 。 在 这 种 情况 下 ， 子 网 掩 码 将 由 28 个 前 导 1 后 面 跟着 4 个 
0 构成 ，ID 为 1 的 子 网 将 会 被 表示 为 204.152.189.16/28。 





























IPv6 地 址 


IPv6 地 址 的 原理 与 IPv4 地 址 是 类 似 的 ， 它 们 之 间 关 键 的 兰 别 在 于 
IPV6 地 址 由 128 位 构成 ， 其 中 地 址 中 的 前 面 一 些 位 是 一 个 格式 前 级 ， 表 
示 地 址 类 型 。 (这 里 不 会 深入 介绍 这 些 地 址 类 型 的 细节 ， 细 节 信 息 可 参 
考 [Stevens et al., 2004] 的 附录 A 和 RFC 3513. ) 

IPv6 地 址 通常 被 书写 成 一 系列 用 冒号 隔 开 的 16 位 的 十 六 进 制 数 字 ， 
如 下 所 示 。 


F000:0:0:;0:;0:;0:A:1 


IPv6 地 址 通常 包含 一 个 0 序列 ， 并 且 为 了 标记 方便 ， 可 以 使 用 两 个 
分 号 C) 来 表示 这 种 序列 。 因 此 上 面 的 地 址 可 以 被 重 写成 : 


F000::A:1 

在 IPv6 地 址 中 只 能 出 现 一 个 双 冒 号 标记 ， 出 现 多 次 的 话 会 造成 混 
消 。 

IPv6 也 像 IPv4 地 址 那样 提供 了 环 回 地 址 〈127 个 0 后 面 跟 着 一 个 1， 
即 ::1) 和 通 配 地 址 《所 有 都 为 0， 可 以 书写 成 0::0 或 ::) 。 


为 允许 IPv6 应 用 程序 与 只 支持 IPv4 的 主机 进行 通信 ，IPv6 提 供 了 所 
谓 的 IPv4 映 射 的 IPv6 地 址 ， 图 58-7 给 出 了 这 些 地 址 的 格式 。 








企 0 IPv4 地 吉 : 
80 位 16 位 32 位 


图 58-7: IPv4 映 射 的 IPv6 地 址 的 格式 


在 书写 IPv4 映 射 的 IPv6 地 址 时 ， 地 址 的 IPv4 部 分 ( 即 最 后 4 个 字 节 ) 
会 被 书写 成 IPv4 的 点 分 十 进 制 标 记 。 因 此 与 204.152.189.116 等 价 的 IPv4 
映射 的 IPv6 地 址 是 ::FFFF:204.152.189.116。 





58.6 ”传输 层 
在 TCP/IP 套 件 中 使 用 广泛 的 两 个 传输 层 协议 如 下 。 


。 用户 数据 报 协议 CUDP) 是 数据 报 socket 所 使 用 的 协议 。 
o 传输 控制 协议 (TCP) 是 流 socket 所 使 用 的 协议 。 


在 介绍 这 些 协议 之 前 首先 需要 对 两 个 协议 都 用 到 的 端口 号 这 个 概念 
进行 介绍 。 





58.6.1 mO 5 


传输 层 协 议 的 任务 是 向 位 于 不 同 主机 (或 有 时 候 位 于 同一 主机 〉 上 
的 应 用 程序 提供 端 到 端的 通信 服务 。 为 完成 这 个 任务 ， 传 输 层 需要 采用 
一 种 方法 来 区 分 一 个 主机 上 的 应 用 程序 。 在 TCP 和 UDP 中 ， 这 种 区 分 工 
作 是 通过 一 个 16 位 的 端口 号 来 完成 的 。 


众所周知 的 、 注 册 的 以 及 特权 端口 


有 些 众所周知 的 端口 号 已 经 被 永久 地 分 配给 特定 的 应 用 程序 了 《也 
称 为 服务 ) 。 例 如 ssh〈 安 全 的 shell) daemon 使 用 众所周知 的 端口 22， 
HTITP〈Web 服 务 器 和 浏览 器 之 间 通 信 时 所 采用 的 协议 ) 使 用 众所周知 
的 端口 80。 众 所 周知 的 端口 的 端口 号 位 于 0 一 1023 之 间 ， 它 是 由 中 央 授 
权 机 构 互 联网 号 码 分 配 局 (IANA, http://www.iana.org/) 来 分 配 的 。 一 
个 众所周知 的 端口 号 的 分 配 是 由 一 个 被 核准 的 网 络 规范 (通常 以 RFC 的 
形式 ) 来 规定 的 。 


IANA 还 记录 着 注册 端口 ， 将 这 些 端口 分 配给 应 用 程序 开发 人 员 的 
过 程 就 不 那么 严格 了 〈 这 也 意味 着 一 个 实现 无 需 保 证 这 些 端口 是 否 真正 
用 于 它们 注册 时 申请 的 用 途 ) 。IANA 注 册 的 端口 范围 为 1024 一 41951。 
《不 是 所 有 位 于 这 个 范围 内 的 端口 都 被 注册 了 。 ) 


IANA 众所周知 的 更 新 列表 和 注册 端口 分 配 情况 可 以 
在 http://www.iana.org/assignments/port-numbers 上 找到 。 


在 大 多 数 TCP/IP 实 现 (包括 Linux)〉 中 ， 范 围 在 0 到 1023 间 的 端口 号 

















也 是 特权 端口 ， 这 意味 着 只 有 特权 (CAP_NET_BIND_SERVICE) 进程 
可 以 绑 定 到 这 些 端口 上 上 ， 从 而 防止 了 普通 用 户 通过 实现 恶意 程序 〈 如 伪 
造 ssh) 来 获取 密码 。 (有些 时 候 ， 特 权 端 口 也 被 称 为 保留 端口 。) 


尽管 端口 号 相同 的 TCP 和 UDP 端口 是 不 同 的 实体 ， 但 同一 个 众 所 周 
知 的 问 口 号 通 癌 会 同时 被 分 配给 基于 TCP 和 UDP 的 服务 ， 即 使 该 服务 通 
常 只 提供 了 其 中 一 种 协议 服务 。 这 种 惯例 避免 了 端口 号 在 两 个 协议 中 产 
生 混 消 的 情况 。 


临时 端口 


如 果 一 个 应 用 程序 没有 选择 一 个 特定 的 端口 〈 即 在 socket 术 语 中 ， 
它 没有 调用 bind0 将 其 socket 绑 定 到 一 个 特定 的 端口 上 ) ， 那 么 TCP 和 
UDP 会 为 该 socket 分 配 一 个 唯一 的 临时 端口 〈“ 即 存活 时 间 较 短 ) 。 在 这 
种 情况 下 ， 应 用 程序 一 一 通常 是 一 个 客户 端 一 一 并 不 关心 它 所 使 用 的 端 
口号 ， 但 分 配 一 个 端口 对 于 传输 层 协议 标识 通信 端点 来 讲 是 有 必要 的 。 
这 种 做 法 的 另 一 个 结果 是 位 于 通信 信道 另 一 问 的 对 等 应 用 程序 就 知道 如 
何 与 这 个 应 用 程序 通信 了 。TCP 和 UDP 在 将 socket 绑 定 到 端口 0 上 时 也 会 
分 配 一 个 临时 端口 号 。 

















IANA 将 位 于 49152 到 65535 之 间 的 端口 称 为 动态 或 私有 端口 ， 这 表 
示 这 些 问 口 可 供 本 地 应 用 程序 使 用 或 作为 临时 端口 分 配 。 然 后 不 同 的 实 
现 可 能 会 在 不 同 的 范围 内 分 配 临 时 端口 。 在 Linux 上 ， 这 个 范围 是 由 包 
含 在 文件 /proc/sys/net/ipv4/ip_local_port_range 中 的 两 个 数字 来 定义 的 
《可 通过 修改 这 两 个 数字 来 修改 范围 ) 。 


58.6.2 ”用 户 数据 报 协 议 CUDP) 


UDP 仅仅 在 了 之 上 添加 了 两 个 特性 : 端口 号 和 一 个 进行 检测 传输 数 
气 错 误 的 数据 校 验 和 。 


与 一样，UDP 也 是 无 连接 的 。 由 于 它 并 没有 在 IP 之 上 增加 可 靠 
性 ， 因 此 UDP 是 不 可 靠 的 。 如 果 一 个 基于 UDP 的 应 用 程序 需要 确保 可 靠 
性 ， 那 么 这 项 功能 就 必须 要 在 应 用 程序 中 予以 实现 。 如 果 剔 除 不 可 靠 这 
个 特点 的 话 ， 在 有 些 时 候 可 能 倾 癌 于 使 用 UDP 而 不 是 TCP， 有 具体 原因 可 
以 在 61.12 节 中 找到 。 





UDP 和 TCP 使 用 的 校 验 和 的 长 度 只 有 16 位 并 且 只 是 简 
单 的 “总 结 性 ? 校 验 和 ， 因 此 无 法 检测 出 特定 的 错误 ， 其 结 
果 是 无 法 提供 较 强 的 错误 检测 机 制 。 繁 忙 的 互联 网 服务 器 
通常 只 能 每 隅 几 天 看 一 下 未 检测 出 的 传输 错误 的 平均 情况 
([Stone & Partridge, 2000]) 。 需 要 更 多 确保 数据 完整 性 的 
应 用 程序 可 以 使 用 安全 Sockets 层 (Secure Sockets Layer, 
SSL) ， 它 不 仅仅 提供 了 安全 的 通信 ， 而 且 还 提供 更 加 严 
格 的 错误 检测 过 程 。 或 者 应 用 程序 也 可 以 实现 自己 的 错误 
控制 机 制 |。 











选择 一 个 UDP 数 据 报 大 小 以 避免 IP 分 段 


在 58.4 节 中 描述 过 IP 分 段 机 制 并 指出 过 通常 应 该 尽 可 能 地 避免 IP 分 
段 。TCP 提 供 了 避免 IP 分 段 的 机 制 ， 但 UDP 并 没有 提供 相应 的 机 制 。 使 
用 UDP 时 如 果 传 输 的 数据 报 的 大 小 超过 了 本 地 数据 链接 的 MTU， 那 么 
很 容易 就 会 导致 了 分 段 。 


基于 UDP 的 应 用 程序 通常 不 会 知道 源 主机 和 目的 主机 之 间 的 路 径 的 
MTU。 一 般 来 讲 ， 基 于 UDP 的 应 用 程序 会 采用 保守 的 方法 来 避免 了 分 
段 ， 即 确保 传输 的 卫 数 据 报 的 大 小 小 于 IPv4 的 组 装 绥 冲 区 大 小 的 最 小 值 
576 字 节 。 〈 这 个 值 很 有 可 能 是 小 于 路 径 MTU 的 。) 在 这 576 字 节 中 ， 

有 8 个 字 节 是 用 于 存放 UDP 头 的 ， 男 外 最 少 需要 使 用 20 个 字 节 来 存放 IP 
头 ， 剩 下 的 548 字 节 用 于 存放 UDP 数据 报 本 身 。 在 实践 中 ， 很 多 基于 
UDP 的 应 用 程序 会 选择 使 用 一 个 更 小 的 值 512 字 节 来 存放 数据 报 
([Stevens, 1994]) . 























58.6.3 ”传输 控制 协议 《TCP) 


TCP 在 两 个 端点 〈( 即 应 用 程序 ) 之 间 提 供 了 可 靠 的 、 面 向 连接 的 、 
双 同 字 节 流通 信人 信道 ， 如 图 58-8 所 示 。 为 提供 这 些 特性 ，TCP 必 须要 执 
行 本 市 中 描述 的 任务 。 (有 关 所 有 这 些 特性 的 详细 描述 可 以 在 [Stevens,， 
1994] 中 找到 。) 
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图 58-8: 已 连接 的 TCP socket 





这 里 使 用 术语 TCP 端 点 来 表示 TCP 连 接 一 端的 内 核 所 维护 的 信息 。 

(通常 会 进一步 对 这 个 术语 进行 缩写 ， 如 仪 书写 “一 个 TCP* A aS 
TCP ig FA? BAS PF vig TCP” RRR eg Fe? ESP TCP ig o ”) 
这 部 分 信息 包括 连接 这 一 端 Le a a 
个 已 连接 的 端点 的 操作 的 状态 信息 。 (在 61.6.3 节 中 介绍 TCP 状 态 迁 移 
图 时 将 深入 介绍 状态 信息 的 细节 。) 在 本 书 余 下 的 部 分 中 将 使 用 术语 接 
收 TCP 和 发 送 TCP 来 表示 一 个 用 来 在 特定 方向 上 传输 数据 的 流 socket 连 
接 两 端的 接收 和 发 送 应 用 程序 。 


连接 建立 


在 开始 通信 之 前 ，TCP 需 要 在 两 个 端点 之 间 建 立 一 个 通信 信道 。 在 
连接 建立 期 间 ， 发 送 者 和 接收 者 需要 交换 选项 来 协商 通信 的 参数 。 


将 数据 打包 成 段 


数据 会 被 分 解 成 段 ， 每 一 个 段 都 包含 一 个 校 验 和 ， 从 而 能 够 检测 出 
端 到 端的 传输 错误 。 每 一 个 段 使 用 单个 Ip 数 据 报 来 传输 。 


确认 、 重 传 以 及 超时 


当 一 个 TCP 段 无 错 地 达到 目的 地 时 ， 接 收 TCP 会 向 发 送 者 发 送 一 个 
确认 ， 通 知 它 数据 发 送 递送 成 功 了 。 如 果 一 个 段 在 到 达 时 是 存在 错误 
的 ， 那 么 这 个 段 就 会 被 丢弃 ， 确 认 信息 也 不 会 被 发 送 。 为 处 理 段 永 远 不 
到 达 或 被 丢弃 的 情况 ， 发 送 者 在 发 送 每 一 个 段 时 会 开启 一 个 定时 器 。 如 
果 在 定时 器 超时 之 前 没有 收 到 确认 ， 那 么 就 会 重 传 这 个 段 。 





排序 


由 于 所 使 用 的 网 络 以 及 当前 的 流量 负载 会 影响 传输 一 
个 段 和 接收 其 确认 所 需 的 时 间 ， 因 此 TCP 采 用 了 一 个 算法 
来 动态 地 调整 重 传 超时 时 间 (RTO》 的 大 小 。 








接收 TCP 可 能 不 会 立即 发 送 确认 ， 而 是 会 等 待 几 毫秒 
来 观察 一 下 是 否 可 以 将 确认 塞 进 接收 者 返回 给 发 送 者 的 响 
应 中 。【〔 每 个 TCP 段 都 包含 一 个 确认 字段 ， 这 样 束 能 将 确 
认 塞 进 TCP 段 中 了 。) 这 项 被 称 为 延迟 ACK 的 技术 的 目的 
是 能 少 发 送 一 个 TCP 段 ， 从 而 降低 网 络 中 包 的 数量 以 及 降 
低 发 送 和 接收 主机 的 负载 。 








在 TCP 连 接 上 传输 的 每 一 个 字 节 都 会 分 配 到 一 个 馆 辑 序号 。 这 个 数 


字 指 出 了 该 字 市 在 这 个 连接 的 数据 流 中 所 处 的 位 置 。( 这 个 连接 中 的 两 
个 流 各 自 都 有 自己 的 序号 计数 系统 。) 当 传输 一 个 TCP 分 段 时 会 在 其 中 
一 个 字段 中 包含 这 个 段 的 第 一 个 字 节 的 序号 。 





在 每 一 个 段 中 加 上 上 一 个 序号 有 几 个 作用 。 


这 个 序号 使 得 TCP 分 段 能 够 以 正确 的 顺序 在 目的 地 进行 组 装 ， 然 后 
以 字 节 流 的 形式 传递 给 应 用 层 。 (在 任意 一 个 时 刻 ， 在 发 送 者 和 接 
收 者 之 则 可 能 存在 多 个 正在 传输 的 TCP 分 段 ， 这 些 分 段 的 到 达 顺 序 
可 能 与 被 发 送 的 顺序 可 能 是 不 同 的 。) 

由 接收 者 返回 给 发 送 者 的 确认 消息 可 以 使 用 序号 来 标识 出 收 到 了 哪 
个 TCP 分 段 。 

接收 者 可 以 使 用 序号 来 移 除 重复 的 分 段 。 发 生 重复 的 原因 可 能 是 因 
为 JP 数据 段 重复 ， 也 可 能 是 因为 TCP 自 己 的 重 传 算法 会 在 一 个 段 的 
确认 丢失 或 没有 按时 收 到 时 重 传 一 个 成 功 递送 出 去 的 段 。 


一 个 流 的 初始 序号 (ISN) 不 是 从 0 开始 的 ， 相 反 ， 它 是 通过 一 个 算 




















法 来 生成 的 ， 该 算法 会 递增 分 配给 后 续 TCP 连 接 的 ISN (为 防止 出 现 前 
一 个 连接 中 的 分 段 与 这 个 连接 中 的 分 段 混 请 的 情况 ) 。 这 个 算法 也 使 得 
猜测 ISN 变 得 困难 起 来 。 序 号 是 一 个 32 位 的 值 ， 当 到 达 最 大 取 值 时 会 回 








流量 控制 防止 一 个 快速 的 发 送 者 将 一 个 慢 速 的 接收 者 压 震 。 要 实现 
流量 控制 ， 接 收 TCP 就 必须 要 为 进入 的 数据 维护 一 个 缓冲 区 。 (每 个 
TCP 在 连接 建立 阶段 会 通告 其 缓冲 区 的 大 小 。〉 当 从 发 送 TCP 病 收 到 数 
据 时 会 将 数据 累积 在 这 个 缓冲 区 中 ， 当 应 用 程序 读 取 数 据 时 会 从 缓冲 区 
中 删除 数据 。 在 每 个 确认 中 ， 接 收 者 会 通知 发 送 者 其 进入 数据 缓冲 区 的 
可 用 空间 《〈 即 发 送 者 可 以 发 送 多 少 字 节 ) 。TCP 流 量 控制 算法 采用 了 所 
NIA BORE, ERAS SENS SS Get BARD) 的 未 确 
认 段 同时 在 发 送 者 和 接收 者 之 间 传 输 。 如 果 接 收 TCP 的 进入 数据 缓冲 区 
完全 被 充满 了 ， 那 么 窗口 就 会 和 关闭， 发 送 TCP 就 会 停止 传输 数据 。 


接收 者 可 以 使 用 SO_RCVBUEF socket 选 项 来 覆盖 进入 数 
据 绥 冲 区 的 默认 大 小 (参见 socket(7) 手 册 ) 。 


拥 春 控制 : 慢 局 动 和 拥 野 避免 算法 


TCP 的 拥塞 控制 算法 被 设计 用 来 防止 快速 的 发 送 者 压 垮 整个 网 络 。 
如 宁 一 个 及 送 TCP 发 送 包 的 速度 要 快 于 一 个 中 间 路 由 喜 转 发 的 速度 ， 那 
么 该 路 由 器 就 会 开始 丢弃 包 。 这 将 会 导致 较 高 的 包 丢 失 率 ， 其 结果 是 如 
朵 TCP 保 持 以 相同 的 速度 发 送 这 些 被 丢弃 的 分 段 的 话 束 会 极 大 地 降低 性 
能 。ITCP 的 拥塞 控制 算法 在 下 列 两 个 场景 中 是 比较 重要 的 。 


。 在 连接 建立 之 后 : 此 时 (或 当 传输 在 一 个 已 经 空 几 了 一 段 时 间 的 连 
接 上 恢复 时 ) ， 发 送 者 可 以 立即 癌 网 络 中 注入 尽 可 能 多 的 分 段 ， 只 
要 接收 者 公告 的 窗口 大 小 允许 即 可 。《〈 事 实 上 ， 这 就 是 早期 的 TCP 
实现 的 做 法 。) 这 里 的 问题 在 于 如 果 网 络 无 法 处 理 这 种 分 段 洪 泛 ， 
那么 及 送 者 会 存在 立即 压 垮 整 个 网 络 的 风险 。 




















。 当 拥 赛 被 检测 到 时 : 如果 发 送 TCP 检 测 到 发 生 了 拥塞 ， 那 么 它 就 必 
须要 降低 其 传输 速率 。TCP 是 根据 分 段 丢 失 来 检测 是 否 发 生 了 拥 
塞 ， 因 为 传输 错误 率 是 非常 低 的 ， 即 如 果 一 个 包 丢 失 了 ， 那 么 就 认 
AIBA THE. 


TCP 的 拥塞 控制 策略 组 合 采 用 了 两 种 算法 : 慢 局 动 和 拥塞 避免 。 


慢 局 动 算法 会 使 太 送 TCP 在 一 开始 的 时 候 以 低速 传输 分 段 ， 但 同时 
允许 它 以 指数 级 的 速度 提高 其 速率 ， 只 要 这 些 分 段 都 得 到 接收 TCP 的 确 
认 。 慢 启动 能 够 防止 一 个 快速 的 TCP 发 送 者 压 震 整个 网 络 。 但 如 果 不 加 
限制 的 话 ， 慢 局 动 在 传输 速率 上 的 指数 级 增长 意味 着 发 送 者 在 短 时 间 内 
就 会 压 垮 整 个 网 络 。TCP 的 拥塞 避免 算法 用 来 防止 这 种 情况 的 发 生 ， 丘 
为 速率 的 增长 安排 了 一 个 管理 实体 。 


有 了 拥塞 避免 之 后 ， 在 连接 刚 建立 时 ， 发 送 TCP 会 使 用 一 个 较 小 的 
拥塞 窗口 ， 它 会 限制 所 能 传输 的 未 确认 的 数据 数量 。 当 发 送 者 从 对 等 
TCP 处 接收 到 确认 时 ， 拥 突 窗 口 在 一 开始 时 会 呈现 指数 级 增长 。 但 一 旦 
拥 内 窗口 增长 到 一 个 被 认为 是 接近 网 络 传输 容量 的 闷 值 时 ， 其 增长 速度 
就 会 变 成 线性 ， 而 不 是 指数 级 的 。 (对 网 络 容 量 的 估算 是 根据 检测 到 拥 
赛 时 的 传输 速率 来 计算 得 出 的 或 者 在 一 开始 建立 连接 时 设 定 为 一 个 固定 
值 。) 在 任何 时 刻 ， 发 送 TCP 传 输 的 数据 数量 还 会 受到 接收 TCP 的 通告 
窗口 和 本 地 的 TCP 发 送 缓冲 器 的 大 小 的 限制 。 


慢 尼 动 和 拥塞 避免 算法 组 合 起 来 使 得 发 送 者 可 以 快速 地 将 传输 速度 
提升 至 网 络 的 可 用 容量 ， 并 且 不 会 超出 该 容量 。 这 些 算法 的 作用 是 允许 
数据 传输 快速 地 到 达 一 个 平衡 状态 ， 即 发 送 者 传输 包 的 速率 与 它 从 接收 
者 处 接收 确认 的 速率 一 致 。 














58.7 “请求 注 解 CREC) 


本 书 中 讨论 的 每 一 种 因特网 协议 都 是 在 RFC 文 档 一 一 一 个 正式 的 协 
议 规范 一 一 中 进行 定义 的 。RFC 是 由 国际 互联 网 学 会 
Chttp://www.isoc.org/) 资助 的 RFC 编 辑 组 织 (http://www.rfc- 
editor.org/) 发 布 的 。 描 述 互联 网 标准 的 RFC 是 由 互联 网 工程 任务 组 
CGIETE, http://www.ietf.org/) 资助 开发 的 ， 互 联网 工程 任务 组 是 一 个 由 
PZT, BRED. J 商 以 及 研究 人 员 组 成 的 社区 ， 它 关注 的 是 互联 
ee IETF 的 成 员 资 格 对 所 有 感 兴趣 的 个 人 都 是 开放 
le 


下 列 RFC 与 本 书 介绍 的 材料 是 特别 相关 的 。 


e RFC 791, Internet Protocol. J. Postel (ed.), 1981. 

e RFC 950, Internet Standard Subnetting Procedure. J. Mogul 和 J. 
Postel, 1985. 

e RFC 793, Transmission Control Protocol. J. Postel (ed.), 1981. 

e RFC 768, User Datagram Protocol. J. Postel (ed.), 1980. 

e RFC 1122, Requirements for Internet Hosts—Communication 
Layers. R. Braden (ed.), 1989. 











RFC 1122 对 早期 描述 TCP/IP 协 议 的 各 种 RFC 进 行 了 扩 
展 ( 以 及 修正 )。 它 是 一 对 通常 被 称 为 主机 要 求 RFC 中 的 
其 中 一 个 ， 另 一 个 是 RFC 1123， 它 描述 的 是 应 用 层 协 议 ， 
如 Telnet、FTP 以 及 SMTP。 





描述 IPV6 的 RFC 如 下 。 


e RFC 2460, Internet Protocol, Version 6。 S. Deering 和 R. Hinden, 
1998. 
e RFC 4291, IP Version 6 Addressing Architecture. R. Hinden 和 S. 


Deering, 2006. 

RFC 3493, Basic Socket Interface Extensions for IPv6. R. Gilligan, S. 
Thomson, J. Bound, J. McCann) X W. Stevens, 2003. 

RFC 3542, Advanced Sockets API for IPv6. W. Stevens, M. Thomas, 
E. Nordmark VR T. Jinmei, 2003. 


很 多 RFC 和 论文 对 最 初 的 TCP 规 范 进行 了 优化 和 扩展 ， 如 下 所 示 。 


Congestion Avoidance and Control. V. Jacobsen, 1988。 这 是 描述 
TCP HAE Te til AS a GAY S PE Mo ERI RTE I 
Proceedings of SIGCOMM’88 上， 在 ftp://ftp.ee.lbl.gov/ 
papers/congavoid.ps.Z 上 可 以 找到 一 个 经 过 些许 修订 的 版 本 。 当 然 ， 
这 篇 论文 中 的 大 部 分 内 容 已 经 被 下 列 RFC 所 取代 了 。 

RFC 1323, TCP Extensions for High Performance. V. Jacobson, R. 
Braden 以 及 D.Borman, 1992. 

RFC 2018, TCP Selective Acknowledgment Options. M. Mathis, J. 
Mahdavi, S. Floyd 和 A. Romanow, 1996. 

RFC 2581, TCP Congestion Control. M. Allman, V. Paxson 和 W. 
Stevens, 1999. 

RFC 2861, TCP Congestion Window Validation. M. Handley, J. 
Padhye 以 及 S. Floyd, 2000. 

RFC 2883, An Extension to the Selective Acknowledgement (SACK) 
Option for TCP. S. Floyd, J. Mahdavi, M. Mathis 以 及 M. Podolsky, 
2000. 

RFC 2988, Computing TCP’s Retransmission Timer. V. Paxson 和 
M. Allman, 2000. 

RFC 3168, The Addition of Explicit Congestion Notification (ECN) to 
IP. K. Ramakrishnan, S. Floyd 以 及 D. Black, 2001. 

RFC 3390, Increasing TCP’s Initial Window. M. Allman, S. Floyd 以 
及 C. Partridge,2002. 


58.8 总 结 


TCP/IP 是 一 个 分 层 的 联网 协议 条 件 。 在 TCP/IP 协 议 栈 的 最 底层 是 IP 
网 络 层 协 议 。IP 以 数据 报 的 形式 传输 数据 。IP 是 无 连接 的 ， 表 示 在 源 主 
机 和 目的 主机 之 间 传 输 的 数据 报 可 能 经 过 网 络 中 的 不 同 路 径 。 卫 是 不 可 
靠 的 ， 因 为 它 不 保证 数据 报 会 按 序 以 及 不 重复 到 达 ， 甚 至 还 不 保证 数据 
报 一 定 会 到 达 。 如 果 要 求 可 靠 性 的 话 就 必须 要 通过 使 用 一 个 可 靠 的 高 层 
协议 (如 TCP) 或 在 应 用 程序 中 来 完成 。 


IP 最 初 的 版 本 是 IPv4。 在 20 世 纪 90 年 代 早期 ， 卫 的 一 个 新 版 本 IPv6 
被 设计 出 来 了 。IPv4 和 IPv6 之 间 最 显著 的 差别 在 于 IPv4 使 用 了 32 位 来 表 
示 一 个 主机 地 址 ， 而 IPv6 则 使 用 了 128 位 ， 从 而 允许 在 全 球 范 围 的 因 特 
网 中 接 入 更 多 的 主机 。 目 前 ，IPv4 仍 然 是 使 用 最 为 广泛 的 卫 ， 尽 管 在 将 
来 可 能 会 被 I[Pv6 所 取代 。 


在 IP 之 上 存在 多 种 传输 层 协议 ， 其 中 使 用 最 多 的 是 UDP 和 TCP。 
UDP 是 一 个 不 可 靠 的 数据 报 协议 。TCP 是 一 个 可 靠 的 、 面 向 连接 的 字 节 
流 协 议 。TCP 处 理 了 连接 建立 和 终止 的 所 有 细节 。TCP 还 将 数据 打包 成 
分 段 以 供 耻 传输 并 为 这 些 分 段 提 供 了 序号 计数 ， 这 样 接收 者 就 能 对 这 些 
分 段 进 行 确认 并 以 正确 的 顺序 组 装 这 些 分 段 。 此 外 ，TCP 还 提供 了 流量 
控制 来 防止 一 个 快速 的 发 送 者 压 震 一 个 慢 速 的 接收 者 和 拥塞 控制 来 防止 
一 个 快速 的 发 送 者 压 垮 整个 网 络 。 


更 多 信息 
参考 59.15 市 中 列 出 的 更 多 信息 源 。 








259% SOCKET: Internet 
Domain 


在 前 面 几 个 章节 介绍 过 socket 的 一 般 概念 和 TCP/IP 协 议 套件 之 后 ， 
现在 本 章 可 以 开始 介绍 如 何在 IPv4 (AF INET) 和 IPv6 (AF INET6) 
domain 中 使 用 socket 编 程 了 。 


在 第 58 章 中 提 到 过 Internet domain socket 地 址 由 一 个 人 PP 地址 和 一 个 端 
口号 组 成 。 虽 然 计 算 机 使 用 了 IP 地 址 和 端口 号 的 三 进 制 表 示 形 式 ， 但 人 
们 对 名 称 的 处 理 能 力 要 比 对 数字 的 处 理 能 力 强 得 多 。 因 此 ， 本 章 将 介绍 
使 用 名 称 标识 主机 计算 机 和 端口 的 技术 。 此 外 ， 还 将 介绍 如 何 使 用 库 函 
数 来 获取 特定 主机 名 的 人 P 地 址 和 与 特定 服务 名 对 应 的 端口 号 ， 其 中 对 主 
机 名 的 讨论 还 包括 了 对 域名 系统 (DNS) 的 描述 ， 域 名 系统 是 一 个 分 布 
式 数 据 库 ， 它 将 主机 名 映射 到 IP 地 址 以 及 将 IP 地 址 映射 到 主机 和 名。 


59.1 Internet domain socket 


Internet domain 流 socket 是 基于 TCP 之 上 的 ， 它 们 提供 了 可 靠 的 双向 
字 节 流通 信 信 道 。 


Internet domain 数 据 报 socket 是 基于 UDP 之 上 的 。UDP socket 与 之 在 
UNIX domain 中 的 对 应 实体 类 似 ， 但 需要 注意 下 列 差 别 。 


e UNIX domain 数 据 报 socket 是 可 靠 的 ， 但 UDP socket 则 是 不 可 靠 的 
数据 报 可 能 会 丢失 、 重 复 或 到 达 的 顺序 与 它们 被 发 送 的 顺序 不 
同 


在 一 个 UNIX domain 数 据 报 socket 上 发 送 数据 会 在 接收 socket 的 数据 
队列 为 满 时 阻塞 。 与 之 不 同 的 是 ， 使 用 UDP 时 如 果 进 入 的 数据 报 会 
使 接收 者 的 队列 溢出 ， 那 么 数据 报 就 会 静默 地 被 丢弃 。 








59.2 ”网 络 字 节 序 


IP 地 址 和 端口 号 是 整数 值 。 在 将 这 些 值 在 网 络 中 传递 时 碰 到 的 一 个 
问题 是 不 同 的 硬件 结构 会 以 不 同 的 顺序 来 存储 一 个 多 字 节 整数 的 字 节 。 
从 图 59-1 中 可 以 看 出 ， 存 储 整数 时 先 存储 《〈 即 在 最 小 内 存 地 址 处 ) 最 高 
有 效 位 的 被 称 为 大 端 ， 那 些 先 存储 最 低 有 效 位 的 被 称 为 小 端 。 (这 两 个 
术语 出 自 Jonathan Swift 在 1726 年 发 表 的 讽刺 小 说 《 格 列 佛 游记 》， 在 那 
篇 小 说 中 这 两 个 术语 指 在 另 一 端 打 开 煮 鸡蛋 的 敌对 政治 派别 。) 小 端 架 
构 中 最 值得 关注 的 是 x86。 (从 历史 上 来 讲 ，Digital 的 VAX 架 构 也 是 一 
个 重要 的 例子 ， 因 为 BSD 大 多 是 用 于 这 种 机 器 上 的 。)〉 其 他 群 大 多 数 架 
构 都 是 大 端的 。 一 些 硬件 结构 可 以 在 这 两 种 格式 之 间 切 换 。 在 特定 主机 
上 使 用 的 字 节 序 被 称 为 主机 字 节 序 。 

















2 字 节 整数 4 字 节 整数 
地 址 地 址 地 址 地 址 地 址 地 址 
N N+1 N N+1 N+2 N+3 
i ] 0 
大 端 字 节 顺序 (LSB) 
地 址 地 址 
N N+1 
小 端 字 节 顺序 (MSB) 
MSB = 最 高 有 效 字 节 LSB = 最 低 有 效 字 节 


图 59-1，2 字 节 和 4 字 节 整数 的 大 端 和 小 端 字 节 序 


由 于 端口 号 和 IP 地 址 必须 在 网 络 中 的 所 有 主机 之 间 传 递 并 且 需 要 被 
它们 所 理解 ， 因 此 必须 要 使 用 一 个 标准 的 字 节 序 。 这 种 字 节 序 被 称 为 网 
络 字 节 序 ， 它 是 大 端的 。 


在 本 章 后 面 将 会 介绍 各 种 用 于 将 主机 名 (如 www.kernel.org〉 和服 
务 名 (如 http〉 转换 成 对 应 的 数字 形式 的 函数 。 这 些 函数 一 般 会 返回 用 
网 络 字 节 序 表 示 的 整数 ， 并 且 可 以 直接 将 这 些 整数 复制 进 一 个 socket 地 
址 结构 的 相关 字段 中 。 











有 时候 可 能 会 直接 使 用 IP 地 址 和 端口 号 的 整数 常量 形式 ， 如 可 能 会 
选择 将 端口 号 硬 编码 进程 序 中 ， 或 者 将 端口 写作 为 一 个 命令 行 参数 传递 
给 程序 ， 或 者 在 指定 一 个 IPv4 地 址 时 使 用 诸如 INADDR_ANY 和 
INADDR_LOOPBACK 之 类 的 常量 。 这 些 值 在 C 中 是 按照 主机 的 规则 来 
表示 的 ， 因 此 它们 是 主机 字 节 序 的 ， 在 将 它们 存储 进 socket 地 址 结构 中 
之 前 需要 将 这 些 值 转换 成 网 络 字 节 序 。 


htons()、htonl()、ntohsO 〇 以 及 ntohl0) 函 数 被 定义 (通常 为 宏 ) 用 来 在 
主机 和 网 络 字 节 序 之 间 转 换 整 数 。 














#include <arpa/inet.h> 


uint16 t htons({uint16 t host_uint!6); 
Returns host_uint 16 converted to network byte order 
uint32_t htonl(uint32_t host_uint32); 
Returns host_uint32 converted to network byte order 
uint16_t ntohs(uint16_t nei uiniló); 
Returns net_uint16 converted to host byte order 


uint32_t ntohl(uint32_t net_uent32); 








Returns net_ uint32 converted to host byte order 





在 早期 ， 这 些 函 数 的 原型 如 下 。 


unsigned long htonl(unsigned long hostlong); 


这 揭示 出 了 函数 名 的 由 来 一 一 在 本 例 中 是 host to network long. 7E 
大 多 数 实现 socket 的 早期 系统 中 ， 短 整数 是 16 位 的 ， 长 整数 是 32 位 的 。 
但 在 现代 系统 中 这 种 论断 已 经 不 再 正确 了 《至 少 对 于 长 整数 是 这 样 
的 ) ， 因 此 上 面 给 出 的 原型 实际 上 是 为 这 些 函 数 所 处 理 的 类 型 提供 了 更 
加 精确 的 定义 ， 尽 管 所 使 用 的 名 称 未 发 生变 化 。uint16 ft 和 uint32_t 数 据 
类 型 是 16 位 和 32 位 的 无 符号 整数 。 


严格 地 讲 ， 只 需要 在 主机 字 节 序 与 网 络 字 节 序 不 同 的 系统 上 使 用 这 
四 个 函数 ， 但 开 肥 人 员 应 该 总 是 使 用 这 些 函 数 ， 这 样 程 序 就 能 够 在 不 同 
的 硬件 结构 之 间 移 植 了 。 在 主机 字 节 序 与 网 络 字 节 序 一 样 的 系统 上 ， 这 
些 函 数 只 是 简单 地 原样 返回 传递 给 它们 的 参数 。 








59.3 ”数据 表示 


在 编写 网 络 程序 时 需要 清楚 不 同 的 计算 机 架构 使 用 不 同 的 规则 来 表 
示 各 种 数据 类 型 。 本 章 之 前 已 经 指出 过 整数 类 型 可 以 以 大 端 或 小 问 的 形 
式 和 存储 。 此 外 ， 还 存在 其 他 的 差别 ， 如 C long 数 据 类 型 在 一 些 系统 中 可 
能 是 32 位 的 ， 但 在 其 他 系统 上 可 能 是 64 位 的 。 当 考虑 结构 时 ， 问 题 就 更 
加 复杂 了 ， 因 为 不 同 的 实现 采用 了 不 同 的 规则 来 将 一 个 结构 中 的 字段 对 
0 a a 




















由 于 在 数据 表现 上 存在 这 些 差 寞 ， 因 此 在 网 络 中 的 异 构 系统 之 间 交 
换 数据 的 应 用 程序 必须 要 采用 一 些 公 共 规 则 来 编码 数据 。 发 送 者 必须 要 
根据 这 些 规则 来 对 数据 进行 编码 ， 而 接收 者 则 必须 要 遵循 同样 的 规则 对 
数据 进行 解码 。 将 数据 变 成 一 个 标准 格式 以 便 在 网 络 上 传输 的 过 程 被 称 
为 信号 编 集 Cmarshalling) 。 目 前 ， 存 在 多 种 信号 编 集 标 准 ， 如 
XDR (ExterExternalData Representation， 在 RFC 1014 中 描述 ) 、ASN.1- 
BER (Abstract SyntaxNotation 1, http://www.asnl.org/) 、CORBA 以 及 
XML。 一 般 来 讲 ， 这 些 标准 会 为 每 一 种 数据 类 型 都 定义 一 个 固定 的 格 
式 〈 如 定义 了 字 节 序 和 使 用 的 位 数 ) 。 除 了 按照 所 需 的 格式 进行 编码 之 
外 ， 每 一 个 数据 项 都 需要 使 用 额外 的 字段 来 标识 其 类 型 《以 及 可 能 的 话 
还 会 加 上 长 度 ) 。 


然而 ， 一 种 比 信号 纺 集 更 简单 的 方法 通 冲 会 被 采用 : 将 所 有 传输 的 
数据 编码 成 文本 形式 ， 其 中 数据 项 之 间 使 用 特定 的 字符 来 分 隔 开 ， 这 个 
特定 的 字符 通常 是 换行 符 。 这 种 方法 的 一 个 优点 是 可 以 使 用 telnet 来 调 
试 一 个 应 用 程序 。 要 完成 这 项 任务 需要 使 用 下 面 的 命令 。 


$ telnet host port 


接着 可 以 输入 一 行 传 给 应 用 程序 的 文本 并 查看 应 用 程序 发 来 的 响 
应 ， 在 59.11 节 中 将 会 演示 这 项 技术 。 














与 异 构 系统 在 数据 表示 上 的 差异 相关 的 问题 不 仅仅 存 
在 于 网 络 间 的 数据 传输 中 ， 还 存在 于 此 类 系统 之 间 的 任何 


数据 交换 机 制 中 ， 如 在 传输 异 构 系 统 间 磁盘 或 磁带 上 的 文 
件 时 会 碰 到 同样 的 问题 。 现 在 ， 网 络 编程 只 不 过 是 可 能 会 
倍 到 这 类 问题 的 最 常见 的 编程 场景 。 





如 果 将 在 一 个 流 socket 上 传输 的 数据 编码 成 使 用 换行 符 分 隔 的 文 
本 ， 那 么 定义 一 个 诸如 readLine() 之 类 的 函数 将 是 比较 便捷 的 ， 如 程序 
清单 59-1 所 示 。 





#include "read line.h" 


ssize t readLine(int fd, void *buffer, size_t n); 





Returns number of bytes copied into buffer (excluding 
terminating null byte), or 0 on end-of-file, or -1 on error 
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换行 符 为 止 。 输 入 字 市 友 列 将 会 返回 在 buffer 指 向 的 位 置 处 ， 其 中 buffer 
指 回 的 内 存 区 域 至 少 为 nD 字 节 。 返 回 的 字符 串 总 是 以 nu 结尾， 因此 实际 


上 至 多 有 (Cn-1) 个 字 节 会 返回 。 在 成 功 时 ，readLine() 会 返回 放 入 buffer 
的 数据 的 字 节 数 ， 结 尾 的 null 字 节 不 会 计算 在 内 。 











程序 清单 59-1: 一 次 读 取 一 行 数据 


sockets/read_line.c 


#include <unistd.h> 
#include <errno.h> 


#include "read line.h" /* Declaration of readLine() */ 
ssize t 
readLine(int fd, void *buffer, size t n) 
{ 
ssize t numRead; /* # of bytes fetched by last read() */ 
size t totRead; /* Total bytes read so far */ 
char *buf; 
char ch; 


if (n <= 0 || buffer == NULL) { 
errno = EINVAL; 
return -1; 


} 


buf = buffer; /* No pointer arithmetic on "void *" */ 
totRead = 0; 
for (33) { 

numRead = read(fd, &ch, 1); 


if (numRead == -1) { 


if (errno == EINTR) /* Interrupted --> restart read() */ 
continue; 
else 
return -1; /* Some other error */ 
} else if (numRead == 0) { 7® EOE */ 
if (totRead == 0) /* No bytes read; return 0 */ 
return 0; 
else /* Some bytes read; add '\o' */ 
break; 
} else { /* ‘numRead' must be 1 if we get here */ 
if (totRead < n - 1) { /* Discard > (n - 1) bytes */ 
totRead++; 
*buf++ = ch; 
} 
if (ch == '\n') 
break; 
} 
} 
*buf = '\0'; 


return totRead; 


sockets/read_line.c 








如 果 在 遇 到 换行 符 之 前 读 取 的 字 市 数 大 于 或 等 于 (n-1) ， 那 么 
readLine0O 函 数 会 丢弃 多 余 的 字 节 (包括 换行 符 ) 。 如 果 在 前 面 的 (mn- 
1) 字 节 中 读 取 了 换行 符 ， 那 么 在 返回 的 字符 串 中 束 会 包含 这 个 换行 
符 。《 因 此 可 以 通过 检查 在 返回 的 buffer 中 结尾 null 字 节 前 是 否 是 一 个 换 
行 符 来 确定 是 否 有 字 节 被 丢弃 了 。) 采用 这 种 方法 之 后 ， 将 输入 以 行为 
单位 进行 处 理 的 应 用 程序 协议 就 不 会 将 一 个 很 长 的 行 处 理 成 多 行 了 。 当 
然 ， 这 可 能 会 破坏 协议 ， 因 为 两 端的 应 用 程序 不 再 同步 了 。 另 一 种 做 法 
是 让 readLineO 只 读 取 足够 的 字 节 数 来 填充 提供 的 缓冲 右 ， 而 将 到 下 一 
行 新 行为 止 的 剩余 字 节 留 给 下 一 个 readLineO 调 用 。 在 这 种 情况 下 ， 
readLine() 的 调用 者 需要 处 理 读 取 部 分 行 的 情况 。 


在 59.11 节 中 给 出 的 示例 程序 中 将 会 使 用 readLine() 函 数 。 





























59.4 Internet socket 地 址 
Internet domain socket 地 址 有 两 种 : IPv4 和 IPv6。 
IPv4 socket 地 址 : struct sockaddr_in 


一 个 IPv4 socket 地 址 会 被 存储 在 一 个 sockaddr_in 结 构 中 ， 该 结构 在 
<netinet/in.h> 中 进行 定义 ， 具 体 如 下 。 


struct in addr { /* IPv4 4-byte address */ 
in_addr t s addr; /* Unsigned 32-bit integer */ 
}; 
struct sockaddr in { /* IPv4 socket address */ 
sa_family t sin family; /* Address family (AF_INET) */ 
in port t sin_port; /* Port number */ 
struct in_addr sin_addr; /* IPv4 address */ 
unsigned char _ pad[X]; /* Pad to size of 'sockaddr' 


structure (16 bytes) */ 


在 56.4 节 中 曾 讲 过 普通 的 sockaddr 结 构 中 有 一 个 字段 来 标识 socket 
domain， 该 字段 对 应 于 sockaddr_ in 结构 中 的 sin_family 字 段 ， 其 值 总 为 
AF_INET。sin_port 和 sin_addr 字 段 是 端口 号 和 IP 地 址 ， 它 们 都 是 网 络 字 
节 序 的 。in_port_t 和 in_addr t 数 据 类 型 是 无 符号 整 型 ， 其 长 度 分 别 为 16 
位 和 32 位 。 


IPv6 socket 地 址 : struct sockaddr in6 


与 IPv4 地 址 一 样 ， 一 个 IPv6 socket 地 址 包含 一 个 IP 地 址 和 一 个 端口 
号 ， 它 们 之 间 的 差别 在 于 IPv6 地 址 是 128 位 而 不 是 32 位 的 。 一 个 IPv6 
socket 地 址 会 被 存储 在 一 个 sockaddr_in6 结 构 中 ， 该 结构 在 <netinet/in.h> 
中 进行 定义 ， 具 体 如 下 。 
struct in6 addr { /* IPv6 address structure */ 


uint8 t s6 addr[16]; /* 16 bytes == 128 bits */ 
}; 


struct sockaddr in6 { 
sa family t sin6 family; 
in port t s$in6 port; 
uint32 t sin6é flowinfo; 
struct In6 addr sin6_addr; 
uint32_t sin6_scope_id; 





/* IPv6 socket address */ 

/* Address family (AF_INET6) */ 

/* Port number */ 

/* IPv6 flow information */ 

/* IPv6 address */ 

/* Scope ID (new in kernel 2.4) */ 


sin_family 字 段 会 被 设置 成 AF_INET6。sin6_port 和 sin6_addr 字 段 分 
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Cuint8_t 数 据 类 型 被 用 来 定义 ip6_addr 结 构 中 字 
节 的 类 型 ， 它 是 一 个 8 位 的 无 


符号 整 型 。) 剩余 的 字段 sin6_flowinfo 和 


sin6_scope_id 则 超出 了 本 书 的 范围 ， 在 本 书 给 出 所 有 例子 中 都 会 将 它们 
设置 为 0。sockaddr_in6 结 构 中 的 所 有 字段 都 是 以 网 络 字 市 序 存 储 的 。 


IPV6 地 址 是 在 RFC 4291 中 进行 描述 的 。 与 IPv6 流 量 控 
fil] Csin6_flowinfo) 有关 的 信息 可 以 在 [Stevens et al., 2004] 
的 附录 A 和 RFC 2460 以 及 3697 中 找到 。RFC 3491 和 4007 提 
供 了 与 sin6_scope_id 有 关 的 信息 。 


IPv6 和 IPv4 一 样 也 有 通 配 和 回环 地 址 ， 但 它们 的 用 法 要 更 加 复杂 一 
些 ， 因 为 IPv6 地 址 是 存储 在 数组 中 的 (并 没有 使 用 标量 类 型 ) ， 下 面 将 
会 使 用 IPv6 通 配 地 址 (0::0〉 来 说 明 这 一 点 。 系 统 定 义 了 和 清 量 
IN6ADDR_ANY _INIT 来 表示 这 个 地 址 ， 有 具体 如 下 。 





#define IN6ADDR_ANY_INIT { { 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 } } 


在 Linux 上 ， 头 文件 中 的 一 些 细节 与 本 节 中 的 描述 是 不 
同 的 。 特 别 地 ，in6_addr 结 构 包 含 了 一 个 union 定 义 将 128 位 
的 IPv6 地 址 划分 成 16 字 节 或 八 个 2 字 节 的 整数 或 四 个 32 字 节 
的 整数 。 由 于 存在 这 样 的 定义 ， 因 此 glibc 提 供 的 
IN6ADDR_ANY_INIT 常 量 的 定义 实际 上 比 正文 中 给 出 的 定 
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在 变量 声明 的 初始 化 器 中 可 以 使 用 IN6ADDR_ANY_INIT 常 量 ,但 
无 法 在 一 个 赋值 语句 的 右边 使 用 这 个 和 常量， 因为 C 语 法 并 不 允许 在 赋值 
语句 中 使 用 一 个 结构 化 的 常量 。 取 而 代 之 的 做 法 是 必须 要 使 用 一 个 预先 
定义 的 变量 in6addr_any，C 库 会 按照 下 面 的 方式 对 该 变量 进行 初始 化 。 


const struct in6 addr inéaddr any = IN6ADDR ANY INIT; 


因此 可 以 像 下 面 这 样 使 用 通 配 地 址 来 初始 化 一 个 IPv6 socket 地 址 。 


struct sockaddr_in6 addr; 





memset (&addr, 0, sizeof(struct sockaddr in6)); 
addr.sin6 family = AF INET6; 

addr.sin6 addr = in6addr any; 

addr.sin6 port = htons(SOME PORT NUM); 


IPV6 环 回 地 址 (::1)〉 的 对 应 常量 和 变量 是 
IN6ADDR_LOOPBACK_INIT 和 in6addr _loopback. 


与 IPv4 中 相应 字段 不 同 的 是 IPv6 的 常量 和 变量 初始 化 器 是 网 络 字 节 
序 的， 但 就 像 上 面 给 出 的 代码 那样 ， 开 及 人 员 仍 然 必须 要 确保 问 口 号 是 
网 络 字 节 序 的 。 


如 果 IPv4 和 IPv6 共 存 于 一 台 主 机 上 ， 那 么 它们 将 共享 同一 个 端口 号 
空间 。 这 意味 着 如 果 一 个 应 用 程序 将 一 个 IPv6 socket 绑 定 到 了 TCP 端 口 
2000 上 《使 用 IPv6 通 配 地 址 ) ， 那 么 IPv4 TCP socket 将 无 法 绑 定 到 同一 
个 端口 上 。 (TCP/IP 实 现 确 保 位 于 其 他 主机 上 的 socket 能 够 与 这 个 socket 
进行 通信 ， 不 管 那些 主机 运行 的 是 IPv4 还 是 IPv6。 ) 








sockaddr storage 结构 


在 IPv6 socket API 中 新 引入 了 一 个 通用 的 sockaddr storage 结构 ， 这 
个 结构 的 空间 足以 存储 任意 类 型 的 socket 地 址 ( 即 可 以 将 任意 类 型 的 
socket 地 址 结构 强制 转换 并 存储 在 这 个 结构 中 ) 。 特 别 地 ， 这 个 结构 允 
许 透 明 地 存储 IPv4 或 IPv6 socket 地 址 ， 从 而 删除 了 代码 中 的 IP 版 本 依赖 
性 。sockaddr_storage 结 构 在 Linux 上 的 定义 如 下 所 示 。 





Hdefine ss aligntype uint32 t 
struct sockaddr storage { 

sa family t ss_family; 

_ ss aligntype _ ss align; 

char ss padding[SsS PADSIZE]; 
}; 


/* On 32-bit architectures */ 


/* Force alignment */ 
/* Pad to 128 bytes */ 


59.5 主机 和 服务 转换 函数 概述 


计算 机 以 三 进 制 形式 来 表示 IP 地 址 和 端口 号 ， 但 人 们 发 现 名 字 比 数 
字 更 容易 记忆 。 使 用 符号 名 还 能 有 效 地 利用 间接 关系 ， 用 户 和 程序 可 以 
继续 使 用 同一 个 名 字 ， 即 使 底层 的 数字 值 及 生 了 变化 也 不 会 受到 影响 。 


主机 名 和 连接 在 网 络 上 的 一 个 系统 〈 可 能 拥有 多 个 下地 址 ) 的 符号 
标识 符 。 服 务 名 是 端口 号 的 符号 表示 。 


主机 地 址 和 端口 的 表示 有 下 列 两 种 方法 。 


主机 地 址 可 以 表示 为 一 个 二 进 制 值 或 一 个 符 写 主机 名 或 展现 格式 
CIPv4 是 点 分 十 进 制 ，IPv6 是 十 六 进 制 字 符 串 ) 。 
端口 号 可 以 表示 为 一 个 二 进 制 值 或 一 个 符号 服务 名 。 


格式 之 间 的 转换 工作 可 以 通过 各 种 库 函 数 来 完成 。 本 市 将 对 这 些 函 
数 进行 简要 的 小 结 。 下 面 几 个 小 节 将 会 详细 描述 现代 API (inet_ntop()、 
inet_pton()、getaddrinfo()、getnameinfo() 等 ) 。 在 59.13 节 中 将 会 简要 地 
讨论 一 下 被 废弃 的 API (inet_aton()、inet_ntoa()、gethostbyname()、 
getservbyname() 等 )。 


在 二 进 制 和 人 类 可 读 的 形式 之 间 转 换 IPv4 地 址 


inet_aton0 和 inet_ntoa0 函 数 将 一 个 IPv4 地 址 在 点 分 十 进 制 表示 形式 
和 二 进 制 表示 形式 之 间 进 行 转换 。 这 里 介绍 这 些 函数 的 主要 原因 是 读者 
在 遗留 代码 中 可 能 会 看 到 这 些 函 数 。 现 在 它们 已 经 被 废弃 了 。 需 要 完成 
此 类 转换 工作 的 现代 程序 应 该 使 用 接 下 来 描述 的 函数 。 


在 二 进 制 和 人 类 可 读 的 形式 之 间 转 换 IPv4 和 JIPv6 地 址 


inet_pton() 和 inet_ntop() 与 inet_aton() 和 inet_ntoa() 类 似 ， 但 它们 还 能 
处 理 IPv6 地 址 。 它 们 将 二 进 制 IPv4 和 IPv6 地 址 转换 成 展现 格式 一 一 即 以 
点 分 十 进 制 表 示 或 十 六 进 制 字 符 串 表示 ， 或 将 展现 格式 转换 成 二 进 制 
IPv4 和 IPv6 地 址 。 


由 于 人 类 对 名 字 的 处 理 能 力 要 比 对 数字 的 处 理 能 力 强 ， 因 此 通常 侦 
尔 才 会 在 程序 中 使 用 这 些 函 数 。inet_ntop() 的 一 个 用 途 是 产生 IP 地 址 的 





























一 个 可 打印 的 表示 形式 以 便 记 录 日 志 。 在 有 些 情况 下 ， 最 好 使 用 这 个 函 
数 而 不 是 将 一 个 IP 地 址 转换 (“解析”) 成 主机 名 ， 其 原因 如 下 。 


。 将 一 个 中 地 址 解析 成 主机 名 可 能 需要 向 一 台 DNS 服 务 器 发 送 一 个 耗 
时 较 长 的 请 求 。 

。 在 一 些 场景 中 ， 可 能 并 不 存在 一 个 DNS (PTR) 记录 将 耳 地 址 映射 
到 对 应 的 主机 名 上 。 


本 节 在 介绍 执行 二 进 制 表示 与 对 应 的 符号 名 之 间 的 转换 工作 的 
getaddrinfo()#llgetnameinfo():Z Ay (59.677) 先 介 绍 这 些 函 数 主 要 是 因为 
它们 提供 的 更 加 简单 的 API， 这 样 束 能 快速 给 出 一 些 正常 工作 的 使 用 
Internet domain socket 的 例子 。 


主机 和 服务 名 与 二 进 制 形式 之 间 的 转换 (已 过 时 ) 


gethostbyname() 水 数 返 回 与 主机 名 对 应 的 二 进 制 IP 地 址 ， 
getservbyname0 丽 数 返 回 与 服务 名 对 应 的 端口 号 。 对 应 的 逆 同 转换 是 由 
gethostbyaddr() 和 getservbyport() 来 完成 的 。 这 里 之 所 以 要 介绍 这 些 函 数 
是 因为 它们 在 既 有 代码 中 被 广泛 使 用 ， 但 现在 它们 已 经 过 时 了 。 
《SUSv3 将 这 些 函 数 标记 为 过 时 的 ，SUSv4 删 除了 它们 的 规范 。) 新 代 
人 码 应 该 使 用 getaddrinfo() 和 getnameinfo() 函 数 ( 稍 后 介绍 〉 来 完成 此 类 转 
换 。 














主机 和 服务 名 与 二 进 制 形式 之 间 的 转换 现代 的 》 


getaddrinfo() 疯 数 是 gethostbyname() 和 getservbyname() 两 个 函数 的 现 
代 继 任 者 。 给 定 一 个 主机 名 和 一 个 服务 名 ，getaddrinfo0 会 返回 一 组 包 
含 对 应 的 二 进 制 IP 地 址 和 端口 号 的 结构 。 与 gethostbyname() 不 同 ， 
getaddrinfo() 会 透明 地 人 处理 IPv4 和 IPv6 地 址 。 因 此 使 用 这 个 函数 可 以 编写 
不 依赖 于 IP 版 本 的 程序 。 所 有 新 代 人 码 都 应 该 使 用 getaddrinfo() 来 将 主机 名 
和 服务 名 转换 成 二 进 制 表示 。 


getnameinfo() 冰 数 执行 逆向 转换 ， 即 将 一 个 IP 地 址 和 端口 号 转换 成 
对 应 的 主机 名 和 服务 名 。 


使 用 getaddrinfo() 和 getnameinfo() 还 可 以 在 二 进 制 IP 地 址 与 其 展现 格 
式 之 间 进 行 转换 。 


在 59.10 节 中 讨论 getaddrinfo0 和 getnameinfo0) 之 前 需要 对 DNS (59.8 
i) 和 /etc/services 文 件 (59.9 市 ) 进行 描述 。DNS 人 允许 协作 服务 器 维护 
一 个 将 二 进 制 下地 址 映射 到 主机 名 和 将 主机 名 英 射 到 二 进 制 下地 址 的 分 
布 式 数据 库 。 诸 如 DNS 之 类 的 系统 的 存在 对 于 因特网 的 运转 是 非常 关键 
的 ， 因 为 对 浩瀚 的 因特网 主机 名 进行 集中 管理 是 不 可 能 的 。/etc/services 
文件 将 端口 号 映射 到 符号 服务 名 。 











59.6 ”inet_pton() 和 inet_ntop0 函 数 


inet_pton0 和 inet_ntop0O 函 数 允 许 在 IPv4 和 IPv6 地 址 的 二 进 制 形 式 和 
点 分 十 进 制 表示 法 或 十 六 进 制 字符 串 表 示 法 之 间 进 行 转换 。 





#include <arpa/inet.h> 


int inet_pton(int domain, const char *src_str, void *addrptr); 


Returns 1 on successful conversion, 0 if src_str is not in 
presentation format, or -1 on error 


const char *inet_ntop(int domain, const void *taddrptr, char *dst_str, size_t len); 





Returns pointer to dst_str on success, or NULL on error 








这 些 函 数 名 中 的 p 表 示 “ 展 现 (presentation) ”，n 表 示 “ 网 络 
(network) ”。 展 现形 式 是 人 类 可 读 的 字符 串 ， 如 ; 


e 204.152.189.116 〈IPv4 点 分 十 进 制 地 址 ) ; 
。::] (IPv6 冒 号 分 隔 的 十 六 进 制 地 址 ) ; 
e ::FFFF:204.152.189.116 〈IPv4 映 射 的 IPv6 地 址 ) o 





inet_pton0 函 数 将 src_str 中 包含 的 展现 字符 串 转 换 成 网 络 字 节 序 的 二 
进 制 耻 地 址 。domain 参 数 应 该 被 指定 为 AF_INET 或 AF_INET6。 转 换 得 
到 的 地 址 会 被 放 在 addrptr 指 向 的 结构 中 ， 它 应 该 根据 在 domain 参 数 中 指 
定 的 值 指 向 一 个 in_addr 或 in6_addr 结 构 。 


inet_ntopO 函 数 执行 逆 癌 转换 。 同 样 ，domain 应 该 被 指定 为 
AF_INET 或 AF_INET6，addrptr 应 该 指 问 一 个 待 转换 的 in_addr 或 in6_addr 
结构 。 得 到 的 以 null 结 尾 的 字符 串 会 被 放置 在 dst_str 指 问 的 缓冲 器 中 。 
len 人 参数 必须 被 指定 为 这 个 缓冲 器 的 大 小 。inet_ntop0O 在 成 功 时 会 返回 
dst_str。 如 果 len 的 值 太 小 了 ， 那 么 inet_ntopO 会 返回 NULL 并 将 errno 设 置 
成 ENOSPC。 





要 正确 计算 dst_str 指 向 的 缓冲 器 的 大 小 可 以 使 用 在 <netineUin.h> 中 
定义 的 两 个 常量 。 这 些 常量 标识 出 了 IPv4 和 IPv6 地 址 的 展现 字符 串 的 最 
大 长 度 〈 包 括 结尾 的 null 字 节 ) 。 





#define INET ADDRSTRLEN 16 /* Maximum IPv4 dotted-decimal string */ 
#define INET6 ADDRSTRLEN 46 /* Maximum IPv6 hexadecimal string */ 


下 一 节 将 会 给 出 使 用 inet_pton0 和 inet_ntopO 的 例子 。 


59.7 客户 端 /服务 器 示例 〈 数 据 报 socket) 


本 节 将 修改 在 57.3 节 中 给 出 的 大 小 写 转换 服务 顺和 客户 端 程序 ， 使 
之 使 用 AF_INET6 domain 中 的 数据 报 socket。 本 市 给 出 的 这 两 个 程序 中 
的 注释 较 少 ， 因 为 它们 的 结构 与 之 前 给 出 的 程序 的 结构 是 类 似 的。 新 程 
序 中 的 主要 差别 在 于 59.4 市 中 介绍 的 IPv6 socket 地 址 结构 的 申明 和 初始 
Mh, 


客户 端 和 服务 器 都 使 用 了 程序 清单 59-2 中 给 出 的 头 文件 。 这 个 头 文 
件 定 义 了 服务 器 的 器 口号 和 客户 端 与 服务 器 可 交换 的 最 大 消息 数量 。 


程序 清单 59-2: i6d_ucase_sv.c 和 i6d_ucase_clc 使 用 的 头 文 件 












































sockets/i6d_ucase.h 


#include <netinet/in.h> 
#include <arpa/inet.h> 
#include <sys/socket.h> 
#include <ctype.h> 
#include "tlpi_hdr.h" 


#define BUF SIZE 10 /* Maximum size of messages exchanged 
between client and server */ 


#define PORT_NUM 50002 /* Server port number */ 
sockets/i6d_ucase.h 


程序 清单 59-3 给 出 了 服务 器 程序 。 服 务 器 使 用 inet_ntop() 函 数 将 客 
户 端的 主机 地 址 〈 通 过 recvfromO 调 用 获得 ) 转换 成 可 打印 的 形式 。 


$ ./i6d ucase sv & 

[1] 31047 

$ ./i6d_ucase_cl ::1 ciao Send to server on local host 
Server received 4 bytes from (::1, 32770) 

Response 1: CIAO 


程序 清单 59-4 给 出 的 客户 端 程序 与 之 前 的 UNIX domain 中 的 版 本 
(程序 清单 57-7) 相 比 存在 两 个 显著 的 改动 。 第 一 个 差别 在 于 客户 端 会 
将 其 第 一 个 命令 行 参数 解释 成 服务 器 的 IPv6 地 址 。 剩余 的 命令 行 参数 
是 作为 单独 的 数据 报 被 传递 给 服务 器 的 。) 客户 端 使 用 inet_pton0) 将 服 
务 右 地 址 转换 成 二 进 制 形式 。 男 一 个 差别 在 于 客户 问 并 没有 将 其 socket 
绑 定 到 一 个 地 址 上 。 在 58.6.1 节 中 曾 指出 过 如 果 一 个 Internet domain 








socket 没 有 被 绑 定 到 一 个 地 址 上， 那么 内 核 会 将 该 socket 绑 定 到 主机 系统 
上 的 一 个 临时 端口 上 。 这 一 点 可 以 从 下 面 的 shel 会 话 日 志 中 看 出 ， 其 中 
服务 器 和 客户 端 运 行 于 同一 个 主机 上 。 


从 上 面 的 输出 中 可 以 看 出 服务 器 的 recvfromO 调 用 能 够 获取 客户 端 
socket 的 地 址 ， 包 括 临 时 端口 号 ， 不 管 客 户 端 是 否 调用 了 bind()。 


程序 清单 59-3: 使 用 数据 报 socket 的 IPv6 大 小 写 转换 服务 器 

















sockets/i6d ucase sv.c 


#include "i6d_ucase.h" 


int 
main(int argc, char *argv[]) 


struct sockaddr in6 svaddr, claddr; 
int sfd, j; 

ssize_t numBytes; 

socklen_t len; 

char buf[BUF_SIZE]; 

char claddrStr[INET6 ADDRSTRLEN] ; 


sfd = socket(AF INET6, SOCK DGRAM, 0); 
if (sfd == -1) 
errExit("socket"); 


menset(&svaddr, 0, sizeof(struct sockaddr in6)); 

svaddr.sin6_ family = AF_INET6; 

svaddr.sin6 addr = in6éaddr_any; /* Wildcard address */ 
svaddr.sin6_port = htons(PORT_NUM); 


if (bind(sfd, (struct sockaddr *) &svaddr, 
sizeof(struct sockaddr_in6)) == -1) 
errExit("bind"); 


/* Receive messages, convert to uppercase, and return to client */ 


for (;;) { 
len = sizeof(struct sockaddr in6); 
numBytes = recvfrom(sfd, buf, BUF_SIZE, 0, 
(struct sockaddr *) &claddr, &len); 
if (numBytes == -1) 
errExit("recvfrom") ; 


if (inet_ntop(AF_INET6, &claddr.sin6_addr, claddrStr, 
INET6 ADDRSTRLEN) == NULL) 
printf("Couldn't convert client address to string\n"); 
else 
printf("Server received %ld bytes from (%s, %u)\n", 
(long) numBytes, claddrStr, ntohs(claddr.sin6 port)); 


for (j = 0; j < numBytes; j++) 
buf[j] = toupper((unsigned char) buf[j]); 


if (sendto(sfd, buf, numBytes, 0, (struct sockaddr *) &claddr, len) != 
numBytes ) 
fatal("sendto"); 


sockets/i6d ucase sv.c 





程序 清单 59-4: 使 用 数据 报 socket 的 IPv6 大 小 写 转换 客户 端 











sockets/i6d ucase cl.c 
#include "i6d ucase.h" 


int 
main(int argc, char *argv[]) 


struct sockaddr in6 svaddr; 
int sfd, j; 

size_t msgLen; 

ssize t numBytes; 

char resp[BUF SIZE]; 


if (argc < 3 || strcmp(argv[1], "--help") == 0) 
usageErr("%s host-address msg...\n", argv[0]); 


sfd = socket(AF_INET6, SOCK_DGRAM, 0); /* Create client socket */ 
if (sfd == -1) 
errExit("socket") ; 


memset(&svaddr, 0, sizeof(struct sockaddr_in6)); 

svaddr.sin6 family = AF INET6; 

svaddr.sin6 port = htons(PORT_NUM); 

if (inet_pton(AF INET6, argv[1], &svaddr.sin6 addr) <= 0) 
fatal("inet_pton failed for address '%s'", argv[1]); 


/* Send messages to server; echo responses on stdout */ 


for (j = 2; j < argc; j++) { 
msgLen = strlen(argv[j]); 
if (sendto(sfd, argv[j], msgLen, 0, (struct sockaddr *) &svaddr, 
sizeof(struct sockaddr_in6)) != msgLen) 
fatal("sendto"); 


numBytes = recvfrom(sfd, resp, BUF_SIZE, 0, NULL, NULL); 
if (numBytes == -1) 


errExit("recvfrom"); 


printf("Response %d: %.*s\n", j - 1, (int) numBytes, resp); 
} 


exit(EXIT_SUCCESS); 


sockets/iéd_ucase cl.c 


59.8 域名 系统 (DNS) 


在 59.10 节 中 将 会 介绍 获取 与 一 个 主机 名 对 应 的 卫 地 址 的 
getaddrinfo0 函 数 和 执行 逆向 转换 的 getnameinfo0 函 数 ， 但 在 介绍 这 些 函 
数 之 前 需要 解释 如 何 使 用 DNS 来 维护 主机 名 和 卫 地 址 之 间 的 映射 关系 。 


在 DNS 出 现 以 前 ， 主 机 名 和 IP 地 址 之 间 的 映射 关系 是 在 一 个 手工 维 
护 的 本 地 文件 /etc/hosts 中 进行 定义 的 ， 该 文件 包含 了 形 如 下 面 的 记录 。 


# IP-address canonical hostname [aliases | 
127.0.0.1 localhost 


gethostbyname(O 函 数 〈 被 getaddrinfo0 取 代 的 函数 ) 通过 搜索 这 个 文 
件 并 找 出 与 规范 主机 名 〔 即 主机 的 官方 或 主要 名 称 ) 或 其 中 一 个 别名 
《可 选 的 ， 以 空格 分 隔 ) 匹配 的 记录 来 获取 一 个 IP 地 址 。 


然而 ，/etc/hosts 模 式 的 扩展 性 交叉 ， 并 且 随 着 网 络 中 主机 数量 的 增 
长 《如 因特网 中 存在 着 数 以 亿 计 的 主机 ) ， 这 种 方式 已 经 变 得 不 太 可 行 
Ts 

















DNS 被 设计 用 来 解决 这 个 问题 。DNS 的 关键 想法 如 下 。 


。 将 主机 名 组 织 在 一 个 层级 名 空间 中 (图 59-2) 。DNS 层 级 中 的 每 一 
个 节点 都 有 一 个 标签 (名 字 ) ， 该 标签 最 多 可 包含 63 个 字符 。 层 级 
的 根 是 一 个 无 名 子 的 节点 ， 即 “匿名 节点 ”。 











国家 域名 
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(wm ) canterbury 


www. kernel.org. 
( www ) 


图 59-2: DNS 层级 的 一 个 子 集 


一 个 节点 的 域名 由 该 节点 到 根 节 点 的 路 径 中 所 有 节点 的 名 字 连 接 而 
成 ， 各 个 名 字 之 间 用 点 CO 分 隔 。 如 google.com 是 节点 google 的 域 





名 。 

完全 限定 域名 (fully qualified domain name, FQDN) , 4p 
www.kernel.org.， 标 识 出 了 层级 中 的 一 人 台 主 机。 区 分 一 个 元 全 限定 
域名 的 方法 是 看 名 字 是 否 已 点 结尾 ， 但 在 很 多 情况 下 这 个 点 会 被 省 
Bes 




















没有 一 个 组 织 或 系统 会 管理 整个 层级 。 相 反 ， 存 在 一 个 DNS 服务 天 
层级 ， 每 侣 服务 器 管理 树 的 一 个 分 文 〈 一 个 区 域 ) 。 通 常 ， 每 个 区 
域 都 有 一 个 主要 主 名 字 服 务 器 。 此 外 ， 还 包含 一 个 或 多 个 从 名 字 服 
Bits CAINE BAR ATK EE A FIRS a)» ETE RE THR 
Fy tie HUN oe OY HEE KIRARA BY PA BC oa SS FE E E E 
小 的 区 域 。 当 一 台 主 机 被 添加 到 一 个 区 域 中 或 主机 名 到 IP 地 址 之 间 
的 映射 关系 发 生变 化 时 ， 管 理 员 负责 更 新 本 地 名 字 服 务 嘎 上 的 名 字 
ee 
J 


Linux 上 采用 的 DNS 服务 器 实现 是 被 广泛 使 用 的 


BerkeleyInternet Name Domain (BIND) 实现 ，named(8)， 
它 是 由 Internet Systems Consortium (http:/www.isc.org/) 维 护 
的 。 这 个 daemon 的 运作 是 由 文件 /etcnamed.conf 控 制 的 《人 参 
见 named.conf(5) 手 册 ) 。 有 关 DNS 和 BIND 的 关键 参考 资料 
可 以 在 [Albitz & Liu, 2006] 中 找到 。 有 关 DNS 的 信息 也 可 以 
在 [Stevens, 1994] 的 第 14 章 、[Stevens et al., 2004] 的 第 11 章 
以 及 [Comer, 2000] 的 第 24 章 中 找到 。 


。 当 一 个 程序 调用 getaddrinfo() 来 解析 即 获 取 IP 地 址 〉 一 个 域名 时 ， 
getaddrinfo0) 会 使 用 一 组 库 函 数 (resolver 库 ) 来 与 本 地 的 DNS 服务 
器 通信 。 如 果 这 个 服务 器 无 法 提供 所 需 的 信息 ， 那 么 它 就 会 与 位 于 
层级 中 的 其 他 DNS 服 务 器 进行 通信 以 便 获取 信息 。 有 了 时候 ， 这 个 解 
析 过 程 可 能 会 花费 很 多 时 间 ，DNS 服 务 器 采用 了 缓存 技术 来 避免 在 
伍 询 常见 域名 时 所 发 生 的 不 必要 的 通信 。 


使 用 上 面 的 方法 使 得 DNS 能 够 处 理 大 规模 的 名 空间 ， 同 时 无 需 对 名 
字 进 行 集 中 管理 。 


HA VAIS AN A SP IT Ti OR 


DNS 解析 请 求 可 以 分 为 两 类 : 递归 和 迭代 。 在 一 个 递归 请 求 中 ， 请 
求 者 要 求 服 务 器 处 理 整 个 解析 任务 ， 包 括 在 必要 的 时 候 与 其 他 DNS 服务 
器 进行 通信 的 任务 。 当 位 于 本 地 主机 上 的 一 个 应 用 程序 调用 
getaddrinfo0 时 ， 该 函数 会 向 本 地 DNS 服务 器 发 起 一 个 递归 请 求 。 如 果 
本 地 DNS 服 务 器 自己 并 没有 相关 信息 来 完成 解析 ， 那 么 它 就 会 迭代 地 解 
析 这 个 域名 。 


下 面 通过 一 个 例子 来 解释 迭代 解析 。 假 设 本 地 DNS 服务 器 需要 解析 
一 个 名 字 www.otago.ac.nz。 要 完成 这 个 任务 ， 它 首先 与 每 个 DNS 服务 器 
都 知道 的 一 小 组 根 名 字 服 务 器 中 的 一 个 进行 通信 。 《使 用 命令 dig . NS 
或 从 网 页 http:Wwww.root-servers.org/ 上 可 以 获取 这 组 服务 器 列表 。) 给 
定名 字 www.otago.ac.nz， 根 名 字 服 务 器 会 告诉 本 DNS 服务 器 到 其 中 一 侣 
nz DNS 服务 器 上 查询 。 然 后 本 地 DNS 服务 器 会 在 nz 服务 器 上 和 查询 名 字 




















www.otago.ac.nz， 并 收 到 一 个 到 ac.nz 服 务 器 上 查询 的 响应 。 之 后 本 地 
DNS 服 务 器 会 在 ac.nz 服 务 器 上 查询 名 字 www.otago.ac.nz 并 被 告知 查询 
otago.ac.nz 服 务 器 。 最 后 本 地 DNS 服 务 器 会 在 otago.ac.nz 服 务 器 上 查询 
www.otago.ac.nz 并 获取 所 需 的 IP 地 址 。 


如 果 癌 gethostbyname() 传 递 了 一 个 不 完整 的 域名 ， 那 么 解析 器 在 解 
析 之 前 会 尝试 补 例 。 域 名 补 全 的 规则 是 在 /etc/resolv.conf 中 定义 的 (参见 
resolv.conf(5) 手 册 ) 。 在 默认 情况 下 ， 解 析 器 至 少 会 使 用 本 机 的 域名 来 
补 全 。 人 例如， 如果 登录 机 器 oghma.otago.ac.nz 并 输入 了 命令 ssh octavo, 
得 到 的 DNS 查询 将 会 以 octavo.otago.ac.nz 作 为 其 名 字 。 


顶级 域 


紧 跟 在 匿名 根 市 点 下 面 的 节点 被 称 为 项 级 域 CTLD) 。 《在 这 些 之 
下 的 节点 是 二 级 域 ， 以 此 类 推 。) TLD 可 以 分 为 两 类 : 通用 的 和 国家 
的 。 








在 历史 上 存在 七 个 通用 的 TLD， 其 中 大 多 数 都 可 以 被 看 成 是 国际 
的 。 在 图 59-2 中 给 出 了 其 中 4 个 原始 通用 的 TLD。 另 外 三 个 是 int、mil 和 
gov， 其 中 后 两 个 是 保留 给 美国 使 用 的 。 近 来 ， 一 组 新 的 通用 TLD 被 添 
加 进来 了 (如 info、name 以 及 museum) 。 


每 个 国家 都 有 一 个 对 应 的 国家 (或 地 理 ) TLD (在 ISO 3166-1 中 进 
行 了 标准 化 ) ， 它 是 一 个 由 2 个 字符 组 成 的 名 字 。 在 图 59-2 中 给 出 了 其 
中 一 些 : de〈 德 国 ，Deutschland) 、eu〈 欧 洲 联 盟 的 超 国 家 地 理 
TLD) 、nz〈 新 西 兰 ) 以 及 us 美利坚 合众国 ) 。 一 些 国家 将 它们 的 
TLD 划 分 成 一 组 二 级 域名 ， 其 划分 方式 与 通用 域 类 似 。 如 新 西 兰 用 
ac.n0Z〈 学 术 机 构 ) ~ co.nz CRIM) 以 及 govt.nz〈 政 府 ) 。 


59.9 /etc/services X {¢ 


正如 在 58.6.1 节 中 指出 的 那样 ， 众 所 周知 的 端口 号 是 由 IANA 集中 注 
册 的 ， 其 中 每 个 端口 都 有 一 个 对 应 的 服务 名 。 由 于 服务 号 是 集中 管理 并 
且 不 会 像 P 地 址 那样 频繁 变化 ， 因 此 没有 必要 采用 DNS 服 务 器 来 管理 它 
们 。 相 反 ， 奖 口号 和 服务 名 会 记录 在 文件 /etc/services 中 。getaddrinfo0) 
和 A 数 会 使 用 这 个 文件 中 的 信息 在 服务 名 和 端口 号 之 间 进 





# Service name port/protocol [aliases] 


echo 7/tcp Echo # echo service 

echo 7/udp Echo 

ssh 22/tcp # Secure Shell 

ssh 22/udp 

telnet 23/tcp # Telnet 

telnet 23/udp 

smtp 25/tcp # Simple Mail Transfer Protocol 
smtp 25/udp 

domain 53/tcp # Domain Name Server 

domain 53/udp 

http 80/tcp # Hypertext Transfer Protocol 
http 80/udp 

ntp 123/tcp # Network Time Protocol 

ntp 123/udp 

login 513/tcp # rlogin(1) 

who 513/udp # rwho(1) 

shell 514/tcp # rsh(1) 

syslog 514/udp # syslog 


协议 通常 是 tcp 或 dp。 可 选 的 (以 空格 分 阳 〉 别名 指定 了 服务 的 其 
他 名 字 。 此 外 ， 每 一 行 中 都 可 能 会 包含 以 # 字 符 打 头 的 注释 。 


正如 之 前 指出 的 那样 ， 一 个 给 定 的 端口 号 引用 UDP 和 TCP 的 的 唯一 

实体 ， 但 IANA 的 策略 是 将 两 个 端口 都 分 配给 服务 ， 即 使 服务 只 使 用 了 
其 中 一 种 协议 。 如 telnet、ssh、HTTP 以 及 SMTP， 它 们 都 只 使 用 TCP， 

但 对 应 的 UDP 端口 也 被 分 配给 了 这 些 服 务 。 相 应 地 ，NTP 只 使 用 UDP， 
但 TCP 端 口 123 也 被 分 配给 了 这 个 服务 。 在 一 些 情况 中 ， 一 个 服务 既 会 
使 用 TCP 也 会 使 用 UDP，DNS 和 encho 就 是 这 样 的 服务 。 最 后 ， 还 有 一 
些 极 少 出 现 的 情况 会 将 数值 相同 的 UDP 和 TCP 端 口 分 配给 不 同 的 服务 ， 
如 rsh 使 用 TCP 端 口 514， 而 syslog daemon (37.5 节 ) 则 是 使 用 了 UDP 端 
口 514。 这 是 因为 这 些 端 口 在 采用 现行 的 IANA 策略 之 前 就 分 配 出 去 了 。 








/etc/services 文 件 仅仅 记录 着 名 字 到 数字 的 映射 关系 。 
它 不 是 一 种 预 留 机 制 : 在 /etc/services 中 存在 一 个 端口 号 并 
不 能 保证 在 实际 环境 中 特定 的 服务 就 能 够 绑 定 到 该 端口 
站 过 


59.10 ”独立 于 协议 的 主机 和 服务 转换 


getaddrinfo0 函 数 将 主机 和 服务 名 转换 成 卫 地 址 和 端口 号 ， 它 作为 过 
时 的 gethostbyname() 和 getservbyname() 函 数 的 《可 重 入 的 ) 接 蔡 者 被 定 
义 在 了 POSIX.1g 中 。〈( 使 用 getaddrinfo() 蔡 换 gethostbyname0 〇 能 够 从 程序 
中 删除 IPv4 与 TPv6 的 依赖 关系 。) 


getnameinfo0 函 数 是 getaddrinfo0 的 逆 函 数 ， 它 将 一 个 socket 地 址 结 
构 〈IPv4 或 ITPv6) 转换 成 包含 对 应 主机 和 服务 名 的 字符 串 。 这 个 函数 是 
过 时 的 gethostbyaddr() 和 getservbyport(0) 函 数 的 (可 重 入 的 ) 等 价 物 。 


[Stevens et al., 2004] 的 第 11 章 详细 描述 了 getaddrinfo() 和 
getnameinfo()， 并 提供 了 这 些 函 数 的 实现 。RFC 3493 也 对 这 些 函 数 进行 
了 描述 。 

59.10.1 ”getaddrinfo() 函 数 


给 定 一 个 主机 名 和 服务 器 名 ，getaddrinfo0 函 数 返 回 一 个 socket 地 址 
结构 列表 ， 每 个 结构 都 包含 一 个 地 址 和 端口 号 。 





#include <sys/socket.h> 
#include <netdb.h> 


int getaddrinfo(const char *host, const char *service, 
const struct addrinfo *hints, struct addrinfo **result); 








Returns 0 on success, or nonzero on error 





成 功 时 返回 0， 发 生 错误 时 返回 非 零 值 。 


getaddrinfo() 以 host、service 以 及 hints 参 数 作 为 输入 ， 其 中 host 参 数 
包含 一 个 主机 名 或 一 个 以 IPv4 点 分 十 进 制 标记 或 IPv6 十 六 进 制 字 符 串 标 
记 的 数值 地 址 字符 串 。 《准确 地 讲 ，getaddrinfo0 接 受 在 59.13.1 节 中 描 
述 的 更 通用 的 数字 和 点 标记 的 IPv4 数 值 字符 串 。) service 参 数 包 含 一 个 
服务 名 或 一 个 十 进 制 端口 号 。hints 参 数 指 癌 一 个 addrinfo 结 构 ， 访 结构 
规定 了 选择 通过 result 返 回 的 socket 地 址 结构 的 标准 。 稍 后 会 介绍 有 关 
hints 参 数 的 更 多 细 市 。 








getaddrinfo0 会 动态 地 分 配 一 个 包含 addrinfo 结 构 的 链表 并 将 result 指 
问 这 个 列表 的 表 头 。 每 个 addrinfo 结 构 包 含 一 个 指 同 与 host 和 service 对 应 
的 socket 地 址 结构 的 指针 (图 59-3) 。addrinfo 结 构 的 形式 如 下 。 


struct addrinfo { 


int ai flags; /* Input flags (AI * constants) */ 

int ai family; /* Address family */ 

int ai_socktype; /* Type: SOCK STREAM, SOCK DGRAM */ 

int ai_protocol; /* Socket protocol */ 

size_t ai_addrlen; /* Size of structure pointed to by ai_addr */ 
char *ai_canonname; /* Canonical name of host */ 


struct sockaddr *ai_addr; /* Pointer to socket address structure */ 
struct addrinfo *ai next; /* Next structure in linked list */ 


IE 


addrinfo canonical 
result 结构 主机 名 


ET 


ai_canonname socket 地 址 结构 


at_addr 
ai_next 





ai_ addr 
ai_next 





ai_addr 
ai_next 





图 59-3: getaddrinfo() 分 配 和 返回 的 结构 


result 参 数 返回 一 个 结构 列表 而 不 是 单个 结构 ， 因 为 与 在 host、 


service 以 及 hints 中 指定 的 标准 对 应 的 主机 和 服务 组 合 可 能 有 多 个 。 如 碍 
询 拥 有 多 个 网 络 接口 的 主机 时 可 能 会 返回 多 个 地 址 结构 。 此 外 ， 如 果 将 








hints.ai_socktype 指 定 为 0， 那 么 就 可 能 会 返回 两 个 结构 ss 人 用 于 
SOCK_DGRAM socket， 男 一 个 用 于 SOCK_STREAM socket 前 提 是 


给 定 的 service 同 时 对 TCP 和 UDP 可 用 。 


通过 result 返 回 的 addrinfo 结 构 的 字段 描述 了 关联 socket 地 址 结构 的 属 
性 。ai_family 字 段 会 被 设置 成 AF_INET 或 AF_INET6， 表 示 该 socket 地 址 
结构 的 类 型 。ai_socktype 字 段 会 被 设置 成 SOCK_STREAM 或 
SOCK_DGRAM， 表 示 这 个 地 址 结构 是 用 于 TCP 服 务 还 是 用 于 UDP 服 
务 。ai_protocol 字 段 会 返回 与 地 址 族 和 socket 类 型 匹配 的 协议 值 。 

(ai_family、ai_socktype 以 及 ai_protocol 三 个 字段 为 调用 socket() 创 建 该 

地 址 上 的 socket 时 所 需 的 参数 提供 了 取 值 。) ai_addrlen 字 段 给 出 了 
ai_addr 指 癌 的 socket 地 址 结构 的 大 小 〈 字 节 数 ) 。in_addr 字 上 段 指 同 socket 
地 址 结构 〈IPv4 时 是 一 个 in_addr 结 构 ，IPv6 时 是 一 个 in6_addr 结 构 ) 。 
ai_flags 字 上 段 示 用 〈 它 用 于 hints 参 数 ) 。ai_canonname 字 段 仅 由 第 一 个 
addrinfo 结 构 使 用 并 且 其 前 提 是 像 下 面 所 摘 述 的 那样 在 hints.ai_flags 中 使 
用 了 AL CANONNAME 字 段 。 


与 gethostbyname() 一 样 ，getaddrinfo() 可 能 需要 同一 台 DNS 服 务 右 发 
送 一 个 请 求 ， 并 且 这 个 请 求 可 能 需要 花费 一 段 时 间 来 完成 。 同 样 的 过 程 
也 适用 于 getnameinfo0)， 有 具体 可 参考 59.10.4 节 中 的 描述 。 


在 59.11 节 中 将 会 演示 如 何 使 用 getaddrinfo()。 
hints 参 数 


hints 参 数 为 如 何 选 择 getaddrinfo() 返 回 的 socket 地 址 结构 指定 了 更 多 
的 标准 。 当 用 作 hints 参 数 时 只 能 设置 addrinfo 结 构 的 ai_flags、 
ai_family、ai_socktype 以 及 ai_protocol 字 段 ， 其 他 字段 未 用 到 ， 并 将 应 访 
根据 具体 情况 将 其 初始 化 为 0 或 NULL。 


hints.ai_family 字 段 选 择 了 返回 的 socket 地 址 结构 的 域 ， 其 取 值 可 以 
是 AF_INET 或 AF_INET6 (或 其 他 一 些 AF_* 和 常量 ， 只 要 实现 支持 它 
们 ) 。 如 果 需 要 获取 所 有 种 类 socket 地 址 结构 ， 那 么 可 以 将 这 个 字段 的 
值 指定 为 AF_ UNSPEC。 


hints.ai_socktype 字 段 指定 了 使 用 返回 的 socket 地 址 结构 的 socket 类 





型 。 如 果 将 这 个 字段 指定 为 SOCK_DGRAM， 那 么 查询 将 会 在 UDP 服务 
上 执行 ， 对 应 的 socket 地 址 结构 会 通过 result 返 回 。 如 果 指 定 了 
SOCK_STREAM， 那 么 将 会 执行 一 个 TCP 服 务 查 询 。 如 果 将 
hints.ai_socktype 指 定 为 0， 那 么 任意 类 型 的 socket 都 是 可 接受 的 。 


hints.ai_protocol 字 段 为 返回 的 地 址 结构 选择 了 socket 协 议 。 在 本 书 
中 ， 这 个 字段 的 值 总 是 会 被 设置 为 0， 表 示 调 用 者 接受 任何 协议 。 

hints.ai_flags 字 上 段 是 一 个 位 掩 码 ， 它 会 改变 getaddrinfo() 的 行为 。 这 
个 字段 的 取 值 是 下 列 值 中 的 零 个 或 多 个 取 OR 得 来 的 。 


AI_ADDRCONFIG 


在 本 地 系统 上 至 少 配置 了 一 个 IPv4 地 址 时 返回 IPv4 地 址 〈 不 是 IPv4 
回环 地 址 ) ， 在 本 地 系统 上 至 少 配置 了 一 个 IPv6 系 统 时 返回 也 v6 地 址 
(不 是 IPv6 回 环 地 址 ) 。 


AI_ALL 








参见 下 面 对 AI V4MAPPED 的 描述 。 
AI_CANONNAME 


如 果 host 不 为 NULL， 那 么 返回 一 个 指 同 以 null 结 尾 的 字符 串 ， 该 字 
符 串 包含 了 主机 的 规范 名 。 这 个 指针 会 在 通过 result 返 回 的 第 一 个 
addrinfo 结 构 中 的 ai_ canonname 字 段 指 向 的 缓冲 器 中 返回 。 


AI_NUMERICHOST 


强制 将 host 解 释 成 一 个 数值 地 址 字符 串 。 这 个 常量 用 于 在 不 必要 解 
析 名 字 时 防止 进行 名 字 解 析 ， 因 为 名 字 解 析 可 能 会 花费 较 长 的 时 间 。 


AI_NUMERICSERV 


将 service 解 释 成 一 个 数值 端口 号 。 这 个 标记 用 于 防止 调用 任意 的 名 
为 当 service 为 一 个 数值 字符 串 时 这 种 调用 是 没有 必要 
Ji 








AI_PASSIVE 


返回 一 个 适合 进行 被 动 式 打 开 〈 即 一 个 监听 socket) HsocketHh hk 245 
构 。 在 这 种 情况 下 ，host 应 该 是 NULL， 通 过 result 返 回 的 socket 地 址 结构 
的 卫 地 址 部 分 将 会 包含 一 个 通 配 卫 地 址 〈 即 INADDR_ANY 或 
IN6ADDR_ANY_INIT) 。 如 果 没 有 设置 这 个 标记 ， 那 么 通过 result 返 回 
的 地 址 结构 将 能 用 于 connect() 和 sendto(); 如 果 host 为 NULL， 那 么 返回 
的 socket 地 址 结构 中 的 IP 地 址 将 会 被 设置 成 回环 IP 地 址 (根据 所 处 的 
域 ， 其 值 为 INADDR_LOOPBACK 或 IN6ADDR_LOOPBACK INIT) 。 


AI_V4MAPPED 


如 有 果 在 hints 的 ai_family 字 上段 中 指定 了 AF_INET6， 那 么 在 没有 找到 
匹配 的 IPv6 地 址 时 应 该 在 result 返 回 IPv4 映 射 的 IPv6 地 址 结构 。 如 果 同 时 
SE SALALLAIAL V4MAPPED， 那 么 在 result 中 会 同时 返回 IPV6 和 
IPv4 地 址 ， 其 中 IPv4 地 址 会 被 返回 成 IPv4 映 射 的 IPv6 地 址 结构 。 


正如 前 面 介 绍 AL PASSIVE 时 指出 的 那样 ，host 可 以 被 指定 为 
NULL。 上 此外， 还 可 以 将 service 指 定 为 NULL， 在 这 种 情况 下 ， 返 回 的 地 
址 结构 中 的 端口 号 会 被 设置 为 0 〈 即 只 关心 将 主机 名 解析 成 地 址 ) 。 然 
而 无 法 将 host 和 和 service 同时 指定 为 NULL。 


如 果 无 需 在 hints 中 指定 上 述 的 选取 标准 ， 那 么 可 以 将 hints 指 定 为 
NULL， 在 这 种 情况 下 会 将 ai_socktype 和 ai_protocol 假 设 为 0， 将 ai_flags 
假设 为 (AL V4MAPPED | AL ADDRCONFIG) ， 将 ai_family 假 设 为 
AF_UNSPEC. (glibc 实 现 有 意 与 SUSv3 背 道 而 驰 ， 它 声称 如 果 hints 为 
NULL， 那 么 会 将 ai_flags 假 设 为 0。) 





59.10.2 ”释放 addrinfo 列 表 : freeaddrinfo() 


getaddrinfo0O 函 数 会 动态 地 为 result 引 用 的 所 有 结构 分 配 内 存 〈 图 59- 
3) ， 其 结果 是 调用 者 必须 要 在 不 再 需要 这 些 结构 时 释放 它们 。 使 用 
freeaddrinfo0 函 数 可 以 方便 地 在 一 个 步骤 中 执行 这 个 释放 任务 。 








#include <sys/socket.h> 
#include <netdb.h> 








void freeaddrinfo(struct addrinfo *result); 





如 果 和 希望 保留 addrinfo 结 构 或 其 关联 的 socket 地 址 结构 的 一 个 副本 ， 


那么 必须 要 在 调用 freeaddrinfo() 之 前 复制 这 些 结构 。 
59.10.3 ”错误 诊断 : gai_strerror() 
getaddrinfo() 在 发 生 错 误 时 会 返回 表 59-1 中 给 出 的 一 个 非 零 错误 人 码 。 


表 59-1 getaddrinfo() 和 getnameinfo() 返 回 的 错误 码 


在 hints.ai_family 中 不 存在 host 的 地 址 (没有 在 SUSv3 中 规定 ， 
PAADDRFAMILY | 但 大 多 数 实现 都 对 其 进行 了 定义 ， 仅 供 getaddrinfo0 使 用 ) 


EAI AGAIN 名 字 解 析 过 程 中 发 生 临 时 错误 〈 稍 后 重 试 ) 


在 hints.ai_flags 中 指定 了 一 个 无 效 的 标记 
EAILFAIL “| 访问 名 字 服务 器 时 发 生 了 无 法 恢复 的 故障 


EAL FAMILY 不 支持 在 hints.ai_family 中 指定 的 地 址 族 


全 







































































没有 与 host 关 联 的 地 址 (没有 在 SUSv3 中 规定 ， 但 大 多 数 实现 
ee See 都 对 其 进行 了 定义 ， 仅 供 getaddrinfo0 使 用 ) 

未 知 的 host 或 service， 或 host 和 service 都 为 NULL， 或 指定 了 
EAL Me AL NUMERICSERV 同 时 service 没 有 指向 一 个 数值 字符 串 


EAI OVERFLOW “| 参数 缓冲 器 溢出 
EAI SERVICE hints.ai_socktype 不 支持 指定 的 service ({ fi getaddrinfo(){# A 
EAI SOCKTYPE 不 支持 指定 的 hints.ai _socktype〈 仅 供 getaddrinfo0 使 用 ) 


EAL SYSTEM 通过 errmno 返 回 的 系统 错误 


















































给 定 表 59-1 中 列 出 的 一 个 错误 码 ，gai_strerror(0) 函 数 会 返回 一 Aa 
该 错误 的 字符 串 。 该 字符 串通 常 比 表 59-1 中 给 出 的 摘 述 更 加 简洁。) 





#include <netdb.h> 


const char *gai strerror(int errcode); 


Returns pointer to string containing crror message 











gai_strerror(0 返 回 的 字符 串 可 以 作为 应 用 程序 显示 的 错误 消息 的 一 


部 分 。 


了 Ht 


59.10.4 ”getnameinfo(0 函 数 


getnameinfo() 疯 数 是 getaddrinfo() 的 逆 疯 数 。 给 定 一 个 socket 地 址 结 
构 IPv4 或 IpPv6) ， 它 会 返回 一 个 包含 对 应 的 主机 和 服务 名 的 字符 囊 或 
者 在 无 法 解析 名 字 时 返回 一 个 等 价 的 数值 。 





#include <sys/socket.h> 
#include <netdb.h> 


int getnameinfo(const struct sockaddr *addr, socklen_t addrlen, char *host, 
size_t hostlen, char *service, size_t servlen, int flags); 


Returns 0 on success, OT nonzero ON error 











addr 参 数 是 一 个 指向 待 转换 的 socket 地 址 结构 的 指针 ， 该 结构 的 长 
度 是 由 addrlen 指 定 的 。 通 常 ，addr 和 addrlen 的 值 是 从 accept()、 
recvfrom()、getsockname() 或 getpeername() 调 用 中 获得 的 。 


得 到 的 主机 和 服务 名 是 以 null 结 尾 的 字符 串 ， 它 们 会 被 存储 在 host 
和 service 指 向 的 缓冲 器 中 。 调 用 者 必须 要 为 这 些 缓冲 器 分 配 空间 并 将 它 
们 的 大 小 传 入 hostlen 和 servlen。<netdb.h> 汰 文件 定义 了 两 个 常量 来 辅助 
计算 这 些 缓冲 器 的 大 小 。NL MAXHOST 指 出 了 返回 的 主机 名 字符 串 的 
最 大 字 节 数 ， 其 取 值 为 1025。NL MAXSERV 指 出 了 返回 的 服务 名 字符 
串 的 最 大 字 节 数 ， 其 取 值 为 32。 这 两 个 常量 没有 在 SUSv3 中 得 到 规定 ， 
但 所 有 提供 getnameinfo0 的 UNIX 实 现 都 对 它们 进行 了 定义 。 (从 glibc 
2.8 起 ， 必 须要 定义 BSD_ SOURCE、_SVID_SOURCE 或 
_GNU_SOURCE 中 的 其 中 一 个 特性 文本 宏 才 能 获取 NI_MAXHOST 和 和 
NI MAXSERV 的 定义 。 ) 


如 果 不 想 获取 主机 名 ， 那 么 可 以 将 host 指 定 为 NULL 并 且 将 hostlen 
指定 为 0。 同 样 地 ， 如 果 不 需 要 服务 名 ， 那 么 可 以 将 service 指 定 为 NULL 
并 且 将 servlen 指 定 为 0。 但 是 host 和 service 中 至 少 有 一 个 必须 为 非 NULL 
值 〈“ 并 且 对 应 的 长 度 参 数 必 须 为 非 零 ) 。 


最 后 一 个 参数 fags 是 一 个 位 掩 码 ， 它 控制 着 getnameinfo0) 的 行为 ， 
其 取 值 为 下 面 这 些 常量 取 OR。 


NL DGRAM 





在 默认 情况 下 ，getnameinfo0 返 回 与 流 socket CRUTCP) 服务 对 应 的 
名 字 。 通 常 ， 这 是 无 关 紧 要 的 ， 因 为 正如 59.9 节 中 指出 的 那样 ， 与 TCP 
和 UDP 端口 对 应 的 服务 名 通常 是 相同 的 ， 但 在 一 些 名 字 不 同 的 场景 中 ， 
NI DGRAM 标 记 会 强制 返回 数据 报 socket (UDP) 服务 的 名 字 。 


NI_LNAMEREQD 


在 默认 情况 下 ， 如 果 无 法 解析 主机 名 ， 那 么 在 host 中 会 返回 一 个 数 
值 地 址 字符 串 。 如 果 指 定 了 NI_NAMEREQD， 那 么 就 会 返回 一 个 错误 
(EAI NONAME) 。 








NI_LNOFQDN 


在 默认 情况 下 会 返回 主机 的 完全 限定 域名 。 指 定 NI_NOFQDN 标 记 
会 导致 当主 机 位 于 局 域 网 中 时 只 返回 名 字 的 第 一 部 分 ( 即 主机 名 ) 。 


NI_NUMERICHOST 


强制 在 host 中 返回 一 个 数值 地 址 字符 串 。 这 个 标记 在 需要 避免 可 能 
耗 时 较 长 的 DNS 服 务 费 调用 时 是 比较 有 用 的 。 


NI_NUMERICSERV 

强制 在 service 中 返回 一 个 十 进 制 端口 号 字符 串 。 这 个 标记 在 知道 端 
口号 不 对 应 于 服务 名 时 一 一 如 和 它 是 一 个 由 内 核 分 配给 socket 的 临时 疹 口 
号 一 一 以 及 需要 避免 不 必要 的 搜索 /etc/services 的 低 效 性 时 是 比较 有 用 
的 。 


getnameinfo0 在 成 功 时 会 返回 0， 发 生 错 误 时 会 返回 表 59-1 中 给 出 的 
其 中 一 个 非 零 错误 码 。 











59.11 客户 病 / 服 务 器 示例 〈( 流 式 socket) 


现在 已 经 可 以 介绍 一 个 简单 的 使 用 TCP socket 的 客户 并 /服务 句 应 用 
程序 了 。 这 个 应 用 程序 执行 的 任务 与 44.8 节 中 给 出 的 FIFO 客 户 并 /服务 占 
应 用 程序 所 执行 的 任务 是 一 样 的 : 给 客户 病 分 配 唯 一 的 序号 〈 或 一 组 序 
号 ) 。 


为 处 理 服 务 器 和 客户 端 主机 可 能 以 不 同 的 格式 来 表示 整数 的 情况 ， 
需要 将 所 有 传输 的 整数 编码 成 以 换行 符 结尾 的 字符 串 并 使 用 readLine(O) 
函数 程序 清单 59-1) 来 读 取 这 些 字符 串 。 


AREI 


HRI ARA 7 i AR ies e L A AENT A 59-545 H AIAX. IRS CE 
包含 了 其 他 各 种 头 文件 并 定义 了 应 用 程序 使 用 的 TCP 端 口号 。 


服务 器 程序 
程序 清单 59-6 给 出 的 服务 器 程序 执行 了 下 列 任务 。 


。 将 服务 器 的 序号 初始 化 为 1 或 通过 可 选 的 命令 行 参数 提供 的 值 上 四。 

e 忽略 SIGPIPE 信 号 人 。 这 样 就 能 够 防止 服务 器 在 尝试 向 一 个 对 端 已 

经 被 关闭 的 socket 写 入 数据 时 收 到 SIGPIPE 信 号 ; 反之 ，write() 会 失 

败 并 返回 EPIPE 错 误 。 

调用 getaddrinfo0 约 获取 使 用 端口 号 PORT_NUM 的 TCP socket 的 

socket 地 址 结构 组 。 (通常 会 使 用 一 个 服务 名 ， 而 不 会 使 用 一 个 便 

编码 的 端口 号 。) 这 里 指定 了 AL PASSIVE 标 记 @， 这 样 得 到 的 

socket 会 被 绑 定 到 通 配 地 址 上 (58.5 节 ) ， 其 结果 是 当 服 务 器 运行 

人 
ETEK 0 
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让 2H o 

。 在 上 一 步 创 建 的 socket 上 设置 SO_REUSEADDR 选 项 @。 有 关 这 个 
选项 的 讨论 将 会 放 在 61.10 节 中 进行 ， 在 那 一 节 中 将 会 指出 一 个 TCP 
服务 器 通常 应 该 在 其 监听 socket 上 设置 这 个 选项 。 








e 将 socket 标 记 成 一 个 监听 socketG@)。 

。 开启 一 个 无 限 的 for 循 环 @ 以 迭代 服务 客户 端 (第 60 章 ) 。 每 个 客户 
端的 请 求 会 在 接受 下 一 个 客户 端的 请 求 之 前 得 到 服务 。 对 于 每 个 客 
户 端 ， 服 务 器 将 会 执行 下 列 任务 。 

o 接受 一 个 新 连接 0。 服 务 器 各 acceptO 的 第 二 个 和 第 三 个 参数 
传 入 了 一 个 非 NULL 指 针 以 便 获 取 客 户 端的 地 址 。 服 务 堪 会 在 
标准 输出 上 显示 客户 端的 地 址 四 〈IP 地 址 加 上 端口 号 ) 。 

o 读 取 客户 端的 消息 加， 该 消息 由 一 个 以 换行 符 结尾 的 指定 了 客 








户 端 请 求 的 序号 数量 的 字符 串 构 成 。 服 务 器 将 这 个 字符 串 转 换 
成 一 个 整数 并 将 其 存储 在 变量 reqLen 中 。 








o 将 序号 的 当前 值 (seqNum) 发 回 给 客户 端 并 将 该 值 编 码 成 一 
个 以 换行 符 结尾 的 字符 串 人 多 。 客 户 端 可 以 假定 它 已 经 分 配 到 了 
范围 在 seqNum 到 (seqNum + reqLen-1) 之 间 的 序号 。 

o 将 reqLen 加 到 seqNum 上 以 更 新 服务 器 的 序号 值 (9。 


#include <netinet/in.h> 
#include <sys/socket.h> 
#include <signal.h> 
#include "read line.h" 
#include "tlpi hdr.h" 


#define PORT_NUM "50000" 


#define INT LEN 30 






































程序 清单 59-5: is_seqnum_sv.c 和 is_seqnum_clc 使 用 的 头 文 件 














sockets/is_seqnum.h 


/* Declaration of readLine() */ 


/* Port number for server */ 


/* Size of string able to hold largest 
integer (including terminating '\n') */ 
sockets/is_seqnum.h 








程序 清单 59-6: ( Alvitsockety 7% im EITE fea HIE NTRS a 














一 sockets/is_seqnum sv.c 
#define BSD SOURCE /* To get definitions of NI MAXHOST and 
NI_MAXSERV from <netdb.h> */ 
#include <netdb.h> 
#include "is seqnum.h" 


#tdefine BACKLOG 50 


int 
main(int argc, char *argv[]) 


uint32_t seqNum; 
char reqLenStr[INT_LEN]; /* Length of requested sequence */ 
char seqNumStr[ INT LEN]; /* Start of granted sequence */ 
struct sockaddr_storage claddr; 
int lfd, cfd, optval, reqLen; 
socklen_t addrlen; 
struct addrinfo hints; 
struct addrinfo *result, *rp; 
#define ADDRSTRLEN (NI MAXHOST + NI_MAXSERV + 10) 
char addrStr[ADDRSTRLEN]; 
char host[NI MAXHOST]; 
char service[NI MAXSERV]; 


if (argc > 1 && strcmp(argv[1], "--help") == 0) 
usageErr("%s [init-seq-num]\n", argv[0]); 


seqNum = (argc > 1) ? getInt(argv[1], 0, "“init-seq-num") : 0; 


if (signal(SIGPIPE, SIG IGN) == SIG ERR) 
errExit("signal"); 


/* Call getaddrinfo() to obtain a list of addresses that 
we can try binding to */ 


memset(&hints, 0, sizeof(struct addrinfo)); 
hints.ai_canonname = NULL; 
hints.ai_addr = NULL; 
hints.ai_next = NULL; 
hints.ai_socktype = SOCK STREAM; 
hints.ai_family = AF_UNSPEC; /* Allows IPv4 or IPv6 */ 
hints.ai_flags = AI_PASSIVE | AI_NUMERICSERV; 
/* Wildcard IP address; service name is numeric */ 
if (getaddrinfo(NULL, PORT_NUM, &hints, &result) != 0) 
errExit("getaddrinfo") ; 


/* Walk through returned list until we find an address structure 
that can be used to successfully create and bind a socket */ 


optval = 1; 
for (rp = result; rp != NULL; rp = rp->ai_next) { 
lfd = socket(rp->ai_family, rp->ai_socktype, rp->ai_protocol); 
if (Ifd == -1) 
continue; /* On error, try next address */ 


if (setsockopt(1fd, SOL_SOCKET, SO REUSEADDR, &optval, sizeof(optval)) 
== -1) 
errExit("setsockopt"); 


if (bind(1fd, rp->ai_addr, rp->ai_addrlen) == 0) 
break; /* Success */ 


/* bind() failed: close this socket and try next address */ 


close(1fd); 
} 


if (rp == NULL) 
fatal("Could not bind socket to any address"); 


if (listen(1fd, BACKLOG) == -1) 
errExit("listen"); 


freeaddrinfo(result) ; 
for CJA /* Handle clients iteratively */ 
/* Accept a client connection, obtaining client's address */ 


addrlen = sizeof(struct sockaddr_storage); 
cfd = accept(1fd, (struct sockaddr *) &claddr, &addrlen); 
if (cfd == -1) { 

errMsg ("accept"); 

continue; 


} 


if (getnameinfo((struct sockaddr *) &claddr, addrlen, 
host, NI MAXHOST, service, NI_MAXSERV, 0) == 0) 
snprintf(addrStr, ADDRSTRLEN, "(%s, %s)", host, service); 
else 
snprintf(addrStr, ADDRSTRLEN, "(?UNKNOWN?)"); 
printf("Connection from %s\n", addrStr) ; 


/* Read client request, send sequence number back */ 


if (readLine(cfd, reqlenStr, INT_LEN) <= 0) { 


close(cfd); 
continue; /* Failed read; skip request */ 
} 
reqLen = atoi(reqLenStr) ; 
if (reqLen <= 0) { /* Watch for misbehaving clients */ 
close(cfd); 
continue; /* Bad request; skip it */ 
} 


snprintf(seqNumStr, INT LEN, "%d\n", seqNum); 
if (write(cfd, &seqNumStr, strlen(seqNumStr)) != strlen(seqNumStr)) 
fprintf(stderr, "Error on write"); 


® seqNum += reqLen; /* Update sequence number */ 


if (close(cfd) == -1) /* Close connection */ 
errMsg("close"); 


sockets/is_seqnum_sv.c 
sig RE PF 


程序 清单 59-7 给 出 了 客户 端 程序 。 这 个 程序 接受 两 个 参数 。 第 一 个 
参数 是 运行 服务 器 的 主机 名 ， 该 参数 是 必需 的 。 第 二 个 可 选 的 参数 是 客 
户 端 所 需 的 序号 长 度 。 默 认 的 长 度 是 1。 客 户 端 执行 了 下 列 任务 ， 


。 调用 getaddrinfo() 获 取 一 组 适合 连接 到 绑 定 在 指定 主机 上 的 TCP 服 务 
器 的 socket 地 址 结构 Q)。 对 于 端口 号， 客户 端 会 将 其 指定 为 
PORT NUM。 

。 进入 一 个 循环 所 遍历 上 一 步 中 返回 的 socket 地 址 结构 直到 客户 端 找 
到 一 个 能 够 成 功用 来 创建 所 并 连接 约 到 服务 器 socket 的 地 址 结构 为 
止 。 由 于 客户 端 不 会 绑 定 其 socket， 因 此 connectO 调 用 会 导致 内 核 
为 该 socket 分 配 一 个 临时 端口 。 

。 发 送 一 个 整数 指定 客户 端 所 需 的 序号 长 度 。 这 个 整数 将 会 被 编码 
成 以 换行 符 结 尾 的 字符 串 来 发 送 。 

。 读 取 服 务 器 发 送 回 来 的 序号 (同样 也 是 一 个 以 换行 人 符 结 尾 的 字符 
串 )@ 并 将 其 打印 到 标准 输出 上 @。 


当 在 同一 台 主 机 上 运行 服务 器 和 客户 端 上 时 会 看 到 下 列 输 出 。 


$ ./is seqnum sv & 











[1] 4075 

$ ./is_seqnum_cl localhost Client 1: requests 1 sequence number 
Connection from (localhost, 33273) Server displays client address + port 
Sequence number: 0 Client displays returned sequence number 
$ ./is_seqnum_cl localhost 10 Client 2: requests 10 sequence numbers 


Connection from (localhost, 33274) 

Sequence number: 1 

$ ./is_seqnum_cl localhost Client 3: requests 1 sequence number 
Connection from (localhost, 33275) 

Sequence number: 11 


下 面 演示 了 如 何 使 用 telnet 来 调试 这 个 应 用 程序 。 


$ telnet localhost 50000 Our server uses this port number 
Empty line printed by telnet 

Trying 127.0..0.1... 

Connection from (localhost, 33276) 

Connected to localhost. 

Escape character is '^]'. 


1 Enter length of requested sequence 
12 telnet displays sequence number and 
Connection closed by foreign host. detects that server closed connection 


在 上 面 的 shell 会 话 日 志 中 可 以 看 出 内 核 按 序 循环 使 用 
临时 端口 号 。 (其 他 实现 也 表现 出 了 类 似 的 行为 。) 在 
Linuxz 上 ， 这 个 行为 是 最 小 化 对 内 核 的 本 地 socket 绑 定 关 系 
表 的 哈 希 查询 的 结果 。 当 到 达 这 些 数 字 的 上 限时 内 核 会 从 
范围 的 下 限 “〈 由 Linux 特 有 
的 /proc/sys/neUipv4/ip_local_port_range 文 件 定义 ) 开始 重新 
分 配 一 个 可 用 的 数字 。 


程序 清单 59-7: 使 用 流 socket 的 客户 端 





OLS 


一 sockets/is seqnum cl.c 


#include <netdb.h> 
#include “is seqnum.h" 


int 

main(int argc, char *argv[]) 

{ 
char *reqLenStr; /* Requested length of sequence */ 
char seqNumStr[INT LEN]; /* Start of granted sequence */ 
int cfd; 


ssize t numRead; 
struct addrinfo hints; 
struct addrinfo *result, *rp; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s server-host [sequence-len]\n", argv[0]); 


/* Call getaddrinfo() to obtain a list of addresses that 
we can try connecting to */ 


memset(&hints, 0, sizeof(struct addrinfo)); 

hints.ai_canonname = NULL; 

hints.ai_addr = NULL; 

hints.ai_next = NULL; 

hints.ai_family = AF_UNSPEC; /* Allows IPv4 or IPv6 */ 
hints.ai_socktype = SOCK_STREAM; 

hints.ai_flags = AI_NUMERICSERV; 


if (getaddrinfo(argv[1], PORT NUM, &hints, &result) != 0) 
errExit("getaddrinfo"); 


/* Walk through returned list until we find an address structure 
that can be used to successfully connect a socket */ 


for (rp = result; rp != NULL; rp = rp->ai_next) { 
cfd = socket(rp->ai_family, rp->ai_socktype, rp->ai_protocol); 
if (cfd == -1) 
continue; /* On error, try next address */ 
if (connect(cfd, rp->ai_addr, rp->ai_addrlen) != -1) 


break; /* Success */ 


/* Connect failed: close this socket and try next address */ 


close(cfd); 
} 


if (rp == NULL) 
fatal("Could not connect socket to any address"); 


freeaddrinfo(result) ; 
/* Send requested sequence length, with terminating newline */ 
reqLenStr = (argc > 2) ? argv[2] : "1"; 
if (write(cfd, reqLenStr, strlen(reqLenStr)) != strlen(reqLenStr)) 
fatal("Partial/failed write (reqLenStr)"); 
if (write(cfd, "\n", 1) l= 1) 
fatal("Partial/failed write (newline)"); 
/* Read and display sequence number returned by server */ 
numRead = readLine(cfd, seqNumStr, INT LEN); 
if (numRead == -1) 
errExit("readLine"); 
if (numRead == 0) 
fatal("Unexpected EOF from server"); 


printf("Sequence number: %s", seqNumStr); /* Includes ‘\n' */ 


exit(EXIT_SUCCESS) ; /* Closes ‘cfd' */ 


sockets/is_seqnum_cl.c 


59.12 Internet domain socket 库 


本 节 将 使 用 59.10 节 中 介绍 的 函数 来 实现 一 个 函数 库 ， 它 执行 了 使 
用 Internet domain socket REI 的 常见 任务 。 (这 个 库 对 59.11 节 中 给 出 
的 示例 程序 中 的 很 多 任务 都 进行 了 抽象 。〉 由 于 这 些 函 数 使 用 了 协议 独 
并 的 getaddrinfo() 和 getnameinfo() 函 数 ， 因 此 它们 既 可 以 用 于 IPv4 也 可 以 
用 于 IPv6。 程 序 清 单 59-8 给 出 了 声明 这 些 函 数 的 头 文件 。 


这 个 库 中 的 很 多 函数 都 接收 类 似 的 参数 。 


。 host 参 数 是 一 个 字符 串 ， 它 包含 一 个 主机 名 或 一 个 数值 地 址 《以 
IPv4 的 点 分 十 进 制 表示 或 IPv6 的 十 六 进 制 字符 串 表 示 ) 。 或 者 也 可 
以 将 host 指 定 为 NULL 来 表明 使 用 回环 IP 地 址 。 

© service 参 数 是 一 个 服务 名 或 者 古 一 个 以 十 进 制 字 符 串 表示 的 端口 
— 

© type 参 数 是 socket 的 类 型 ， 其 取 值 为 SOCK_STREAM 或 
SOCK_DGRAM. 





























程序 清单 59-8: inet_sockets.c 使 用 的 头 文 件 




















sockets/inet_sockets.h 


#ifndef INET SOCKETS H 
#define INET SOCKETS H /* Prevent accidental double inclusion */ 


#include <sys/socket.h> 
#include <netdb.h> 


int inetConnect(const char *host, const char *service, int type); 
int inetListen(const char *service, int backlog, socklen t *addrlen); 
int inetBind(const char *service, int type, socklen_t *addrlen); 


char *inetAddressStr(const struct sockaddr *addr, socklen t addrlen, 
char *addrStr, int addrStrLen); 


Hdefine IS ADDR STR LEN 4096 
/* Suggested length for string buffer that caller 
should pass to inetAddressStr(). Must be greater 
than (NI MAXHOST + NI MAXSERV + 4) */ 
#endif 


YN Sockets/inet sockets.h 


inetConnect() 函 数 根据 给 定 的 socket type 创 建 一 个 socket 并 将 其 连接 
到 通过 host 和 service 指 定 的 地 址 。 这 个 函数 可 供需 将 自己 的 Socket 连 接 到 
一 个 服务 器 socket 的 TCP 或 UDP 客户 端 使 用 。 








#include “inet sockets.h" 


int inetConnect(const char *host, const char *service, int type); 


Returns a file descriptor on success, or -1 on error 











新 socket 的 文件 描述 符 会 作为 函数 结果 返回 。 


inetListen0) 函 数 创建 一 个 监听 流 〈SOCK_STREAM socket, i% 
socket 会 被 绑 定 到 由 service 指 定 的 TCP 端 口 的 通 配 卫 地 址 上。 这 个 函数 被 
设计 供 TCP 服 务 器 使 用 。 





#include "inet_sockets.h" 


int inetListen(const char *service, int backlog, socklen_t *addrlen); 


Returns a file descriptor on success, or -1 on error 








新 socket 的 文件 摘 述 符 会 作为 函数 结果 返回 。 
backlog 参 数 指定 了 人 允许 积压 的 未 决 连接 数量 (与 listen() 一 样 )。 


如 果 将 addrlen 指 定 为 一 个 非 NULEL 指 针 ， 那 么 与 返回 的 文件 描述 符 
对 应 的 socket 地 址 结构 的 大 小 会 返回 在 它 所 指 问 的 位 置 中 。 通 过 这 个 值 
可 以 在 需要 获取 一 个 已 连接 socket 的 地 址 时 为 传 入 给 后 面 的 acceptO 调 用 
的 socket 地 址 缓冲 器 分 配 一 个 合适 的 大 小 。 


inetBind0) 函 数 根 据 给 定 的 type 创 建 一 个 socket 并 将 其 绑 定 到 由 
service 和 和 type 指 定 的 端口 的 通 配 IP 地 址 上 。 (socket type 指 定 了 该 socket 
是 一 个 TCP 服 务 还 是 一 个 UDP 服 务 器 。)〉 这 个 函数 被 设计 主要 ) 供 
UDP 服 务 器 和 创建 socket 并 将 其 绑 定 到 某 个 具体 地 址 上 的 客户 端 使 用 。 





#include "inet sockets.h" 


int inetBind(const char *service, int type, socklen_t *addrlen); 





Returns a file descriptor on success, or -1 on error 








新 socket 的 文件 描述 符 会 作为 函数 结果 返 


与 inetListen() 一 样 ，inetBind() 会 将 关联 socket 地 址 结构 的 长 度 返 回 
在 addrlen 指 同 的 位 置 中 。 这 对 于 需要 为 传递 给 recvfrom() 的 缓冲 右 分 配 
空间 以 获取 发 送 数据 报 的 socket 的 地 址 来 讲 是 比较 有 用 的 。 
(inetListen() 和 inetBind() 所 需 做 的 很 多 工作 是 相同 的 ， 这 些 工 作 是 通过 
库 中 的 单个 函数 inetPassiveSocket() 来 实现 的 。) 














#include "inet sockets.h" 


char *inetAddressStr(const struct sockaddr *addr, socklen t addrlen, 
char *addrStr, int addrStrLen); 








Returns pointer to addrStr, a string containing host and service name 





回 一 个 指向 addrStr 的 指针 ， 该 字符 串 包含 了 主机 和 服务 名 。 


P a arta HR, RKE 在 addrlen 中 指定 ， 那 
么 inetAddressStrO 会 返回 一 个 以 null 结 尾 的 字符 串 ， 该 字符 串 包含 了 对 应 


的 主机 名 和 端口 号 ， 其 形式 如 下 。 
(hostname, port-number) 


返回 的 字符 串 是 存放 在 addrStr 指 问 的 缓冲 右 中 的 。 调 用 者 必须 要 在 
addrStrLen 中 指定 这 个 缓冲 器 的 大 小 。 如 果 返 回 的 字符 串 超过 了 
CaddrStrLen-1) F, MAE HLS BAIT. Hi stIS_ADDR_STR_LEN 
为 addrStr 绥 冲 右 的 大 小 定义 了 eden 它 的 取 值 及 应 该 中 以 存放 所 有 
可 能 的 返回 字符 串 了 。inetAddressStr() 返 回 addrStr 作 为 其 函数 结果 。 


程序 清单 59-9 给 出 了 本 节 中 描述 的 这 些 函 数 的 实现 。 


程序 清单 59-9: 一 个 Internet domain socket 库 
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#define _BSD SOURCE /* To get NI_MAXHOST and NI_MAXSERV 
definitions from <netdb.h> */ 

#include <sys/socket.h> 

#include <netinet/in.h> 

#include <arpa/inet.h> 

#include <netdb.h> 

#include "inet_sockets.h" /* Declares functions defined here */ 

#include "tlpi hdr.h" 


int 
inetConnect(const char *host, const char *service, int type) 
{ 

struct addrinfo hints; 

struct addrinfo *result, *rp; 

int sfd, s; 


memset(&hints, 0, sizeof(struct addrinfo)); 

hints.ai canonname = NULL; 

hints.ai addr = NULL; 

hints.ai next = NULL; 

hints.ai family = AF_UNSPEC; /* Allows IPv4 or IPv6 */ 
hints.ai_socktype = type; 


s = getaddrinfo(host, service, &hints, &result); 


if (s l= 0) { 
errno = ENOSYS; 
return -1; 

} 


/* Walk through returned list until we find an address structure 
that can be used to successfully connect a socket */ 


for (rp = result; rp != NULL; rp = rp->ai_next) { 
sfd = socket(rp->ai_family, rp->ai_socktype, rp->ai_protocol); 


if (sfd == -1) 

continue; /* On error, try next address */ 
if (connect(sfd, rp->ai_addr, rp->ai_addrlen) != -1) 

break; /* Success */ 


/* Connect failed: close this socket and try next address */ 


close(sfd); 
} 


freeaddrinfo(result); 


return (rp == NULL) ? -1 : sfd; 


static int /* Public interfaces: inetBind() and inetListen() */ 
inetPassiveSocket(const char *service, int type, socklen_t *addrlen, 


{ 


Boolean doListen, int backlog) 


struct addrinfo hints; 
struct addrinfo *result, *rp; 
int sfd, optval, s; 


memset(&hints, 0, sizeof(struct addrinfo)); 
hints.ai_canonname = NULL; 

hints.ai_addr = NULL; 

hints.ai_next = NULL; 

hints.ai_socktype = type; 


hints.ai_family = AF_UNSPEC; /* Allows IPv4 or IPv6 */ 
hints.ai_flags = AI PASSIVE; /* Use wildcard IP address */ 
s = getaddrinfo(NULL, service, &hints, &result); 
if (s != 0) 

return -1; 


/* Walk through returned list until we find an address structure 
that can be used to successfully create and bind a socket */ 


optval = 1; 
for (rp = result; rp != NULL; rp = rp->ai_next) { 
sfd = socket(rp->ai_family, rp->ai_socktype, rp->ai_protocol); 
if (sfd == -1) 
continue; /* On error, try next address */ 


if (doListen) { 
if (setsockopt(sfd, SOL_SOCKET, SO REUSEADDR, &optval, 
sizeof(optval)) == -1) { 


close(sfd); 
freeaddrinfo(result) ; 
return -1; 
} 
} 
if (bind(sfd, rp->ai_addr, rp->ai_addrlen) == 0) 
break; /* Success */ 


/* bind() failed: close this socket and try next address */ 


close(sfd); 
} 


if (rp != NULL && doListen) { 
if (listen(sfd, backlog) == -1) { 
freeaddrinfo(result); 
return -1; 


} 


if (rp != NULL && addrlen != NULL) 
*addrlen = rp->ai_addrlen; /* Return address structure size */ 


freeaddrinfo(result); 


return (rp == NULL) ? -1 : sfd; 
} 
int 
inetListen(const char *service, int backlog, socklen t *addrlen) 


{ 
} 


return inetPassiveSocket(service, SOCK_STREAM, addrlen, TRUE, backlog); 


int 
inetBind(const char *service, int type, socklen t *addrlen) 


{ 
} 


return inetPassiveSocket(service, type, addrlen, FALSE, 0); 


char * 
inetAddressStr(const struct sockaddr *addr, socklen t addrlen, 
char *addrStr, int addrStrLen) 


{ 
char host[NI MAXHOST], service[NI MAXSERV]; 
if (getnameinfo(addr, addrlen, host, NI_MAXHOST, 
service, NI_MAXSERV, NI_NUMERICSERV) == 0) 
snprintf(addrStr, addrStrLen, "(%s, %s)", host, service); 
else 
snprintf(addrStr, addrStrLen, "(?UNKNOWN?)"); 
addrStr[addrStrLen - 1] = '\0'; /* Ensure result is null-terminated */ 
return addrStr; 
} 
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59.13 ”过 时 的 主机 和 服务 转换 API 


在 下 面 几 节 中 将 会 介绍 较 早 的 现 已 过 时 的 用 于 在 主机 名 和 服务 名 的 

格式 之 间 进 行 转 换 的 函数 。 尽 管 新 程序 应 该 使 用 本 章 前 面 

介绍 的 现代 函数 来 执行 这 些 转换 工作 ， 但 了 解 这 些 过 时 的 函数 是 有 玫 助 
的 ， 因 为 在 较 早 的 代码 中 可 能 会 碰 到 这 些 函 数 。 


59.13.1 ”inet_aton() 和 inet_ntoa() 函 数 


inet_aton0 和 inet_ntoa0 函 数 将 一 个 IPv4 地 址 在 点 分 十 进 制 标记 法 和 
二 进 制 形式 〔( 以 网 络 字 节 序 ) 之 间 进 行 转换 。 这 些 函 数 现 在 已 经 被 
inet_pton0 和 inet_ntopO 所 取代 了 。 


inet_aton() (“ASCII 到 网 络 ”) 函数 将 str 指 同 的 瓜分 十 进 制 字 符 串 转 


换 成 一 个 网 络 字 节 序 的 IPv4 地 址 ， 转 换 得 到 的 地 址 将 会 返回 在 addr 指 问 
的 in_addr 结 构 中 。 








#include <arpa/inet.h> 


int inet_aton(const char *sfr, struct in addr *addr); 





Returns 1 (true) if str is a valid dotted-decimal address, or 0 (false) on error 





inet_aton() PRIAU TEPER MIA IK IAL, Estrik [B10 


传 入 inet_aton0) 的 字符 串 的 数值 部 分 无 需 是 十 进 制 的 ， 它 可 以 是 八 
进 制 的 (通过 前 导 0 指 定 ) ， 也 可 以 是 十 六 进 制 的 〈 通 过 前 导 0x 或 0X 指 
定 ) 。 此 外 ，inet " aton SBE 写 形式 ， 这 样 就 能 够 使 用 少 于 四 个 的 
数值 部 分 来 指定 一 个 地 址 了 。 (具体 细节 请 参 e gL ) 术语 数 
字 和 点 标记 法 用 于 表示 此 类 采用 了 这 些 特性 的 更 通用 的 地 址 字符 串 。 


SUSv3 并 没有 规定 inet_aton0， 然 而 在 大 多 数 实 现 上 都 存在 这 个 函 
数 。 在 Linux 上 要 获取 <arpa/inet,h> 中 的 inet_aton0) 声 明 就 必须 要 定义 
_BSD SOURCE、_SVID SOURCE 或 GNU SOURCE 这 三 个 特性 测试 
宏 的 一 个 。 











#include <arpa/inet.h> 


char *inet_ntoa(struct in addr addr); 


Returns pointer to (statically allocated) 
dotted-decimal string version of addr 











给 定 一 个 in_addr 结 构 〈 一 个 32 位 的 网 络 字 节 序 IPv4 地 址 ) ， 
inet_ntoa() 返 回 一 个 指向 (静态 分 配 的 ) 包含 用 点 分 十 进 制 标记 法 标记 
的 地 址 的 字符 串 的 指针 。 


由 于 inet_ntoa0) 返 回 的 字符 串 是 静态 分 配 的 ， 因 此 它们 会 被 后 续 的 
Dal FY PT ait.» 


59.13.2 gethostbyname() fi! gethostbyaddr() FÃ 21 


gethostbyname() 和 gethostbyaddr() 函 数 人 允许 在 主机 名 和 IP 地 址 之 间 进 
行 转换 。 现 在 这 些 函 数 已 经 被 getaddrinfo0 和 getnameinfo0 所 取代 了 。 





#include <netdb.h> 
extern int h_errno; 


struct hostent *gethostbyname(const char *name); 
struct hostent *gethostbyaddr(const char *addr, socklen_t len, int type); 


Both return pointer to (statically allocated) hostent structure 
on success, or NULL on error 











gethostbyname() 函 数 解析 由 name 给 出 的 主机 名 并 返回 一 个 指 辣 静态 
分 配 的 包含 了 主机 名 相关 信息 的 hostent 结 构 的 指针 。 该 结构 的 形式 如 
ps 


struct hostent { 


char *h_name; /* Official (canonical) name of host */ 
char **h aliases; /* NULL-terminated array of pointers 

to alias strings */ 
int h_addrtype; /* Address type (AF_INET or AF_INET6) */ 
int h_length; /* Length (in bytes) of addresses pointed 


to by h_addr_list (4 bytes for AF_INET, 
16 bytes for AF_INET6) */ 

char **h addr list; /* NULL-terminated array of pointers to 
host IP addresses (in addr or in6 addr 
structures) in network byte order */ 


E 


#define h addr h addr list[0] 





h_name 字 上 段 返 回 主 机 的 官方 名 字 ， 它 是 一 个 以 null 结 尾 的 字符 串 。 
h_aliases 字 段 指向 一 个 指针 数组 ， 数 组 中 的 指针 指 同 以 null 结 尾 的 包含 
了 该 主机 名 的 别名 《可 选 名 〉 的 字符 串 。 


h_addr_list 字 段 是 一 个 指针 数组 ， 数 组 中 的 指针 指向 这 个 主机 的 IP 
地 址 结构 。 (一 个 多 宿主 机 拥有 的 地 址 数 超过 一 个 。〉 这 个 列表 由 
in_addr 或 in6_addr 结 构 构 成 ， 通 过 h_addrtype 字 上 段 可 以 确定 这 些 结构 的 类 
型 ， 其 取 值 为 AF_INET 或 AF_INET6; 通过 h_length 字 上段 可 以 确定 这 些 结 
构 的 长 度 。 提 供 h_addr 定 义 是 为 了 与 在 hostent 结 构 中 只 返回 一 个 地 址 的 
早期 实现 (如 4.2BSD) 保持 癌 后 兼容 ， 一 些 既 有 代码 依赖 于 这 个 名 字 
(因此 无 法 感知 多 宿主 机 )。 


在 现代 版 本 的 gethostbyname() 中 也 可 以 将 name 指 定 为 一 个 数值 IP 地 
址 字符 串 ， 即 IPv4 的 数字 和 点 标记 法 与 IPVv6 的 十 六 进 制 字 符 串 标记 法 。 
在 这 种 情况 下 不 会 执行 任何 的 查询 工作 ; 相反 ，name 会 被 复制 到 hostent 
结构 的 h_name 字 段 ，h_addr_ list 会 被 设置 成 name 的 二 进 制 表示 形式 。 


gethostbyaddr() 函 数 执行 gethostbyname() 的 逆 操 作 。 给 定 一 个 二 进 制 
IP 地 址 ， 它 会 返回 一 个 包含 与 配置 了 该 地 址 的 主机 相关 的 信息 的 hostent 
结构 。 


在 发 生 错误 时 《如 无 法 解析 一 个 名 字 ) ，gethostbyname() 和 
gethostbyaddr0 都 会 返回 一 个 NULL 指 针 并 设置 全 局 变量 h_errno。 正 如 其 
名 字 所 表达 的 那样 ， 这 个 变量 与 errno 类 似 〈gethostbyname(3) 手 册 描 述 
了 这 个 变量 的 可 取 值 ) ，herror0 和 hstrerrorO 函 数 类 似 于 perror0 和 


strerror(). 





herrorO 函 数 〈 在 标准 错误 上 ) 显示 了 在 str 中 给 出 的 字符 串 ， 后 面 跟 
着 一 个 冒号 (])， 然 后 再 显示 一 条 与 当前 位 于 h_ermno 中 的 错误 对 应 的 消 
晨 。 或 者 可 以 使 用 hstrerror() 获 取 一 个 指 同 与 在 er 中 指定 的 错误 值 对 应 
的 字符 串 的 指针 。 








#define _BSD_SOURCE /* Or SVID SOURCE or GNU SOURCE */ 
#include <netdb.h> 


void herror(const char *str); 


const char *hstrerror(int err); 





Returns pointer to A_errno error string corresponding to err 








程序 清单 59-10 演 示 了 如 何 使 用 gethostbyname()。 这 个 程序 显示 了 名 
字 通 过 命令 行 指定 的 各 个 主机 的 hostent 人 信息。 下面 的 shell 会 话 演示 了 这 
个 程序 的 用 法 。 


$ ./t_gethostbyname www.jambit.com 
Canonical name: jamjam1.jambit.com 


alias(es): www. jambit.com 
address type: AF INET 
address(es): 62.245.207.90 





程序 清单 59-10: 使 用 gethostbyname() 获 取 主 机 信息 











#define BSD SOURCE 


#include <netdb.h> 
#include <netinet/in.h> 
#include <arpa/inet.h> 
#include "tlpi hdr.h" 


int 


main(int argc, char *argv[]) 


struct hostent *h; 
char **pp; 
char str[INET6_ADDRSTRLEN]; 


for (argv++; *argv != NULL; argv++) { 


h = gethostbyname(*argv) ; 
if (h == NULL) { 
fprintf(stderr, "gethostbyname() failed for '%s 
*argv, hstrerror(h_errno)); 
continue; 


} 
printf("Canonical name: %s\n", h->h_name); 


printf(" alias(es): "ys 
for (pp = h->h aliases; *pp != NULL; pp++) 
printf(" %s", *pp); 
printf("\n"); 
printf(" address type: %s\n", 
(h->h_addrtype == AF_INET) ? “AF_INET" : 
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/* To get hstrerror() declaration from <netdb.h> */ 


": 4s\n", 


(h->h_addrtype == AF _INET6) ? “AF_INET6" : "???"); 


if (h->h_addrtype == AF INET || h->h addrtype == AF_INET6) { 


printf (" address(es): "); 
for (pp = h->h_addr list; *pp != NULL; pp++) 
printf(" %s", inet_ntop(h->h addrtype, *pp, 


str, INET6 ADDRSTRLEN)); 


printf("\n"); 


exit(EXIT_SUCCESS) ; 


sockets/t_gethostbyname.c 


59.13.3 getserverbyname()#! getserverbyport() £K 20 


getservbyname()#ll getservbyport() K 2M /etc/services XF (59.97 ) 


中 获取 记录 。 现 在 这 些 函 数 已 经 被 getaddrinfo() 和 getnameinfo() 所 取代 
Js 





#include <netdb.h> 


struct servent *getservbyname(const char *name, const char *proto); 
struct servent *getservbyport(int port, const char *prolo); 


Both return pointer to a (statically allocated) servent structure 
on success, or NULL on not found or error 











getservbyname) KKE HARA A ARR AIA) 与 name 匹 配 以 
RN protol LAWR. protože — 14 WtcpBkudpZ FE Hy FFF 
串 ， 或 者 也 可 以 将 它 设置 为 NULL。 如 果 将 proto 指 定 为 NULL， 那 么 就 
会 返回 任意 一 个 服务 名 与 name 匹 配 的 记录 。 (这 种 做 法 通常 已 经 足够 
了 ， 因 为 当 拥 有 同样 名 字 的 UDP 和 TCP 记 录 都 位 于 /etc/services 文 件 时 ， 
它们 通常 使 用 同样 的 端口 号 。) 如 果 找 到 了 一 个 匹配 的 记录 ， 那 么 
getservbyname() 会 返回 一 个 指向 静态 分 配 的 如 下 类 型 的 结构 的 指针 。 


struct servent { 


char *s_name; /* Official service name */ 

char **s_ aliases; /* Pointers to aliases (NULL-terminated) */ 
int s_port; /* Port number (in network byte order) */ 
char *s_proto; /* Protocol */ 


— ORG, WH getservbyname) AA SRPMS, tee 
s_port 字 段 返 回 。 


getservbyport() K ŽÍT getservbyname()HIWiFE VE, “REA 
servent 记 录 ， 该 记录 包含 了 /etc/services 文 件 中 端口 号 与 port 匹 配 、 协 议 
与 proto 匹 配 的 记录 相关 的 信息 。 同 样 ， 可 以 将 proto 指 定 为 NULL， 这 样 
这 个 调用 就 会 返回 任意 一 个 端口 号 与 port 中 指定 的 值 匹 配 的 记录 。 (在 
前 面 提 到 的 一 些 同一 个 端口 号 被 映射 到 不 同 的 UDP 和 TCP 服 务 名 的 情况 
下 可 能 不 会 返回 期 望 的 结果 。) 


本 书 随 带 发 行 的 源 代 码 的 files/M_getservbyname.c 文 件 中 
提供 了 一 个 使 用 getservbyname() 函 数 的 例子 。 


59.14 UNIX 5 ‘Internet domain socket 比 较 


当 编 写 通 过 网 络 进行 通信 的 应 用 程序 时 必须 要 使 用 Internet domain 
socket， 但 当 位 于 同一 系统 上 的 应 用 程序 使 用 socket 进 行 通 信 时 则 可 以 选 
择 使 用 Internet 或 UNIX domain socket。 在 这 种 情况 下 该 使 用 哪个 
domain? 为 何 使 用 这 个 domain 呢 ? 


编写 只 使 用 Internet domain socket 的 应 用 程序 通常 是 最 简单 的 做 法 ， 
因为 这 种 应 用 程序 既 能 运行 于 同一 个 主机 上 ， 也 能 运行 在 网 络 中 的 不 同 
主机 上 。 但 之 所 以 要 选择 使 用 UNIX domain socket 是 存在 几 个 原因 的 。 














e 在 一 些 实现 上 ，UNIX domain socket 的 速度 比 Internet domain socket 
的 速度 快 。 

可 以 使 用 目录 在 Linux 上 是 文件 ) 权限 来 控制 对 UNIX domain 
socket 的 访问 ， 这 样 只 有 运行 于 指定 的 用 户 或 组 ID 下 的 应 用 程序 才 
能 够 连接 到 一 个 监听 流 socket 或 同一 个 数据 报 socket 发 送 一 个 数据 
报 ， 同 时 为 如 何 验证 客户 端 提供 了 一 个 简单 的 方法 。 使 用 Internet 
domain socket 时 如 果 需 要 验证 客户 端的 话 承 需要 做 更 多 的 工作 了 。 
使 用 UNIX domain socket 可 以 像 61.13.3 节 中 总 结 的 那样 传递 打开 的 
文件 描述 符 和 发 送 者 的 验证 信息 。 





59.15 更 多 信息 





有 关 TCP/IP 和 socket API 存 在 很 多 有 价值 的 纸 质 和 在 线 资源 。 


使 用 socket 进 行 网 络 程序 设计 的 重量 级 书籍 是 [Stevens at al.,2004]。 
[Snader, 2000] 在 socket 程 序 设 计 方 面 新 增 了 一 些 有 价值 的 指南 。 
[Stevens, 1994] 和 [Wright & Stevens, 1995] 详 细 描 述 了 TCP/IP。 
[Comer, 2000]. [Comer & Stevens, 1999]. [Comer & Stevens, 
2000]. [Kozierok,2005]V\ X[Goralksi, 2009] 也 较 好 地 介绍 了 这 一 
题 。 

[Tanenbaum, 2002] 给 出 了 计算 机 网 络 的 一 般 背 景 。 

[Herbert, 2004] 描 述 了 Linux 2.6 TCP/IP 栈 的 细节 。 


。 GNU CHEF (在线 版 位 于 http://www.gnu.org/)〉 详细 描述 了 sockets 


API. 

IBM Redbook TCP/IP Tutorial and Technical Overview 深 入 详细 地 描 
述 了 联网 概念 、TCP/IP 内 幕 、sockets API 以 及 其 他 相关 主题 。 读 者 
可 以 免费 在 http://www.redbooks.ibm.com/ 下 载 到 这 本 书 。 

[Gont, 2008] 和 [Gont, 2009b] 对 IPvV4 和 和 TCP 进行 了 安全 性 评估 。 
Usenet 新 闻 组 comp.protocols.tcp-ip 专 门 对 与 TCP/IP 联 网 协议 有 关 的 
问题 进行 讨论 。 

[Sarolahti & Kuznetsov, 2002] 描 述 了 Linux TCP 实 现 的 拥塞 控制 和 其 
他 一 些 细节 。 

Linux 特 有 的 信息 可 以 在 下 列 手册 中 找到 :socket(7)、 记 (7)、 
raw(7)、tcp(7)、udp(7) 以 及 packet(7)。 

参考 58.7 节 中 列 出 的 RFC 列 表 。 


59.16 总结 


Internet domain socket 人 允许 位 于 不 同 主机 上 的 应 用 程序 通过 一 个 
TCP/IP 网 络 进行 通信 。 一 个 Internet domain socket 地 址 由 一 个 IP 地 址 和 一 
个 端口 号 构成 。 在 IPv4 中 ， 一 个 IP 地 址 是 一 个 32 位 的 数字 ， 在 IPv6 中 则 
是 一 个 128 位 的 数字 。Internet domain 数 据 报 socket 运 行 于 UDP 上 ， 它 提 
供 了 无 连接 的 、 不 可 靠 的 、 面 癌 消 息 的 通信 。Internet domain 流 socket 运 
人 
Hla. 


不 同 的 计算 机 架构 使 用 不 同 的 方式 来 表示 数据 类 型 。 如 整数 可 以 以 
小 端 形式 存储 也 可 以 以 大 端 形式 存储 ， 并 且 不 同 的 计算 机 可 能 使 用 不 同 
的 字 市 数 来 表示 诺 如 int 和 long 之 类 的 数值 类 型 。 这 些 差 别 意 味 着 当 在 通 
过 网 络 连 接 的 寞 构 机 器 之 间 传 输 数 据 时 需要 采用 某 种 独立 于 染 构 的 表 
示 。 本 章 指 出 了 存在 多 种 信号 编 集 标准 来 解决 这 个 问题 ， 同 时 还 描述 了 
被 很 多 应 用 程序 所 采用 的 一 个 简单 的 解雇 方案 : 将 所 有 传输 的 数据 编码 
成 文本 形式 ， 字 段 之 间 使 用 预先 指定 的 字符 (通常 是 换行 符 〉 分 隔 。 


本 章 介 绍 了 一 组 用 于 在 IP 地 址 的 (数值 〉 字 符 串 表示 (IPv4 是 点 分 
十 进 制 ，IPv6 是 十 六 进 制 字符 串 ) 和 其 二 进 制 值 之 间 进 行 转换 的 函数 ， 
然而 一 般 来 讲 最 好 使 用 主机 和 服务 名 而 不 是 数字 ， 因 为 名 字 更 容易 记忆 
并 且 即 使 在 对 应 的 数字 发 生变 化 时 也 能 继续 使 用 。 此 外 ， 还 介绍 了 用 于 
将 主机 和 服务 名 转换 成 数值 表示 及 其 逆 过 程 的 各 种 函数 。 将 主机 和 服务 
名 转换 成 socket 地 址 的 现代 函数 是 getaddrinfo0， 但 读者 在 既 有 代码 中 会 
经 常 看 到 早期 的 gethostbyname() 和 getservbyname() 函 数 。 


对 主机 名 转换 的 思考 引出 了 对 DNS 的 讨论 ， 它 实现 了 一 个 分 布 式 数 
据 库 提供 层级 目录 服务 。DNS 的 优点 是 数据 库 的 管理 不 再 是 集中 的 了 。 
相反 ， 本 地 区 域 管 理 员 可 以 更 新 他 们 所 负责 的 数据 库 层 级 部 分 ， 并 且 
DNS 服 务 嚣 可 以 与 男 一 台 服 务 费 进行 通信 以 便 解析 一 个 主机 名 。 





























59.17 “习题 


59-1. 当 读 取 大 量 数据 时 ， 程 序 清单 59-1 给 出 的 readLineO 函 数 是 低 
效 的 ， 因 为 每 读 取 一 个 字符 都 需要 使 用 一 个 系统 调用 。 一 个 更 加 蜗 效 的 
接口 是 将 一 块 字符 读 进 缓冲 占 并 每 次 从 这 个 缓冲 器 中 抽取 出 一 行 。 这 种 
接口 可 能 由 两 个 函数 构成 ， 其 中 第 一 个 函数 可 能 会 被 命名 成 
readLineBuflInit(fd, &rlbuf)， 它 初始 化 rlbuf 指 癌 的 夭 记 数据 结构 。 这 个 结 
构 包 括 数据 缓冲 占 所 需 的 空间 、 这 个 绥 冲 器 的 大 小 以 及 指 问 绥 冲 器 中 下 
一 个 “未 被 读 取 的 "字符 的 指针 。 它 还 包含 了 通过 参数 fd 给 出 的 文件 描述 
符 的 一 个 副本 。 第 二 个 函数 readLineBuf(&rlbuf) 返 回 与 ribuf 相 关联 的 组 
冲 器 中 的 下 一 行 。 如 果 需 要 的 话 ， 这 个 函数 可 以 从 保存 在 rlbuf 中 的 文件 
描述 符 中 读 取 下 一 块 数据 。 实 现 这 两 个 函数 。 修 改 程序 清单 59-6 中 的 程 
序 Cis_seqnum_sv.c) 和 程序 清单 59-7 中 的 程序 (is_seqnum_dl.c) 使 之 
使 用 这 两 个 函数 。 


59-2. 修改 程序 清单 59-6 中 的 程序 (is_seqnum_sv.c) 和 程序 清单 
59-7 中 的 程序 Cis_seqnum_cl.c) 使 之 使 用 程序 清单 59- 
9 Cinet_sockets.c) 中 给 出 的 inetListen() 和 inetConnect(0) 函 数 。 


59-3. 编写 一 个 UNIX domain socket 库 使 其 API 与 59.12 节 中 给 出 的 
Internet domain socket 库 的 API 类 似 。 重 写 程序 清单 57-3 中 的 程序 
Cus_xfr_sv.c) 和 程序 清单 57-4 中 的 程序 Cus_xfr_cl.c) 使 之 使 用 这 个 





59-4. 编写 一 个 存储 名 字 - 值 对 的 网 络 服务 器 。 这 个 服务 器 应 该 允 
许 客 户 端 添 加 、 删 除 、 修 改 以 及 检索 名 字 。 编 写 一 个 或 多 个 客户 端 程序 
来 测试 这 个 服务 器 。 读 者 可 根据 上 自己 的 意愿 实现 菜 种 安全 机 制 ， 如 只 人 允 
许 创建 一 个 名 字 的 客户 端 删除 这 个 名 字 或 修改 与 这 个 名 字 关 联 的 值 。 


59-5. 假设 创建 了 两 个 被 绑 定 到 特定 地 址 上 的 Internet domain 数 据 
报 socket， 并 将 第 一 个 socket 连 接 到 第 二 个 上 。 如 果 创 建 了 第 三 个 数据 报 
Socket 并 通过 该 socket 党 试问 第 一 个 socket 发 送 〈sendto0 ) 一 个 数据 报 会 
发 生 什么 情况 呢 ? 编写 一 个 程序 确定 这 个 问题 的 答案 。 











602 SOCKET: 服务 器 设计 


本 章 讨 论 了 设计 和 欠 代 型 和 并 发 型 服务 器 端 程序 的 基础 。 本 章 也 描述 
这 是 一 个 特殊 的 守护 进程 ， 它 使 得 创建 网 络 服务 变 得 更 加 便 


60.1 友 代 型 和 并 发 型 服务 器 


对 于 使 用 Socket《〈 套 接 字 ) 的 网 络 服 务 器 端 程序 ， 有 两 种 第 见 的 设 
计 方 式 。 


。 SRE: 服务 喜 每 次 只 处 理 一 个 客 尸 端 ， 只 有 当 完 全 处 理 完 一 个 客 
户 端的 请 求 后 才 去 处 理 下 一 个 客户 端 。 
nc ap ari att er ee Oe 


在 44.8 节 中 我 们 已 经 见 过 一 个 使 用 FIFO 的 迭代 型 服务 器 了 ， 在 46.8 
节 中 也 有 一 个 使 用 System V 消 息 队 列 的 并 发 型 服务 器 的 例子 。 


迭代 型 服务 器 通常 只 适用 于 能 够 快速 处 理 客 户 端 请 求 的 场景 ， 因 为 
每 个 客户 端 都 必须 等 待 ， 直 到 前 面 所 有 的 客户 端 都 处 理 完 了 服务 器 才能 
继续 服务 下 一 个 客户 端 。 和 迭代 型 服务 器 的 典型 应 用 场景 是 当 客 户 端 和 服 
务 器 之 间 交 换 单 个 请 求 和 啊 应 时 。 


并 及 型 服务 器 适用 于 对 每 个 请 求 都 需要 大 量 处 理 时 间 ， 或 者 是 当 客 
户 端 和 服务 器 在 进行 扩展 对 话 中 需要 来 回 传递 消 妃 的 场景 。 在 本 章 中 ， 
我 们 把 重点 放 在 并 发 型 服务 器 的 传统 〈 也 是 最 简单 的 ) 设计 方法 上 : 针 
对 每 个 新 的 客户 端 连 接 ， 创 建 一 个 新 的 子 进程 来 处 理 。 每 个 服务 器 子 进 
程 执 行 完 所 有 服务 于 单个 客户 端的 任务 后 束 终 止 。 由 于 这 些 子 进程 能 独 
立地 运行 ， 因 此 可 以 同时 处 理 多 个 客户 端 。 服 务 需 主 进程 《 父 进程 ) 的 
主要 任务 就 是 为 每 个 新 的 客户 并 连接 创建 一 个 新 的 子 进 程 。 (这 种 方法 
有 一 个 变种 ， 即 为 每 个 客户 端 创建 一 个 新 的 线程 。) 

在 接 下 来 的 几 节 中 ， 我 们 将 学 习 迭 代 型 和 并 发 型 服务 器 程序 的 例 


子 ， 它 们 都 采用 Internet 域 套 接 字 。 这 两 个 服务 占 都 实现 了 echo 服 务 
CRFC 862) ， 这 种 基本 的 服务 能 够 返回 客户 端 向 其 发 送 的 任何 内 容 。 

















60.2 ”迭代 型 UDP echo 服 务 器 


在 本 节 以 及 下 一 节 中 ， 我 们 展示 了 echo 服 务 的 服务 器 端 程序 。echo 
服务 支持 UDP 和 TCP， 工 作 在 端口 7 上 。 (由 于 端口 7 是 保留 端口 ，echo 
服务 器 必须 以 超级 用 户 权 限 运 行 ) 。 

UDP echo 服 务 器 连续 读 取 数据 报 ， 将 每 个 数据 报 的 拷贝 返回 给 发 送 
者 。 由 于 服务 器 一 次 只 需 人 处理 一 条 单独 的 消 奶 ， 因 此 设计 为 迭代 型 服务 
器 就 足够 了 。 服 务 器 端 程序 的 头 文 件 如 程序 清单 60-1 所 示 。 


程序 清单 60-1: id_echo_sv.c 和 id_echo_cl.c 的 头 文件 








一 sockets/id_echo.h 
#include "inet_sockets.h" /* Declares our socket functions */ 

#include "tlpi_hdr.h" 

#define SERVICE "echo" /* Name of UDP service */ 


#define BUF_SIZE 500 /* Maximum size of datagrams that can 
be read by client and server */ 


sockets/id_echo.h 


程序 清单 60-2 展 示 了 服务 器 问 的 实现 。 关 于 服务 器 的 实现 ， 请 注意 
以 下 几 操 。 


° T 37.2 节 中 的 becomeDaemon0O 函 数 将 服务 器 转换 为 一 个 守护 


进程 。 
° oe 我 们 使 用 了 59.12 节 中 开发 的 Internet 域 套 接 字 
° BO NBS i ANSE El A IE E I, 就 使 用 syslog() 记 录 一 条 日 


NT 
THY suv o 





在 现实 世界 的 应 用 程序 中 ， 我 们 可 能 会 针对 syslog0 写 入 的 消息 做 
一 些 速率 限制 。 这 不 仅 是 为 了 防止 攻击 者 将 系统 日 志江 满 ， 还 因为 
syslog() 的 调用 开销 是 很 昂贵 的 ， 因 为 (默认 情况 下 〉 syslog0 会 反 过 来 
调用 到 fsync()。 


程序 清单 60-2: 实现 迭代 型 的 UDP echo 服 务 器 





sockets/id_echo_sv.c 
#include <syslog.h> 
#include "id_echo.h" 
#include "become_daemon.h" 


int 
main(int argc, char *argv[]) 
{ 
int sfd; 
ssize t numRead; 
socklen t addrlen, len; 
struct sockaddr storage claddr; 
char buf[BUF_SIZE]; 
char addrStr[IS_ADDR_STR_LEN]; 


if (becomeDaemon(0) == -1) 
errExit("becomeDaemon") ; 


sfd = inetBind(SERVICE, SOCK_DGRAM, &addrlen); 

if (sfd == -1) { 
syslog(LOG ERR, “Could not create server socket (%s)", strerror(errno)); 
exit(EXIT FAILURE); 


} 


/* Receive datagrams and return copies to senders */ 


for (;;) { 
len = sizeof(struct sockaddr storage); 
numRead = recvfrom(sfd, buf, BUF SIZE, 0, 
(struct sockaddr *) &claddr, &len); 
if (numRead == -1) 
errExit("recvfrom"); 


if (sendto(sfd, buf, numRead, 0, (struct sockaddr *) &claddr, len) 
1= numRead) 
syslog(LOG_WARNING, “Error echoing response to %s (%s)", 
inetAddressStr((struct sockaddr *) &claddr, len, 
addrStr, IS ADDR STR LEN), 
strerror(errno) ); 


sockets/id_echo_sv.c 


要 测试 服务 器 的 功能 ， 我 们 需要 用 到 程序 清单 60-3 中 展示 的 客户 端 
程序 。 2o 同样 采用 了 59.12 节 中 开发 的 Internet 域 套 接 字 函数 库 。 
从 第 一 个 命令 行 参数 来 看 ， 客 户 端 程序 期 望 得 到 运行 着 服务 器 程序 的 主 
机 名 称 客户 出 程序 执行 一 个 循环 ， 在 循环 中 将 剩 下 的 命令 行 参 数 作为 
数据 报 发 送 给 服务 器 ， 读 取 和 打印 出 每 个 由 服务 器 发 回 的 啊 应 数据 报 。 





程序 清单 60-3: UDP echo 服 务 的 客户 端 程序 





sockets/id echo cl.c 
#include "id echo.h" 


int 
main(int argc, char *argv[ ]}) 
{ 

int sfd, j; 

size t len; 

ssize_t numRead; 

char buf[BUF_SIZE]; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s: host msg...\n", argv[0]); 


/* Construct server address from first command-line argument */ 


sfd = inetConnect(argv[1], SERVICE, SOCK _DGRAM); 
if (sfd == -1) 
fatal("Could not connect to server socket"); 


/* Send remaining command-line arguments to server as separate datagrams */ 
for (j = 2; j < argc; j++) { 
len = strlen(argv[j]); 


if (write(sfd, argv[j], len) != len) 
fatal("partial/failed write"); 


numRead = read(sfd, buf, BUF SIZE); 
if (numRead == -1) 


errExit("read"); 


printf("[%ld bytes] %.*s\n", (long) numRead, (int) numRead, buf); 
} 


exit(EXIT SUCCESS); 


sockets/id_echo_cl.c 


PUN, RANTS AT ARS eo EY WAR AS Pi SEAT, BRA RS BI) 
如 下 输出 。 


$ Su 

Password: 

# ./id echo sv 

# exit 

$ ./id_echo_cl localhost hello world 
[5 bytes] hello 

[5 bytes] world 

$ ./id_echo_cl localhost goodbye 

[7 bytes] goodbye 


Need privilege to bind reserved port 


Server places itself in background 
Cease to be superuser 

This client sends two datagrams 
Client prints responses from server 


This client sends one datagram 


60.3 ”并 发 型 TCP echo 服 务 器 


TCP echo 服 务 同 样 也 工作 在 端口 7 上 。TCP echo 服 务 器 接受 一 条 连 
接 然 后 不 断 循 环 ， 读 取 所 有 已 传输 的 数据 并 在 同一 个 套 接 字 上 将 它们 发 
回 给 客户 端 。 服 务 器 不 断 读 取 数 据 直 到 它 检测 到 文件 结尾 为 止 ， 此 时 服 
务 器 就 关闭 它 的 套 接 字 〈 因 此 如 果 客 户 端 仍 在 从 套 接 字 中 读 取 数据 的 
th, RY WARMEST) 。 


由 于 客户 端 可 能 会 发 送 无 限量 的 数据 给 服务 器 《因而 服务 这 样 的 客 
户 端 可 能 需要 无 限 的 时 间 〉 ， 因 此 这 种 情况 下 适合 将 服务 器 设计 为 并 友 
型 ， 这 样 多 个 客户 端 能 够 同时 得 到 服务 。 程 序 清单 60-4 给 出 了 服务 露 的 
实现 。《 我 们 在 61.2 节 中 给 出 了 该 服务 的 客户 端 实现 。) 关于 实现 的 细 
节 ， 需 要 注意 以 下 几 点 。 


服务 器 通过 调用 37.2 节 中 的 becomeDaemon0 成 为 了 一 个 守护 进程 。 
人 我 们 使 用 了 程序 清单 59-9 中 的 Internet 域 套 接 字 
由 于 服务 器 为 每 一 个 客户 端 连接 创建 了 一 个 子 进程 ， 我 们 必须 确保 
1 这 可 以 通过 为 信号 SIGCHLD 安 装 信 号 处 理 例 
程 来 实现 。 

服务 器 程序 的 主体 部 分 由 for 循 环 组 成 ， 在 循环 中 我 们 接受 客户 端的 
连接 ， 然 后 通过 forkO 创 建 子 进程 。 在 子 进 程 中 调用 handleRequestO) 
同时 ， 父 进程 继续 在 for 循 环 中 接受 下 一 个 客户 
端的 连接 。 














在 现实 世界 的 应 用 中 ， 我 们 可 能 应 该 在 服务 器 中 包含 
一 些 限 制 创 建 子 进程 数量 的 代码 。 这 是 为 了 防止 攻击 者 试 
图 利用 该 服务 在 系统 中 创建 大 量 的 子 进程 Cfork bomb ) 从 
而 使 系统 变 得 不 可 用 。 我 们 可 以 计数 当前 正在 执行 的 子 进 
程 数 量 ， 通 过 在 服务 器 端 增加 额外 的 代码 来 强加 这 个 限 
制 。《〈 计 数 应 该 在 forkO 调 用 成 功 后 递增 ， 而 在 SIGCHLD 信 
号 处 理 例 程 清除 子 进 程 时 得 到 递减 》。 如 条 子 进程 的 数量 


达到 了 上 限 ， 我 们 可 以 暂 堡 接受 新 的 连接 (或 者 还 有 一 种 
可 选 方案 是 接受 连接 后 立刻 关闭 它们 ) 。 











每 次 调用 forkO 后 ， 监 听 套 接 字 和 连接 套 接 字 都 在 子 进 程 中 得 到 复 

制 〈 见 24.2.1 节 ) 。 这 意味 着 父子 进程 都 可 以 通过 连接 套 接 字 和 客 
户 端 通信 。 但 是 ， 只 有 子 进 程 才 需 要 进行 这 样 的 通信 ， 因 此 父 进程 
应 该 在 fork() 调 用 之 后 立刻 关闭 连接 套 接 字 的 文件 描述 符 。 (如 果 

父 进 程 不 这 么 做 的 话 ， 那 么 套 接 字 将 永远 不 会 真正 关闭 ， 此 外 ， 父 
进程 最 终 会 用 完 所 有 的 文件 描述 符 。〉 由 于 子 进程 不 接受 新 的 连 

接 ， 它 需要 将 监听 套 接 字 的 文件 描述 符 副 本 关闭 。 

。 每 个 子 进程 在 处 理 完 一 个 客户 端 后 终止 。 


程序 清单 60-4: 并 发 型 TCP echo 服 务 器 的 实现 




















sockets/is_echo_sv.c 
#include <signal.h> 
#include <syslog.h> 
#include <sys/wait.h> 
#include "become _daemon.h" 
#include "“inet_sockets.h" /* Declarations of inet*() socket functions */ 
#include "tlpi hdr.h" 


#define SERVICE "echo" /* Name of TCP service */ 
#define BUF_SIZE 4096 


static void /* SIGCHLD handler to reap dead child processes */ 
grimReaper(int sig) 


int savedErrno; /* Save ‘errno’ in case changed here */ 


savedErrno = errno; 

while (waitpid(-1, NULL, WNOHANG) > 0) 
continue; 

errno = savedErrno; 


} 
/* Handle a client request: copy socket input back to socket */ 


static void 
handleRequest(int cfd) 


char buf[BUF SIZE]; 
ssize t numRead; 


while ((numRead = read(cfd, buf, BUF_SIZE)) > 0) { 
if (write(cfd, buf, numRead) != numRead) { 
syslog(LOG_ERR, "write() failed: %s", strerror(errno)); 
exit (EXIT FAILURE); 


} 
if (numRead == -1) { 


syslog(LOG_ERR, “Error from read(): %s", strerror(errno)); 
exit(EXIT FAILURE); 


} 
int 
main(int argc, char *argv[]) 


int lfd, cfd; /* Listening and connected sockets */ 
struct sigaction sa; 


if (becomeDaemon(0) == -1) 
errExit("becomeDaemon") ; 


sigemptyset(&sa.sa_mask) ; 
sa.sa flags = SA RESTART; 
sa.Sa_ handler = grimReaper; 


if (sigaction(SIGCHLD, &sa, NULL) == -1) { 
syslog(LOG ERR, “Error from sigaction(): %s", strerror(errno)); 


exit(EXIT_FAILURE); 
} 


lfd = inetListen(SERVICE, 10, NULL); 


if (lfd == -1) { 


syslog(LOG_ERR, "Could not create server socket (%s)", strerror(errno)); 


exit (EXIT_FAILURE); 
} 


for (53) { 


cfd = accept(lfd, NULL, NULL); 


if (cfd == -1) { 


/* Wait for connection */ 


syslog(LOG_ERR, "Failure in accept(): %s", strerror(errno)); 


exit (EXIT_FAILURE) ; 
} 


/* Handle each client request in a new child process */ 


switch (fork()) { 
case -1: 


syslog(LOG_ERR, "Can't create child (%s)", strerror(errno)); 


close(cfd); 
break; 


case 0: 
close(lfd); 
handleRequest (cfd) ; 
_exit(EXIT SUCCESS); 


default: 
close(cfd); 
break; 


/* Give up on this client */ 
/* May be temporary; try next client */ 


i” Child: =y 
/* Unneeded copy of listening socket */ 


/* Parent */ 
/* Unneeded copy of connected socket */ 
/* Loop to accept next connection */ 


sockets/is_echo_sv.c 


60.4 并 及 型 服务 磊 的 其 他 设计 方案 


对 于 许多 需要 通过 ITCP 连 接 同时 处 理 多 个 客户 端的 应 用 来 说 ， 前 面 
几 节 描述 的 传统 型 并 发 服务 器 模型 已 经 足够 用 了 。 但 是 ， 对 于 负载 很 高 
的 服务 器 来 说 (例如 ，Web 服 务 器 每 分 钟 要 处 理 成 千 上 万 次 请 求 )， 
为 每 个 客户 端 创建 一 个 新 的 子 进程 (甚至 是 线程 所 和 带 来 的 开销 对 服务 
恬 来 说 是 个 沉重 的 负担 (参见 28.3 市 ) ， 因 此 需要 有 其 他 的 设计 方案 。 
下 面 我 们 主要 考虑 这 几 种 可 选 方案 。 


在 服务 器 上 预先 创建 进程 或 线程 


预先 创建 进程 或 线程 的 服务 器 已 经 在 [Stevens et al., 2004] 的 第 30 章 
中 做 了 详细 的 描述 。 其 核心 理念 有 如 下 几 点 。 


。 服务 器 程序 在 启动 阶段 〈 即 在 任何 客户 端 请 求 到 来 之 前 ) 就 立刻 预 
先 创建 好 一 定数 量 的 子 进程 (或 线程 》， 而 不 是 针对 每 个 客户 端 来 
创建 一 个 新 的 子 进程 〈 或 线程 ) 。 这 些 子 进程 构成 了 一 种 服务 池 
(server pool) @. 

。 服务 池 中 的 每 个 子 进程 一 次 只 处 理 一 个 客户 端 。 在 处 理 完 客户 端 请 
求 后 ， 子 进程 并 不 会 终止 ， 而 是 获取 下 一 个 符 处 理 的 客户 端 继续 处 
理 ， 如 此 类 推 。 


采用 上 述 技术 需要 在 服务 顺应 用 中 仔细 地 管理 子 进 程 。 服 务 池 应 该 
足够 大 ， 以 确保 能 充分 啊 应 客户 端的 请 求 。 这 意味 着 服务 器 父 进程 必须 
对 未 占用 的 子 进 程 加 以 监视 ， 并 且 在 服务 器 处 于 负载 高 峰 期 时 增加 服务 
池 的 大 小 ， 这 样 就 总 会 有 足够 多 的 子 进 程 存 在 ， 从 而 可 以 立刻 服务 于 新 
的 客户 问 请 求 。 如 宁 人 负载 下 降 了 ， 那 么 应 该 相应 地 降低 服务 池 的 大 小 ， 
因为 过 多 的 空余 进程 会 降低 系统 的 整体 性 能 。 


此 外 ， 服 务 池 中 的 子 进 程 必须 遵循 某 些 协议 ， 使 得 它们 能 以 独占 的 
方式 选择 一 个 客户 端 连 接 。 在 大 多 数 UNIX 实 现 中 《〈 包 括 Linux) ， 让 服 
务 池 中 的 每 个 子 进程 在 监听 描述 符 的 acceptO 调 用 上 阻 考 就 足够 了 。 换 
句 话 说 ， 服 务 器 父 进程 在 创建 任何 子 进 程 之 前 先 创建 监听 套 接 字 ， 然 后 
每 个 子 进 程 在 forkO 调 用 中 继承 该 套 接 字 的 文件 描述 符 。 当 一 个 新 的 客 
户 端 连接 到 来 时 ， 只 有 其 中 一 个 子 进程 能 完成 acceptO 调 用 。 但 是 ， 由 
于 accept0 在 一 些 老式 的 实现 中 并 不 是 一 个 原子 化 的 系统 调用 ， 因 此 可 




















能 需要 通过 一 些 互 斥 技术 《例如 文件 锁 ) 来 文 持 ， 以 确保 每 次 只 有 一 个 
子 进 程 可 以 执行 accept() 调 用 ([Stevens et al., 2004]) 。 


还 有 其 他 的 方法 可 以 让 服务 池 中 所 有 的 子 进程 都 执行 
acceptO 调 用 。 如 果 服 务 池 由 分 离 的 进程 组 成 ， 服 务 器 父 进 
程 可 以 执行 acceptO 调 用 ， 然 后 使 用 61.13.3 节 中 人 简要 摘 述 的 
技术 将 代表 新 连接 的 文件 描述 符 传 递 给 池 中 空闲 的 进程 之 
一 。 如 果 服 务 池 由 线程 组 成 ， 主 线程 可 以 执行 acceptO 调 
用 ， 然 后 通知 服务 器 上 的 空闲 线程 ， 有 新 的 已 连接 上 的 客 
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在 某 些 情 况 下 ， 我 们 可 以 设计 让 单个 服务 器 进程 来 处 理 多 个 客户 
端 。 为 了 实现 这 点 ， 我 们 必须 采用 一 种 能 允许 单个 进程 同时 监视 多 个 文 
件 描述 符 上 IO 事件 的 IO 模型 (MO 多 路 复 用 、 信 和 号 驱动 IO 或 者 
epoll) 。 本 书 第 63 章 中 描述 了 这 些 模型 。 


在 设计 单 进程 服务 占 时 ， 服 务 占 进程 必须 做 一 些 通常 由 内 核 来 处 理 
的 调度 任务 。 在 每 个 客户 端 一 个 服务 器 进程 地 解决 方案 中 ， 我 们 可 以 依 
徘 内 核 来 确保 每 个 服务 器 进程 (从 而 也 确保 了 客户 端 ) 能 公平 地 访问 到 
服务 器 主机 的 资源 。 但 当 我 们 用 单个 服务 器 进程 来 处 理 多 个 客户 站 时 ， 
服务 器 进程 必须 目 行 确保 一 个 或 多 个 客户 站 不 会 霸占 服务 器 ， 从 而 使 其 
他 的 客户 站 处 于 饥饿 状态 。 关 于 这 点 我 们 将 在 63.4.6 市 中 继续 讨论 。 


采用 服务 器 集群 


其 他 用 来 处 理 高 客户 端 负载 的 方法 还 包括 使 用 多 个 服务 器 系统 一 -一 
服务 器 集群 (server farm) 。 


构建 服务 器 集群 最 简单 的 一 种 方法 是 DNS 轮 转 负 载 共 享 DNS 
round-robin load sharing) (RARIK, load distribution〉， 一 个 地 区 





的 域名 权威 服务 器 将 同一 个 域名 映射 到 多 个 IP 地 址 上 《〈 即 ， 多 人 台 服 务 器 
共享 同一 个 域名 ) 。 后 续 对 DNS 服务 器 的 域名 解析 请 求 将 以 循环 轮转 的 
方式 以 不 同 的 顺序 返回 这 些 IP 地 址 。 更 多 关于 DNS 轮转 负载 共享 的 信息 
可 以 在 [Albitz & Liu, 2006] 中 找到 。 


DNS 循环 轮转 的 优势 是 成 本 低 ， 而 且 容易 实施 。 但 是 ， 它 也 存在 着 
一 些 问 题 。 其 中 一 个 问题 是 远 端 DNS 服务 器 上 所 执行 的 缓存 操作 ， 这 意 
味 着 今后 位 于 某 个 特定 主机 《或 一 组 主机 ) 上 的 客户 端 发 出 的 请 求 会 绕 
过 循环 轮转 DNS 服务 堪 ， 并 总 是 由 同一 个 服务 器 来 负 贡 处理 。 此 外 ， 循 
环 轮转 DNS 并 没有 任何 内 建 的 用 来 确保 达到 良好 负载 均衡 (不 同 的 客户 
问 在 服务 器 上 产生 的 负载 不 同 ) 或 者 是 确保 高 可 用 性 的 机 制 (如果 其 中 
一 台 服 务 器 宕 机 或 者 运行 的 服务 器 程序 朋 江 了 怎么 办 ? ) 。 在 许多 采用 
多 台 服 务 器 设备 的 设计 中 ， 男 一 个 我 们 需要 考虑 的 因素 是 服务 器 杀 和 性 
(server affinity) 。 这 就 是 说 ， 确 保 来 自 同 一 个 客户 端的 请 求 序 列 能 够 
全 部 定 问 到 同一 台 服 务 器 上 上， 这样 由 服务 器 维护 的 任何 有 关 客 户 问 状态 
的 信息 都 能 保持 准确 。 


一 个 更 灵活 但 也 更 加 复杂 的 解决 方案 是 服务 器 负载 均衡 (server 
load balancing〉。 在 这 种 场景 下 ， 由 一 台 负 载 均 衡 服 务 器 将 客户 并 请 求 
路 由 到 服务 器 集群 中 的 其 中 一 个 成 员 上 。 (为 了 确保 高 可 用 性 ， 可 能 还 
会 有 一 台 备 用 的 服务 器 。 一 旦 负载 均衡 主 服务 器 骨 尝 ， 备 用 服务 器 就 并 
刻 接 管 主 服 务 器 的 任务 。〉 这 消除 了 由 远 端 DNS 绥 存 所 引起 的 问题 ， 
为 服务 器 集群 只 对 外 提供 了 一 个 单独 的 IP 地 址 (也 束 是 负载 均衡 服务 器 
的 IP 地 址 〉，。 负 载 均衡 服务 器 结合 一 些 算法 来 衡量 或 计算 服务 器 负载 
(可 能 是 根据 服务 器 集群 的 成 员 所 提供 的 量 值 )， 并 智能 化 地 将 负载 分 
发 到 集群 中 的 各 个 成 员 之 上 。 人 负载 均衡 服务 器 也 会 自动 检测 集群 中 失效 
的 成 员 《〈 如 果 需 要 ， 还 会 自动 检测 新 增加 的 服务 器 成 员 ) 。 最 后 ， 人 负载 
均衡 服务 器 可 能 还 会 提供 对 服务 占 亲 和 力 的 支持 。 更 多 关于 服务 器 负载 
均衡 的 信息 可 以 在 [Kopparapu, 2002] 中 找到 。 














60.5 inetd (Internet 超 级 服务 器 〉 守 护 进 程 


如 果 我 们 查看 一 下 /etc/services 的 内 容 ， 可 以 看 到 列 出 了 数 百 个 不 同 
的 服务 项 目 。 这 上 暗示 了 一 个 系统 理论 上 可 以 运行 数量 庞大 的 服务 器 进 
程 。 但 是 ， 大 部 分 服务 器 进程 通常 只 是 等 每 着 侦 尔 发 送 过 来 的 连接 请 求 
或 数据 报 ， 除 此 之 外 它们 什么 都 不 做 。 所 有 这 些 服 务 堪 进程 依然 会 占用 
内 核 进 程 表 中 的 槽 位 ， 而 且 也 会 占用 一 些 内 存 和 交换 空间 ， 因 而 对 系统 
产生 了 负载 。 


守护 进程 inetd 被 设计 为 用 来 消除 运行 大 量 非 常用 服务 器 进程 的 需 
要 。inetd 可 提供 两 个 主要 的 好 处 。 


与 其 为 每 个 服务 运行 一 个 单独 的 守护 进程 ， 现 在 只 用 一 个 进程 一 一 
inetd 和 守护 进程 一 一 就 可 以 监视 一 组 指定 的 套 接 字 端口 ， 并 按照 需要 
局 动 其 他 的 服务 。 因 此 可 降低 系统 上 运行 的 进程 数量 。 

inetd 简 化 了 启动 其 他 服务 的 编程 工作 。 因 为 由 inetd 执 行 的 一 些 步 又 
通常 在 所 有 的 网 络 服务 局 动 时 都 会 用 到 。 


由 于 inetd 监 管 着 一 系列 的 服务 ， 可 按照 需要 启动 其 他 的 服务 ， 因 此 
inetd 有 时 候 也 被 称 为 Internet 超 级 服务 器 。 























在 一 些 Linux 发 行 版 中 提供 有 inetd 的 扩展 版 本 一 一 
Xinetd。 除 了 包含 inetd 的 功能 外 ，xinetd 在 安全 性 方面 做 了 
一 些 增强 。 关 于 xinetd 的 信息 可 在 http:/www.xinetd.org/ 上 找 
全 | 


inetd 守 护 进程 所 做 的 操作 


inetd 守 护 进 程 通常 在 系统 启动 时 运行 。 在 成 为 守护 进程 后 〈( 见 37.2 
W) ，inetd 执 行 如 下 步骤 。 


1， 对 于 在 配置 文件 /etcwinetd.conf 中 指定 的 每 项 服务 ，inetd 都 会 创 
建 一 个 恰当 类 型 的 套 接 字 “【〈 即 流 式 套 接 字 或 数据 报 套 接 字 ) ， 然 后 绑 定 
到 指定 的 端口 号 上。 此外， 每 个 TCP 套 接 字 都 会 通过 listen0 调 用 RUE 
户 端 发 来 连接 。 


2. 通过 selectO 调 用 〈( 见 63.2.1 节 ) ，inetd 对 前 一 步 中 创建 的 所 有 套 
接 字 进行 监视 ， 看 是 否 有 数据 报 或 请 求 连接 发 送 过 来 。 


3. selectO0 调 用 进入 阻塞 态 ， 直 到 一 个 UDP 套 接 字 上 有 数据 报 可 读 
在 TCP 连 接 中 ，inetd 在 进入 下 一 个 
步骤 之 前 会 先 为 连接 执行 acceptO 调 用 。 


4. 要 局 动 这 个 套 接 字 上 指定 的 服务 ，inted 调 用 forkO 创 建 一 个 新 的 
ae 然后 百 通 过 exec() 启 动 服 务 嚣 程序。 在 执行 exec() 前 ， 子 进程 执行 如 
下 的 步骤 。 


Ca) 除了 用 于 UDP 数据 报 和 接受 TCP 连 接 的 文件 描述 符 外 ， 将 其 
他 所 有 从 父 进程 继承 而 来 的 文件 描述 符 都 关闭。 


Cb) 使 用 本 书 5.5 节 中 擅 述 的 撤 术 ， 在 文件 描述 符 0、1 和 2 上 复制 
套 接 字 文 件 描述 符 ， 并 关闭 套 接 字 文 件 描述 符 本 号 《因为 已 经 不 需要 它 
T) 。 完 成 这 一 步 之 后 ， 局 动 的 服务 器 进程 就 能 通过 这 三 个 标准 的 文件 
描述 符 同 套 接 字 通信 了 。 


(c) 这 一 步 是 可 选 的 。 为 启动 的 服务 器 进程 设 定 用 户 和 组 ID， 设 
定 的 值 可 在 /etc/inetd.conf 中 的 相应 条 目 找 到 。 


5. 第 3 步 中 ， 如 末 在 TCP 套 接 字 上 接受 了 一 个 连接 ，inetd 就 关闭 这 
连接 套 接 字 《因为 这 个 套 接 字 只 会 在 稍 后 司 动 的 服务 器 进程 中 使 
小 二 


6. inetd 服 务 跳 转 回 第 2 步 继 续 执行 
/etc/inetd.conf 文 件 
inetd 守 护 进 程 的 操作 由 一 个 配置 文件 来 控制 ,通常 


是 /etc/inetd.conf。 该 文件 中 的 每 一 行 都 描述 了 一 种 由 inetd 处 理 的 服务 。 
程序 清单 60-5 展 示 了 一 些 /etc/inetd.conf 文 件 中 的 条 目 以 作为 示例 。 














程序 清单 60-5: /etc/inetd.conf 中 的 示例 行 








# echo stream tcp nowait root internal 
# echo dgram udp wait root internal 


stream tcp nowait root /usr/sbin/tcpd in.ftpd 


telnet stream tcp nowait root /usr/sbin/tcpd in.telnetd 


stream tcp nowait root /usr/sbin/tcpd in.rlogind 





程序 清单 60-5 中 的 前 两 行 由 字符 诗 头 ， 因 此 它们 被 注释 掉 了 。 我 





们 这 里 给 出 这 两 行 是 因为 稍 后 会 简单 所 a 到 echo 服 务 。 


AN a. 


/etc/inetd.conf 文 件 中 的 每 一 行 都 由 以 下 字段 组 成 ， 由 空格 来 将 它们 


OY BaF o 


服务 名 称 (service name) : 该 字段 指定 了 一 项 服务 的 名 称 ， 这 项 
服务 可 在 /etc/services 文 件 中 找到 。 结 合 协 议 字 段 (protocol) ， 就 
可 以 通过 查找 /etc/services 文 件 以 确定 inetd 应 该 为 这 项 服务 监视 哪 一 
个 端口 号 。 

套 接 字 类 型 (Socket type) : 该 字段 指定 了 这 项 服务 所 用 的 套 接 字 
类 型 一 -例如 ， 流 式 套 接 字 (stream) 还 是 数据 报 套 接 字 

(dgram) 。 

协议 Cprotocol) : 该 字段 指定 了 这 个 套 接 字 所 使 用 的 协议 。 这 个 
字段 可 以 包含 文件 /etc/protocols 中 所 列 出 的 任何 Internet 协 议 〈 在 
protocol(5) 用 户 手册 页 中 注 明 ) ， 但 几乎 所 有 的 服务 都 会 指定 

tcp 〈 针 对 TCP 协 议 ) 或 udp〈 针 对 UDP 协议 ) 。 

标记 (flags) : 该 字段 的 内 容 要 么 是 wait， 要 么 是 nowait。 这 个 字 
段 指 明了 由 inetd 局 动 的 服务 器 《暂时 的 ) 是 否 会 接管 用 于 该 服务 的 
套 接 字 。 如 果 局 动 的 服务 器 需要 管理 这 个 套 接 字 ， 那 么 该 字段 被 指 
定 为 wait。 这 将 导致 inetd 把 这 个 套 接 字 从 它 所 监视 (通过 select0 实 
现 对 多 个 文件 描述 符 的 监视 ) 的 文件 描述 符 集 合 中 移 除 ， 直 到 这 个 
服务 器 程序 退出 为 止 〈inetd 可 以 通过 SIGCHLD 的 信和 号 处 理 例 程 来 
i 了 进程 是 人 否 退 出 ) 。 对 于 这 个 字段 ， 我 们 下 面 会 做 更 多 的 说 

HH 。 

登录 名 Coginname) : 该 字段 由 /etc/passwd 中 的 用 户 名 部 分 组 成 ， 
还 可 以 在 其 后 紧 跟 一 个 句号 以 及 一 个 /etc/group 中 的 组 名 称 。 这 些 名 
称 确定 了 运行 的 服务 器 程序 的 用 户 ID 和 组 ID。 “由 于 inetd 以 root 方 
式 运 行 ， 它 的 子 进程 也 同样 是 特权 级 的 ， 因 而 可 以 在 有 需要 的 时 候 
通过 调用 setuid0 和 setgid(0) 来 修改 进程 的 凭据 。) 

服务 器 程序 (server program) : 该 字段 指定 了 被 执行 的 服务 喜 程 序 




















的 路 径 名 。 

服务 器 程序 参数 (server program arguments) : 该 字段 指定 了 一 个 
或 多 个 参数 ， 参 数 之 间 由 空格 符 分 隔 。 当 执行 服务 器 程序 时 ， 这 些 
参数 加 作为 程序 的 参数 列表 。 在 被 执行 的 服务 器 程序 中 ， 第 一 个 参 
数 对 应 于 argv[0]， 通 常 和 服务 器 程序 名 称 的 基础 部 分 相同 。 下 一 个 
参数 对 应 于 argv[1]， 以 此 类 推 。 


在 程序 清单 60-5 中 所 展示 的 有 关 ftp、telnet 以 及 login 服 
务 的 例子 中 ， 我 们 可 以 看 到 服务 器 程序 和 参数 的 设 定 同 前 
面 描述 的 方式 有 上 所 不 同 。 所 有 这 三 种 服务 都 会 寻 致 inetd 调 
用 同样 的 程序 一 一 tcpd(8) 〈TCP 守 护 进程 的 包装 程序 ) 。 
tcpd 在 执行 适当 的 程序 前 会 先 执行 一 些 登 录 和 访问 控制 检 
碍 的 操作 ， 而 这 些 操作 会 根据 服务 器 程序 的 第 一 个 参数 值 
来 进行 (通过 argv[0] 传 递 给 tcpd) 。 更 多 有 关 tcpd 的 信息 可 
以 在 tcpd(8) 用 户 手册 页 以 及 [Mann & Mitchell, 2003] 中 找 
到 。 


由 inetd 调 用 的 流 式 套 接 字 (TCP) 服务 器 通常 都 被 设计 为 只 处 理 一 
个 单独 的 客户 端 连接 ， 处 理 完 后 就 终止 ， 把 监听 其 他 连接 的 任务 留 给 了 
inetd。 对 于 这 样 的 服务 器 ，flags 字 段 应 该 被 设 为 nowait。 CAR, WR 
是 由 被 执行 的 服务 器 进程 来 接受 连接 的 话 ， 那 么 该 字段 就 应 该 设 为 
wait。 此 时 inetd 不 会 去 接受 连接 ， 而 是 将 监听 套 接 字 的 文件 描述 符 当 做 
摘 述 符 0 传 递 给 被 执行 的 服务 器 进程 。) 


对 于 大 部 分 的 UDP 服 务 器 ，flags 字 段 应 该 指定 为 wait。 由 inetd 调 用 
的 UDP 服 务 器 通常 被 设计 为 读 取 并 处 理 所 有 套 接 字 上 未 完成 的 数据 报 ， 
然后 终止 。〔 从 套 接 字 中 读 取 数据 时 ， 通 常 需要 一 些 超时 机 制 ， 这 样 在 
指定 的 时 间 间 隔 内 如 果 没 有 新 的 数据 报到 来 ， 服 务 器 进程 就 会 终止 。) 
通过 指定 为 wait， 我 们 可 以 阻止 inetd 在 套 接 字 上 同时 尝试 做 select() 操 
作 ， 此 时 可 能 会 出 现 我 们 不 期 望 的 结果 ， 因 为 inetd 可 能 会 在 检查 数据 

















报 的 时 候 同 UDP 服务 堪 之 间 产 生 竞争 条 件 。 如 果 inetd 赢 了 ， 那 么 它 会 局 
动 另 一 个 UDP 服务 实例 。 


由 于 inetd 操 作 以 及 它 的 配置 文件 的 格式 并 没有 在 
SUSv3 中 指定 ， 因 此 在 /etcinetd.conf 中 指定 的 值 会 有 一 些 
(通常 很 小 ) 变动 。 大 多 数 版 本 的 inetd 至 少 会 提供 我 们 在 
正文 中 描述 过 的 格式 。 要 得 到 更 多 的 细 市 信息 ， 请 参阅 
inetd.conf(8) 用 户 手 册页 。 





inetd 作 为 一 种 提高 效率 的 机 制 ， 本 里 就 实现 了 一 些 简单 的 服务 ， 而 
不 用 通过 执行 单独 的 服务 器 进程 来 完成 任务 。UDP 和 TCP 的 echo 服 务 束 
是 由 inetd 所 实现 的 例子 。 对 于 这 样 的 服务 ，/etc/inetd.conf 中 服务 嚣 程序 
字段 对 应 的 记录 应 该 是 internal， 而 服务 器 程序 参数 字段 被 忽略 。 CETE 
序 清单 60-5 所 示 的 例子 中 ， 我 们 看 到 echo 服 务 补 注释 挥 了 。 要 启用 echo 
ARE, FQN BRIAN ES AK.) 


当 我 们 修改 了 /etcinetd.conf 文 件 后 ， 需 要 发 送 一 个 SIGHUP 信 和 号 给 
inetd， 请 求 它 重 新 读 取 配置 文件 。 


# killall -HUP inetd 
示例 : 通过 inetd 调 用 一 个 TCP echo 服 务 

之 前 我 们 提 到 了 inetd 可 以 简化 服务 器 程序 的 编程 工作 ， 特 别 是 并 发 
型 (通常 是 TCP〉 服 务 嚣 。 这 是 因为 inetd 已 经 帮 它 所 调用 的 服务 器 程序 
完成 了 以 下 步骤 。 


1. 执行 所 有 和 套 接 字 相关 的 初始 化 工作 ， 调 用 socket()、bindO 以 及 
listen0〈 针 对 TCP 服 务 器 ) 。 


2. 对 于 一 个 TCP 服 务 ， 为 新 到 来 的 连接 执行 accept() 操 作 。 
3. 创建 一 个 新 的 进程 来 处 理 到 来 的 UDP 数据 报 或 者 是 TCP 连 接 。 














目 动 将 调用 的 服务 器 进程 设置 为 守护 进程 。inetd 通 过 forkO 处 理 所 有 与 
进程 创建 相关 的 细节 ， 通 过 SIGCHLD 信 和 号 处 理 例 程 清除 所 有 退出 的 子 
进程 。 

4. 将 代表 UDP 和 套 接 字 或 TCP 连 接 套 接 字 的 文件 描述 符 复 制 到 标准 
文件 描述 符 0、1 和 2 上 ， 并 关闭 所 有 其 他 的 文件 描述 符 《〈 因 为 它们 并 不 
会 在 调用 的 服务 器 进程 中 用 到 ) 。 

5. 执行 服务 器 程序 。 


《在 上 面 描述 的 步骤 中 ， 我 们 假设 TCP 服 务 在 /etcinetd.conf 中 的 
flags 字 段 指定 为 nowait， 而 UDP 服务 的 flags 字 段 指定 为 wait。 ) 





在 程序 清单 60-6 中 我 们 展示 了 inetd 是 如 何 简化 TCP 服 务 的 编程 工作 
的 。 我 们 让 inetd 调 用 了 一 个 TCP echo 服 务 ， 该 服务 同 程序 清单 60-4 所 示 
的 TCP echo 服 务 相 同 。 由 于 inetd 执 行 了 所 有 上 述 描述 过 的 步骤 ， 因 此 剩 
下 的 任务 就 是 编写 子 进程 所 执行 的 处 理 客户 端 请 求 的 代码 ， 客 户 端 请 求 
可 以 从 文件 描述 符 0 (STDIN_FILENO) 读 取 。 





如 果 服 务 嚣 程序 在 /bin 目 录 下 〈 打 个 比方 )， 那 么 我 们 可 能 需要 
在 /etcinetd.conf 文 件 中 创建 如 下 的 条 目 ， 使 得 inetd 可 以 调用 该 服务 器 程 
序 。 


echo stream tcp nowait root /bin/is echo inetd sv is echo inetd sv 








程序 清单 60-6: 通过 inetd 调 用 TCP echo 服 务 








sockets/is_echo_inetd_sv.c 


#include <syslog.h> 
#include "tlpi_hdr.h" 


#define BUF_SIZE 4096 


int 
main(int argc, char *argv[]) 


char buf[BUF SIZE]; 
ssize_t numRead; 


while ((numRead = read(STDIN FILENO, buf, BUF SIZE)) > 0) { 
if (write(STDOUT FILENO, buf, numRead) != numRead) { 
syslog(LOG_ERR, "write() failed: %s", strerror(errno)); 
exit(EXIT FAILURE) ; 


} 
if (numRead == -1) { 


syslog(LOG_ERR, “Error from read(): %s", strerror(errno)); 
exit(EXIT FAILURE); 


} 


exit(EXIT SUCCESS); 


sockets/is echo inetd sv.c 


60.6 总结 


友 代 型 服务 器 一 次 只 处 理 一 个 客户 跨 ， 在 处 理 下 一 个 客 忆 站 请 求 之 
前 必须 将 当前 客户 端的 请 求 处 理 完 毕 。 并 发 型 服务 喜 可 以 同时 处 理 多 个 
客户 端 请 求 。 在 局 负载 的 情况 下 ， 传 统 的 并 发 型 服务 器 为 每 个 客户 端 创 
建新 的 子 进程 (或 线程 》， 这 样 的 性 能 表现 并 不 能 达到 要 求 。 为 此 ， 我 
Ree 的 并 发 型 服务 器 ， 列 举 出 了 一 些 其 他 的 
设计 方法 。 


Internet 超 级 服务 器 守护 进程 inetd 可 以 监视 多 个 套 接 字 ， 并 局 动 合适 
的 服务 器 进程 作为 到 来 的 UDP 数 据 报 或 TCP 连 接 的 啊 应 。 通 过 使 用 
inetd， 可 以 将 运行 在 系统 上 的 网 络 服务 进程 的 数量 降 到 最 小 ， 从 而 降低 
系统 的 整体 负载 。 同 时 ， 也 可 以 简化 服务 器 端的 编程 工作 。 因 为 服务 器 
进程 初始 化 阶段 所 需要 的 大 部 分 操作 inetd 都 可 以 帮 我 们 完成 。 


更 多 信息 
参见 59.15 市 中 列 出 的 更 多 信息 来 源 。 











60.7 练习 


60-1. 为 程序 清单 60-4 Cis_echo_sv.c) 中 的 程序 增加 代码 ， 使 得 可 
同时 运行 的 子 进 程 数量 有 一 个 上 限 。 


60-2. 有 时 候 可 能 需要 编写 一 个 套 接 字 服务 器 ， 使 得 它 既 可 以 直接 
在 命令 行 上 调用 也 可 以 间接 地 通过 inetd 来 调用 。 此 时 ， 命 令 行 选项 可 用 
来 区 分 这 两 种 情况 。 修 改 程序 清单 60-4 中 的 程序 ， 使 得 如 果 给 定 了 命令 
行 选项 -i， 就 认为 程序 是 通过 inetd 来 调用 的 ， 并 在 连接 套 接 字 上 通过 
inetd 提 供 的 STDIN_FILENO 文 件 描述 符 来 处 理 单 个 客户 端 。 如 果 没 有 给 
出 -i 选项 ， 那 么 程序 就 假设 它 是 在 命令 行 上 调用 ， 以 正常 方式 工作 。 
(这 项 修改 只 需要 增加 几 行 代码 就 够 了 。) 修改 /etc/inetd.conf 文 件 ， 为 
echo 服 务 调用 这 个 程序 。 

















OFFRE: 强烈 觉得 原文 应 该 是 每 秒 ， 而 不 是 每 分 钟 。 因 为 以 分 钟 来 
算 ， 这 负载 不 算 高 。 


DZE: 通常 我 们 称 之 为 线程 池 或 进程 池 。 


612 SOCKET: 高 级 主题 


如 下 


Hy 











ANE S AY Socket BRF) WEAK BRE, A 


流 式 套 接 字 上 可 能 会 出 现 的 部 分 读 和 部 分 写 的 情况 。 

采用 shutdown0 关 闭 两 个 互 连 套 接 字 之 间 双 回 通 道 的 其 中 一 端 。 
recv() 和 send() WO 系统 调用 。 它 们 可 提供 特定 于 套 接 字 的 功能 ， 而 
这 些 是 read0 和 writeO 所 不 具有 的 。 

sendfile() 系 统 调用 。 在 特定 场景 下 可 用 来 高 效 地 将 数据 输出 到 套 接 
字 上 。 

TCP 协 议 的 操作 细节 。 目 的 是 为 了 消除 一 些 和 常见 的 误解 ， 当 编写 使 
用 TCP 套 接 字 的 程序 时 ， 这 些 误解 常 导致 出 现 错误 。 

使 用 netstat 以 及 tcpdump 命 令 来 监视 和 调试 使 用 套 接 字 的 应 用 程序 。 
使 用 getsockopt() 以 及 setsockopt() 系 统 调用 来 获取 并 修改 能 够 影响 套 
接 字 操作 的 选项 。 


我 们 也 考虑 到 了 一 些 其 他 次 要 的 主题 。 在 本 章 结 尾 处 我 们 对 套 接 字 
Hey MT HEAL SEA A o 














61.1 流 陈 套 接 字 上 的 部 分 谈 和 部 分 号 


当 首 次 在 第 4 章 中 介绍 read0 和 writeO0 系 统 调用 时 ， 我 们 注意 到 在 某 
些 情况 下 ， 它 们 传输 的 数据 可 能 会 比 请 求 的 要 少 。 当 在 流 式 套 接 字 上 执 
行 JO 操 作 时 ， 也 会 出 现 这 种 部 分 传输 的 现象 。 现 在 我 们 来 思考 为 什么 
并 癌 大 家 展示 一 对 能 以 透明 的 方式 处 理 部 分 传输 问题 
N PK% 3 


如 果 套 接 字 上 可 用 的 数据 比 在 read0 调 用 中 请 求 的 数据 要 少 ， 那 就 
可 能 会 出 现 部 分 读 的 现象 。 在 这 种 情况 下 ，read0 简 单 地 返回 可 用 的 字 
(这 同 我 们 在 44.10 市 中 看 到 的 管道 和 FIFO 所 表现 出 的 行为 一 
Fo ) 


如 采 没 有 足够 的 缓冲 区 空间 来 传输 所 有 请 求 的 字 节 ， 并 且 满 足 了 如 
下 几 条 的 其 中 一 条 时 ， 可 能 会 出 现 部 分 写 的 现象 。 


。 在 write0) 调 用 传输 了 部 分 请 求 的 字 节 后 被 信号 处 理 例 程 中 断 〈 见 
PMS ds 

e 套 接 字 工 作 在 非 阻 塞 模式 下 CO_NONBLOCK) ， 可 能 当前 只 能 传 
输 一 部 分 请 求 的 字 节 。 

。 在 部 分 请 求 的 字 节 已 经 完成 传输 后 出 现 了 一 个 异步 错误 。 对 于 这 里 
的 异步 错误 ， 我 们 指 的 是 应 用 程序 使 用 的 套 接 字 API 调 用 中 出 现 了 
一 个 异步 错误 。 异 步 错 误 是 可 能 会 发 生 的 ， 比 如 ， 由 于 TCP 连 接 出 
现 问 题 ， 可 能 就 会 使 对 端的 应 用 程序 崩 淡 。 


在 所 有 上 述 情 况 中 ， 假 设 缓冲 区 空间 人 至少 能 传输 1 字 市 数据 ， 
write0) 调 用 成 功 ， 并 返回 传输 到 输出 缓冲 区 中 的 字 节 数 。 


如 果 出 现 了 部 分 WO 现象 一 一 例如 ， 如 果 read() 返 回 的 字 节 数 少 于 请 
求 的 数量 ， 又 或 者 是 阻塞 式 的 writeO0 调 用 在 完成 了 部 分 数据 传输 后 被 信 
号 处 理 例 程 中 断 一 一 那么 有 时 候 需要 重新 调用 系统 调用 来 完成 全 部 数据 
的 传输 。 在 程序 清单 61-1 中 ， 我 们 提供 了 两 个 函数 能 做 到 这 一 点 : 
readn() 和 writen()。 《实现 这 两 个 函数 的 想法 源 自 [Stevens et al., 2004] 中 
的 同名 函数 。) 
































#include "rdwrn.h" 
ssize_t readn(int fd, void *buffer, size_t count); 

Returns number of bytes read, 0 on EOF, or -1 on error 
ssize_t writen(int fd, void *buffer, size_t count); 


Returns number of bytes written, or -] on error 








函数 readn0 和 writen(0) 的 参数 与 read0 和 write0 相 同 。 但 是 ， 这 两 个 
函数 使 用 循环 来 重新 启用 这 些 系统 调用 ， 因 此 确保 了 请 求 的 字 市 数 总 是 
能 够 全 部 得 到 传输 (除非 出 现 错误 或 者 在 readO) 中 检测 到 了 文件 结尾 
FF) o 





程序 清单 61-1: 实现 readn0 和 writen() 





sockets/rdwrn.c 


#include <unistd.h> 
#include <errno.h> 


#include “rdwrn.h" /* Declares readn() and writen() */ 
ssize t 
readn(int fd, void *buffer, size t n) 
{ 
ssize t numRead; /* # of bytes fetched by last read() */ 
size t totRead; /* Total # of bytes read so far */ 
char *buf; 
buf = buffer; /* No pointer arithmetic on "void *" */ 


for (totRead = 0; totRead < n; ) { 
numRead = read(fd, buf, n - totRead); 


if (numRead == 0) /* EOF */ 
return totRead; /* May be 0 if this is first read() */ 
if (numRead == -1) { 
if (errno == EINTR) 
continue; 
else 
return -1; /* Some other error */ 


o. 


* Interrupted --> restart read() */ 


} 


totRead += numRead; 
buf += numRead; 


} 
return totRead; /* Must be 'n' bytes if we get here */ 
} 
ssize t 
writen(int fd, const void *buffer, size_t n) 
{ 
ssize_t numWritten; /* # of bytes written by last write() */ 
size_t totWritten; /* Total # of bytes written so far */ 
const char *buf; 
buf = buffer; /* No pointer arithmetic on "void *" */ 
for (totWritten = 0; totWritten < n; ) { 
numWritten = write(fd, buf, n - totWritten); 
if (numWritten <= 0) { 
if (numWritten == -1 && errno == EINTR) 
continue; /* Interrupted --> restart write() */ 
else 
return -1; /* Some other error */ 
totWritten += numWritten; 
buf += numWritten; 
return totwWritten; /* Must be 'n' bytes if we get here */ 
} 


sockets/rdwrn.c 


61.2 ” shutdownO0 系 纺 调 用 


在 套 接 字 上 调用 dose() 会 将 双 回 通信 通道 的 两 端 都 关闭 。 有 时候 ， 
只 关闭 连接 的 一 端 也 是 有 用 处 的 ， 这 样 数 据 只 能 在 一 个 方向 上 通过 套 接 
字 传 输 。 系 统 调用 shutdown0 提 供 了 这 种 功能 。 








#include <sys/socket.h> 


int shutdown(int sock/d, int how); 


Returns 0 on success, or -1 on error 














系统 调用 shutdownO 可 以 根据 参数 how 的 值 选 择 关 闭 套 接 字 通道 的 
一 端 还 是 两 端 。 参 数 how 的 值 可 以 指定 为 如 下 几 种 。 


SHUT_RD 


关闭 连接 的 读 端 。 之 后 的 读 操作 将 返回 文件 结尾 (0) 。 数 据 仍然 
可 以 写 入 到 套 接 字 上 。 在 UNIX 域 流 式 套 接 字 上 执行 了 SHUT_RD 操 作 
后 ， 对 端 应 用 程序 将 接收 到 一 个 SIGPIPE 信 号 ， 如 果 继 续 尝 试 在 对 端 套 
接 字 上 做 写 操作 的 话 将 产生 EPIPE 错 误 。 如 61.6.6 节 中 讨论 的 ， 
SHUT_RD 对 于 TCP 套 接 字 来 说 没有 什么 意义 。 


SHUT_WR 


关闭 连接 的 写 端 。 一 旦 对 端的 应 用 程序 已 经 将 所 有 剩余 的 数据 读 取 
完毕 ， 它 就 会 检测 到 文件 结尾 。 后 续 对 本 地 套 接 字 的 写 操作 将 产生 
SIGPIPE 信 号 以 及 EPIPE 错 误 。 而 由 对 端 写 入 的 数据 仍然 可 以 在 套 接 字 
上 读 取 。 换 名 话说 ， 这 个 操作 允许 我 们 在 仍然 能 读 取 对 端 发 回 给 我 们 的 
数据 时 ， 通 过 文件 结尾 来 通知 对 端 应 用 程序 本 地 的 写 端 已 经 关闭 了 。 
SHUT_WR 操 作 在 ssh 和 rsh 中 都 有 用 到 (参见 [Stevens，1994] 中 的 18.5 
节 ) 。 在 shutdown0O 中 最 常用 到 的 操作 就 是 SHUT_WR， 有 时候 也 被 称 
为 半 关 闭 套 接 字 。 


SHUT_RDWR 


将 连接 的 读 端 和 写 端 都 关闭 。 这 等 同 于 先 执行 SHUT_RD， 跟 着 再 
执行 一 次 SHUT_WR 操 作 。 





除了 参数 how 的 语义 之 外 ，shutdownO 同 close0 之 间 的 另 一 个 重要 区 
别 是 : 无 论 该 套 接 字 上 有 是否 还 关联 有 其 他 的 文件 摘 述 符 ，shutdownO 都 
会 关闭 套 接 字 通 道 。 〈 换 句 话 说 ，shutdownO 是 根据 打开 的 文件 描述 
Copen file description) 来 执行 操作 ， 而 同文 件 描述 符 无 关 。 见 图 5- 

1。) 例如 ， 假 设 sockfd 指 癌 一 个 已 连接 的 流 式 套 接 字 ， 如 果 执 行 下 列 调 
用 ， 那 么 连接 依然 会 保持 打开 状态 ， 我 们 仍然 可 以 通过 文件 描述 符 fd2 
在 该 连接 上 做 IO 操作 。 


fd2 = dup(sockfd); 
close(sockfd); 


ae 如 果 我 们 执行 如 下 的 调用 ， 那 么 该 连接 的 双 癌 通道 都 会 关 
闭 ， 通 过 fd2 也 无 法 再 执行 WO 操作 了 。 


fd2 = dup(sockfd); 
shutdown(sockfd, SHUT RDWR); 


如 果 套 接 字 文件 描述 符 在 fork0 时 被 复制 ， 那 么 此 时 也 会 出 现 相似 
的 场景 。 如 果 在 forkO 调 用 之 后 ， 一 个 进程 在 描述 符 的 副本 上 执行 一 次 
nee 那么 其 他 的 进程 就 无 法 再 在 这 个 文件 描述 符 上 执行 
IO 操作 了 


要 注意 的 是 ，shutdownO 并 不 会 关 ， ， 就 算 参 数 how 
ie sn RDWR 时 也 是 如 此 。 要 关闭 文件 描述 ， 我 们 必须 另外 调 
close() 


示例 程序 


程序 清单 61-2 中 的 程序 说 明了 应 该 如 何 使 用 shutdown0 的 SHUT_WR 
操作 。 这 个 程序 是 echo 服 务 的 TCP 客 户 端 。〔 我 们 在 60.3 节 中 给 出 了 一 
个 TCP echo 服 务 器 程序 ) 。 为 了 简化 实现 ， 我 们 利用 了 59.12 节 中 的 
Internet 域 套 接 字 函数 库 。 














有 些 Linux 发 行 版 中 ， 默 认 情况 下 是 没有 启用 echo 服 务 
的 。 因 此 我 们 必须 在 运行 程序 清单 61-2 中 的 程序 之 前 先 启 
动 echo 服 务 。 一 般 来 说 ， 这 个 服务 是 通过 inetd(8) 守 护 进 程 


在 内 部 实现 的 〈 见 60.5 节 ) ， 要 启动 echo 服 务 ， 我 们 必须 编 
辑 /etc/inetd.conf 文 件 ， 将 对 应 于 UDP 和 TCP echo 服 务 的 那 
两 行 去 掉 注 释 〈 见 60-5 节 ) ， 然 后 发 送 一 个 SIGHUP 信 和 号 给 
inetd 守 护 进 程 。 


许多 发 行 版 中 都 有 提供 更 先进 的 xinetd(8)， 以 此 取代 
inetd(8)。 请 参考 xinetd 的 文档 以 获取 信息 ， 了 解 如 何 通过 
xinetd 完 成 同样 的 任务 。 





该 程序 将 运行 echo 服 务 的 主机 名 称 以 命令 行 参数 的 方式 传递 。 客 户 
端 执行 一 次 fork() 调 用 ， 产 生父 子 进程 。 


客户 问 父 进程 将 标准 输入 的 内 容 写 到 套 接 字 上 ， 这 样 就 可 以 被 echo 
服务 器 该 取 了 。 当 父 进 程 在 标准 输入 上 检测 到 文件 结尾 时 ， 调 用 
shutdown() 来 关闭 该 套 接 字 上 的 写 端 。 这 将 导致 echo 服 务 器 检测 到 文件 
结尾 ， 此 时 echo 服 务 束 会 关闭 它 这 问 的 套 接 字 〈 进 而 导致 客户 端子 进程 
检测 到 文件 结尾 ) 。 之 后 ， 父 进程 终止 。 


客户 端子 进程 从 套 接 字 中 读 取 echo 服 务 器 的 响应 ， 并 回 显 到 标准 输 
出 上 。 当 在 套 接 字 上 检 调 到 文件 结尾 时 ， 子 进程 终止 。 


当 我 们 运行 该 程序 时 会 看 到 类 似 下 面 的 输出 。 


$ cat > tell-tale-heart.txt Create a file for testing 
It is impossible to say how the idea entered my brain; 

but once conceived, it haunted me day and night. 

Type Control-D 

$ ./is_echo_cl tekapo < tell-tale-heart.txt 

It is impossible to say how the idea entered my brain; 

but once conceived, it haunted me day and night. 








程序 清单 61-2: echo 服 务 的 客户 端 程序 














sockets/is echo _cl.c 


#include "inet_sockets.h" 
#include "tlpi_hdr.h" 


define BUF_SIZE 100 


int 
main(int argc, char *argv[]) 


int sfd; 
ssize t numRead; 
char buf[BUF SIZE]; 


if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s host\n", argv[0]); 


sfd = inetConnect(argv[1], "echo", SOCK STREAM); 
if (sfd == -1) 
errExit("inetConnect") ; 


switch (fork{)) { 
case -1: 
errExit("fork"); 


case 0: /* Child: read server's response, echo on stdout */ 
for (53) { 
numRead = read(sfd, buf, BUF SIZE); 
if (numRead <= 0) /* Exit on EOF or error */ 
break; 
printf("%.*s", (int) numRead, buf); 
} 
exit(EXIT_ SUCCESS); 
default: /* Parent: write contents of stdin to socket */ 
for GI 
numRead = read(STDIN_FILENO, buf, BUF SIZE); 
if (numRead <= 0) /* Exit loop on EOF or error */ 
break; 


if (write(sfd, buf, numRead) != numRead) 
fatal("write() failed"); 


} 


/* Close writing channel, so server sees EOF */ 
if (shutdown(sfd, SHUT WR) == -1) 


errExit("shutdown") ; 
exit(EXIT_SUCCESS); 


sockets/is_echo_cl.c 


61.3 ”专用 于 套 接 字 的 MO 系统 调用 : recv0 和 
send() 
recv0 和 send0 系 统 调用 可 在 已 连接 的 套 接 字 上 执行 1O 操 作 。 它 们 


提供 了 专属 于 套 接 字 的 功能 ， 而 这 些 功 能 在 传统 的 read0 和 write0 系 统 调 
用 中 是 没有 的 。 








#include <sys/socket.h> 
ssize t recv(int sockfd, void *buffer, size_t length, int flags); 

Returns number of bytes received, 0 on EOF, or -1 on error 
ssize t send(int sockfd, const void *buffer, size t length, int flags); 


Returns number of bytes sent, or -1 on error 











recvO0 和 send0 的 返回 值 以 及 前 3 个 参数 同 read0 和 write0 一 样 。 最 后 
一 个 参数 flags 是 一 个 位 手 人 名， 用 来 修改 IO 操作 的 行为 。 对 于 recv(0) 来 
说 ， 该 参数 可 以 为 下 列 值 相 或 的 结 


MSG_DONTWAIT 


让 recvO 以 非 阻塞 方式 执行 。 如 果 没 有 数据 可 用 ， 那 么 recv0 不 会 阻 
塞 而 是 立刻 返回 ， 伴 随 的 错误 码 为 EAGAIN。 我 们 可 以 通过 fcntlO0 把 套 
接 字 设 为 非 阻 塞 模式 COLNONBLOCK) 从 而 达到 相同 的 效果 。 区 别 在 
于 MSG_DONTWAIT 人 允许 我 们 在 每 次 调用 中 控制 非 阻塞 行为 。 


MSG_OOB 


在 套 接 字 上 接收 带 外 数据 。 我 们 将 在 61.13.1 节 中 简要 描述 这 个 特 





MSG_PEEK 


从 套 接 字 绥 冲 区 中 获取 一 份 请 求 字 节 的 副本 ， 但 不 会 将 请 求 的 字 贡 
aa 区 中 实际 移 除 。 这 份 数据 稍 后 可 以 由 其 他 的 recv0) 或 read0 调 用 重 
新 读 取 。 


MSG_WAITALL 





通常 ，recv0 调 用 返回 的 字 节 数 比 请 求 的 字 节 数 〈 由 length 参 数 指 
定 ) 要 少 ， 而 那些 字 节 实际 上 还 在 套 接 字 中 。 指 定 了 MSG_WAITALL 
标记 后 将 导致 系统 调用 阻塞， 直到 成 功 接收 到 length 个 字 节 。 但 是 ， 就 
算 指 定 了 这 个 标记 ， 当 出 现 如 下 情况 时 ， 该 调用 返回 的 字 节 数 可 能 还 是 
会 少 于 请 求 的 字 节 。 这 些 情 况 是 : (a) 捕获 到 一 个 信号 ; (b) ARE 
接 字 的 对 端 终止 了 连接 :; (o 遇 到 了 带 外 数据 字 节 《参见 61.13.1 
节 ) d 从 数据 报 套 接 字 接 收 到 的 消息 长 度 小 于 length 个 字 节 ; 
(e) 套 接 字 上 出 现 了 错误 。 (MSG_WAITALL 标 记 可 以 取代 我 们 在 程 
序 清单 61-1 中 给 出 的 readnO 函 数 ， 区 别 在 于 我 们 实现 的 readn0 函 数 在 被 
信号 处 理 例 程 中 断后 会 重新 得 到 调用 。) 


除了 MSG_DONTWAIT 之 外 ， 以 上 所 有 标记 都 在 SUSv3 中 有 规范 。 
MSG_DONTWAIT 也 存在 于 其 他 一 些 UNIX 实 现 中 。 这 个 标记 加 入 到 套 
接 字 API 的 时 间 比 较 晚 ， 在 一 些 老式 的 实现 中 并 不 存在 。 


对 于 send()，flags 参 数 可 以 是 以 下 值 相 或 的 结果 。 
MSG_DONTWAIT 


让 send0 〇 以 非 阻 塞 方式 执行 。 如 果 数 据 不 能 立刻 传输 (因为 套 接 字 
发 送 绥 冲 区 已 满 ) ， 那 么 该 调用 不 会 阻塞 ， 而 是 调用 失败 ， 伴 随 的 错误 
码 为 EAGAIN。 和 recv() 一 样 ， 可 以 通过 对 套 接 字 设 定 O_NONBLOCK 标 
记 来 实现 同样 的 效果 。 


MSG MORE (从 Linux 2.4.4 开 始 ) 


在 TCP 套 接 字 上 ， 这 个 标记 实现 的 效果 同 套 接 字 选 项 

TCP_CORK (61.495) 完成 的 功能 相同 。 区 别 在 于 该 标记 可 以 在 每 次 
调用 中 对 数据 进行 栓塞 处 理 。 从 Linux 2.6 版 以 来 ， 这 个 标记 也 可 以 用 于 
数据 报 套 接 字 ， 但 所 代表 的 意义 有 所 不 同 。 在 连续 的 send0 或 sendto0) 调 
用 中 传输 的 数据 ， 如 果 指 定 了 MSG_MORE 标 记 ， 那 么 数据 会 打包 成 一 
个 单独 的 数据 报 。 仅 当下 一 次 调用 中 没有 指定 该 标记 时 数据 才 会 传输 出 
去 。 (Linux 也 提供 了 类 似 的 UDP_CORK 套 接 字 选项 ， 这 将 导致 在 连续 
的 send0 或 sendto0 调 用 中 传输 的 数据 会 累积 成 一 个 单独 的 数据 报 ， 当 取 
消 UDP_CORK 选 项 时 才 会 将 其 发 送出 去 。) MSG_MORE 标 记 对 UNIX 
域 套 接 字 没有 任何 效果 。 


MSG_NOSIGNAL 























当 在 已 连接 的 流 式 套 接 字 上 发 送 数据 时 ， 如 果 连 接 的 另 一 端 已 经 关 
闭 了 ， 指 定 该 标记 后 将 不 会 产生 SIGPIPE 信 和 号。 相反 ，send0 调 用 会 失 
败 ， 伴 随 的 错误 码 为 EPIPE。 这 和 和 忽略 SIGPIPE 信 号 所 得 到 的 行为 相 
同 。 区 别 在 于 该 标记 可 以 在 每 次 调用 中 控制 信号 发 送 的 行为 。 

MSG_OOB 


在 流 式 套 接 字 上 发 送 带 外 数据 。 参 见 61.13.1 节 。 


以 上 标记 中 只 有 MSG _OOB 在 SUSv3 中 有 规范 。MSG_DONTWAIT 
标记 也 在 其 他 一 些 UNIX 实 现 中 出 现 过 ， 而 MSG_NOSIGNAL 和 
MSG_MORE 都 是 Linux 专 有 的 。 


l send(2) 和 recv(2) 的 用 户 手册 页 中 还 描述 了 一 些 这 里 没有 介绍 到 的 标 
Woo 


61.4 ”sendfile() 系 统 调用 


像 wWeb 服 务 器 和 文件 服务 器 这 样 的 应 用 程序 常常 需要 将 磁盘 上 的 文 
件 内 容 不 做 修改 地 通过 (已 连接 ) 套 接 字 传输 出 去 。 一 种 方法 是 通过 循 
环 按照 如 下 方式 处 理 。 


while ((n = read(diskfilefd, buf, BUZ SIZE)) > 0) 
write(sockfd, buf, n); 


对 于 许多 应 用 程序 来 说 ， 这 样 的 循环 是 完全 可 接受 的 。 但 是 ， 如 宋 
我 们 需要 通过 套 接 字 频繁 地 传输 大 文件 的 话 ， 这 种 技术 就 显得 很 不 局 
效 。 为 了 传输 文件 ， 我 们 必须 使 用 两 个 系统 调用 (可 能 需要 在 循环 中 多 
次 调用 ) : 一 个 用 来 将 文件 内 容 从 内 核 缓冲 区 cache 中 找 贝 到 用 户 空 
间 ， 为 一 个 用 来 将 用 户 空间 缓冲 区 拷贝 回 内 核 空间 ， 以 此 才能 通过 套 接 
字 进 行 传输 。 图 61-1 的 左 侧 展示 了 这 种 场景 。 如 果 应 用 程序 在 发 起 传输 
之 前 根本 不 对 文件 内 容 做 任何 处 理 的 话 ， 那 么 这 种 两 步 式 的 处 理 就 是 一 
种 浪费 。 系 统 调用 sendfile() 钻 设计 为 用 来 消除 这 种 低 效 性 。 如 图 61-1 石 
侧 所 示 ， 当 应 用 程序 调用 sendfile0 时 ， 文 件 内 容 会 直接 传送 到 和 套 接 字 
上 ， 而 不 会 经 过 用 户 空 间 。 这 种 技术 科 称 为 零 拷 贝 传 输 〈zero-copy 


transfer) 。 
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a) read() + write() b) sendfile() 


图 61-1: 将 文件 内 容 传送 到 套 接 字 上 





#include <sys/sendfile.h> 


ssize_t sendfile(int owul fad, int in_fd, off_t *offsel, size_t count); 








Returns number of bytes transferred, or -1 on error 





系统 调用 sendfile() 在 代表 输入 文件 的 描述 符 in_fd 和 代表 输出 文件 的 
描述 符 out_fd 之 间 传 送 文 件 内 容 〈( 字 节 )〉 。 描 述 符 out_fd 必 须 指向 一 个 
套 接 字 。 参 数 in_fd 指 向 的 文件 必须 是 可 以 进行 mmap0 操 作 的 。 在 实践 
中 ， 这 通常 表示 一 个 普通 文件 。 这 些 局 限 多 少 限制 了 sendfile() 的 使 用 。 
我 们 可 以 使 用 sendfile() 将 数据 从 文件 传递 到 套 接 字 上 ， 但 反 过 来 就 不 
行 。 另 外 ， 我 们 也 不 能 通过 sendfile0 在 两 个 套 接 字 之 间 直 接 传 送 数据 。 





如 果 sendfile() 可 以 用 来 在 两 个 普通 文件 之 则 传送 字 
节 ， 也 可 以 获得 性 能 上 的 优势 。 在 Linux 2.4 及 早期 版 本 
中 ，out_fd 是 可 以 指向 一 个 普通 文件 的 。 内 核 压 层 实现 做 了 
修改 之 后 意味 着 这 种 用 法 在 2.6 版 的 内 核 中 消失 了 。 但 是 ， 
这 个 功能 在 今后 的 内 核 版 本 中 可 能 会 重新 启用 。 


如 果 参 数 offset 不 是 NULL， 它 应 该 指 癌 一 个 off_t 值 ， 该 值 指定 了 起 
台 文 件 的 偏 移 量 ， 意 即 从 in_fd 指 同 的 文件 的 这 个 位 置 开 始 ， 可 以 传输 字 
节 。 这 是 一 个 传 入 传 出 参数 (又 叫 值 一 结果 参数 ) 。 在 返回 的 值 中 ， 它 
包含 从 in_fd 传 输 过 来 的 紧 靠 着 最 后 一 个 字 节 的 下 一 个 字 节 的 偏 移 量 中 。 
在 这 里 ，serdfile() 不 会 更 改 in_fd 的 文件 偏 移 量 。 


如 果 参 数 offset 指 定 为 NULEL 的 话 ， 那 么 从 记 _fd 传 输 的 字 节 就 从 当前 
且 在 传输 时 会 更 新 文件 偏 移 量 以 反映 出 已 传输 的 


参数 count 指 定 了 请 求 传输 的 字 市 数 。 如 果 在 count 个 字 市 完成 传输 


前 就 遇 到 了 文件 结尾 符 ， 那 么 H 有 文件 结尾 符 之 前 的 那些 字 市 能 传输 。 
调用 成 功 后 ，sendfile() 会 返回 实际 传输 的 字 节 数 。 








SUSv3 中 并 没有 指定 sendfile0。 还 有 几 种 不 同 版 本 的 sendfile0 在 其 
他 UNIX 实 现 中 也 存在 ， 但 参数 列表 一 般 同 Linux 下 的 sendfile() 不 同 。 


从 2.6.16 版 内 核 开 始 ，Linux 提 供 了 3 个 新 的 〈 非 标准 
的 ) 系统 调用 一 一 splice()，vmsplice() 以 及 tee() 一 一 这 些 系 
统 调用 提供 了 sendfile() 功 能 的 超 集 。 请 参见 用 户 手 册页 以 
获得 更 多 细节 。 


TCP_CORK 套 接 字 选项 


要 进一步 提高 TCP 应 用 使 用 sendfileO 时 的 性 能 ， 采 用 Linux 专 有 的 套 
接 字 选项 TCP_CORK 常 常会 很 有 帮助 。 例 如 ，Web 服 务 器 传送 页 面 给 浏 
览 器 ， 作 为 对 请 求 的 啊 应 。Web 服 务 器 的 啊 应 由 两 部 分 组 成 :HTTP 首 
部 ， 也 许 会 通过 write() 来 输出 ， 页 面 数 据 ， 可 以 通过 sendfile() 来 输出 。 
在 这 种 场景 下 ， 通 常会 传输 2 个 TCP 报 文 段 ，HTTP 首 部 在 第 一 个 (非常 
AN) 报 文 段 中 ， 而 页 面 数据 在 第 二 个 报 文 段 中 发 送 。 这 对 网 络 帝 宽 的 利 
用 率 是 不 够 高 效 的 。 可 能 还 会 在 发 送 和 接收 TCP 报 文 时 做 些 不 必要 的 工 
作 ， 因 为 在 许多 情况 下 HTTP 首 部 和 页 面 数 据 都 比较 小 ， 足 以 容纳 在 一 
T a a a 


当 在 TCP 套 接 字 上 启用 了 TCP_CORK 选 项 后 ， 之 后 所 有 的 输出 都 会 
缓冲 到 一 个 单独 的 TCP 报 文 段 中 ， 直 到 满足 以 下 条 件 为 止 : 已 达到 报 文 
段 的 大 小 上 限 、 取 消 了 TCP_CORK 选 项 、 套 接 字 被 关闭 ， 或 者 当 启 用 
TCP_CORK 后 ， 从 写 入 第 一 个 字 节 开始 已 经 经 历 了 200 坚 秒 。〈 如 果 应 
用 程序 忘记 取消 TCP_CORK 选 项 ， 那 么 超时 时 间 可 确保 被 缓冲 的 数据 能 
得 以 传输 。) 

我 们 通过 setsockoptO 系 统 调用 《〈 见 61.9 节 ) 来 启用 或 取消 


TCP_CORK 选 项 。 下 面 的 代码 (省 略 错误 检查 ) 说 明了 在 我 们 假想 的 
HTTP 服 务 器 例子 中 应 该 如 何 使 用 TCP_CORK 选 项 。 

















int optval; 


/* Enable TCP CORK option on ‘sockfd' - subsequent TCP output is corked 
until this option is disabled. */ 


optval = 1; 
setsockopt(sockfd, IPPROTO_TCP, TCP_CORK, sizeof(optval)); 


write(sockfd, ...); /* Write HTTP headers */ 
sendfile(sockfd, ...); /* Send page data */ 


/* Disable TCP_CORK option on ‘sockfd' - corked output is now transmitted 
in a single TCP segment. */ 


optval = 0 
setsockopt(sockfd, IPPROTO TCP, TCP CORK, sizeof({optval)); 


在 我 们 的 应 用 中 ， 通 过 构建 一 个 单独 的 数据 缓冲 区 ， 可 以 避免 出 现 
需要 及 送 两 个 报 文 段 的 情况 ， 之 后 可 以 通过 一 个 单独 的 write() 将 缓冲 区 
数据 发 送出 去 。 (可 选 的 方式 是 ， 我 们 可 以 通过 writev0 将 两 个 独立 的 
缓冲 区 结合 为 一 次 单独 的 输出 操作 。) 但 是 ， 如 果 我 们 希望 将 sendfile() 
的 零 找 贝 蜗 效 性 和 传输 文件 数据 时 在 第 一 个 报 文 段 中 包含 HTTP 首 部 信 
恩 的 能 力 结合 起 来 的 话 ， 那 么 我 们 需要 用 到 TCP_CORK。 


在 61.3 节 中 ， 我 们 提 到 MSG_MORE 标 记 提 供 了 同 
TCP_CORK 相 似 的 功能 ， 只 是 MSG_MORE 是 基于 每 次 调用 
的 〈 即 ， 可 以 在 每 次 调用 中 调整 ， 而 TCP_CORK 是 全 局 性 
的 ) 。 这 并 不 一 定 是 优点 。 我 们 可 能 会 在 套 接 字 上 设 定 
TCP_CORK 选 项 ， 之 后 通过 调用 另 一 个 程序 在 继承 而 来 的 
文件 描述 符 上 执行 输出 ， 此 时 不 必 知 道 TCP_CORK 选 项 的 
存在 。 与 之 相反 ， 如 果 使 用 MSG_MORE 的 话 ， 需 要 显 式 地 
修改 程序 的 源 代 码 。 


FreeBSD 中 的 TCP_NOPUSH 选 项 提供 了 类 似 于 
TCP_CORK 的 功能 。 


61.5 ”获取 套 接 字 地 址 


getsockname() 和 getpeername() 这 两 个 系统 调用 分 别 返 回 本 地 套 接 字 
地 址 以 及 对 端 套 接 字 地 址 。 





ftinclude <sys/socket.h> 


int getsockname(int sock/d, struct sockaddr *addr, socklen_t *addrlen); 
int getpeername(int sockfd, struct sockaddr *addr, socklen_t *addrlen); 


Both return 0 on success, or -1 on error 














对 于 这 两 个 系统 调用 ，sockfd 表示 指 回 套 接 字 的 文件 摘 述 符 ， 而 
addr 是 一 个 指 癌 sockaddr 结构 体 的 指针 ， 该 结构 体 包 含 着 套 接 字 的 地 
址 。 这 个 结构 体 的 大 小 和 类 型 取决 于 套 接 字 域 。Addrlen 是 一 个 保存 结 
果 值 的 参数 。 在 执行 调用 之 前 ，addrlen 应 该 被 初始 化 为 addr 所 指向 的 组 
~ 调用 返回 后 ，addrlen 中 包含 实际 写 入 到 这 个 缓冲 区 
中 的 字 节 数 。 


getsockname0 可 以 返回 套 接 字 地 址 族 ， 以 及 套 接 字 所 绑 定 到 的 地 
址 。 如 果 套 接 字 绑 定 到 了 另 一 个 程序 〈 比 如 inetd(8)) ， 且 套 接 字 文 件 描 
述 符 在 经 过 execO 调 用 后 仍然 得 到 保留 ， 那 么 此 时 getsockname0O 就 能 派 
上 用 场 了 。 


当 隐 式 绑 定 到 一 个 Internet 域 套 接 字 上 时 ， 如 果 我 们 想 获 取 内 核 分 配 
给 套 接 字 的 临时 端口 号 ， 那 么 调用 getsockname() 也 是 有 用 的 。 内 核 会 在 
出 现 如 下 情况 时 执行 一 个 隐 式 绑 定 。 


已 经 在 TCP 套 接 字 上 执行 了 connect0 或 listen0 调 用 ， 但 之 前 还 没有 
通过 bind0 绑 定 到 一 个 地 址 上 。 

当 在 UDP 套 接 字 上 首次 调用 sendto0 时 ， 该 套 接 字 之 前 还 没有 绑 定 

到 地 址 上 。 

调用 bind0 时 将 端口 号 〈sin_port) 指定 为 0。 这 种 情况 下 bind0 会 为 
套 接 字 指 定 一 个 IP 地 址 ， 但 内 核 会 选择 一 个 临时 的 端口 号 。 


系统 调用 getpeername() 返 回流 式 套 接 字 连接 中 对 端 套 接 字 的 地 址 。 
如 果 服 务 需 想 找 出 发 出 连接 的 客户 端 地 址 ， 这 个 调用 就 特别 有 用 ， 主 要 














用 于 TCP 套 接 字 上 。 对 端 套 接 字 的 地 址 信息 也 可 以 在 执行 acceptO 时 获 
取 ， 但 是 如 果 服 务 器 进程 是 由 另 一 个 程序 调用 的 ， 而 acceptO 是 由 该 程 
序 〈 比 如 inetd) 所 执行 ， 那 么 服务 器 进程 可 以 继承 套 接 字 文 件 描述 符 ， 
但 由 accept0 返 回 的 地 址 信息 就 不 存在 了 。 


程序 清单 61-3 中 的 程序 说 明了 getsockname() 和 getpeername() 的 用 
法 。 该 程序 用 到 了 我 们 在 程序 清单 59-9 中 定义 的 函数 ， 程 序 执行 如 下 的 


步骤 。 





1. 通过 inetListen(0) 函 数 创建 监听 套 接 字 listenFd， 并 绑 定 到 通 配 T 
地 址 上 ， 端 口号 通过 程序 的 命令 行 参数 指定 。 《端口 号 可 以 以 数字 方式 
指定 ， 也 可 以 通过 服务 名 称 指定 。) 参数 len 返 回 该 套 接 字 域 的 地 址 结 
构 体 的 长 度 。 稍 后 会 将 len 返 回 的 值 传递 给 mallocO 以 分 配 一 段 缓冲 区 空 
间 ， 这 段 空间 用 来 保存 getsockname() 和 getpeername() 所 返回 的 套 接 字 地 
i 








2. 通过 inetConnect() 函 数 创 建 第 二 个 套 接 字 connFd。 该 套 接 字 用 来 
癌 第 1 步 中 创建 的 监听 套 接 字 发 起 连接 请 求 。 


3. 在 监听 套 接 字 上 调用 acceptO 以 创建 第 3 个 套 接 字 acceptFd。 该 套 
接 字 同 前 一 步 中 创建 的 套 接 字 之 间 建 立 起 连接 。 


4. 调用 getsockname() 和 getpeername() 获 取 本 地 (connFd) 和 对 端 
(acceptFd) 套 接 字 的 地 址 。 在 这 两 个 调用 之 后 ， 程 序 通 过 
inetAddressStr() 函 数 将 套 接 字 地 址 转换 为 可 打印 的 形式 。 


5. 让 程序 休眠 几 秒 钟 ， 这 样 我 们 可 以 运行 netstat 程 序 以 确认 套 接 字 
地 址 信息 。 “我 们 将 在 61.7 节 中 摘 述 netstat。 ) 


下 面 的 shell 会 话 展示 了 运行 该 程序 的 例子 。 














$ ./socknames 55555 & 

getsockname(connFd): (localhost, 32835) 

getsockname(acceptFd): (localhost, 55555) 

getpeername(connFd): (localhost, 55555) 

getpeername(acceptFd): (localhost, 32835) 

[1] 8171 

$ netstat -a | egrep '(Address|55555)' 

Proto Recv-0 Send-0 Local Address Foreign Address State 

tcp 0 0 *:55555 Eee LISTEN 

tcp 0 localhost:32835 localhost:55555 ESTABLISHED 


0 
tcp 0 0 localhost:55555 localhost:32835 ESTABLISHED 





根据 上 面 的 输出 ， 我 们 可 以 看 到 连接 套 接 字 (connFd) HER) TI 
时 端口 32835 上 。netstat 命 令 为 我 们 展示 出 了 由 程序 创建 的 3 个 套 接 字 的 
所 有 相关 信息 ， 并 人 允许 我 们 对 两 个 连接 套 接 字 的 端口 信息 进行 确认 ， 这 
两 个 套 接 字 都 处 于 ESTABLISHED 状 态 (参见 61.6.3 节 中 描述 )。 


程序 清单 61-3: 使 用 getsockname() 和 getpeername() 











sockets/socknames.c 


#include “inet sockets.h" /* Declares our socket functions */ 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


int listenFd, acceptFd, connFd; 

socklen t len; /* Size of socket address buffer */ 
void *addr; /* Buffer for socket address */ 
char addrStr[IS_ADDR_STR_LEN]; 


if (argc != 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s service\n", argv[0]); 


listenFd = inetListen(argv[1], 5, &len); 
if (listenFd == -1) 
errExit("inetListen"); 


connFd = inetConnect(NULL, argv[1], SOCK STREAM) ; 
if (connFd == -1) 
errExit("inetConnect”) ; 


acceptFd = accept(listenFd, NULL, NULL); 
if (acceptFd == -1) 
errExit("accept"); 


addr = malloc(len); 
if (addr == NULL) 
errExit(“malloc"); 


if (getsockname(connFd, addr, &len) == -1) 
errExit("getsockname”) ; 
printf("getsockname(connFd):  %s\n", 
inetAddressStr(addr, len, addrStr, IS ADDR STR _LEN)); 
if (getsockname(acceptFd, addr, &len) == -1) 
errExit("getsockname") ; 
printf("getsockname(acceptFd): %s\n", 
inetAddressStr(addr, len, addrStr, IS ADDR STR LEN)); 


if (getpeername(connFd, addr, &len) == -1) 
errExit("getpeername”) ; 
printf("getpeername(connFd):  %s\n", 
inetAddressStr(addr, len, addrStr, IS ADDR STR LEN)); 
if (getpeername(acceptFd, addr, &len) == -1) 
errExit("getpeername") ; 
printf("getpeername(acceptFd): %s\n", 
inetAddressStr(addr, len, addrStr, IS_ADDR_STR_LEN)); 


sleep(30); /* Give us time to run netstat(8) */ 
exit(EXIT SUCCESS); 


sockets/socknames.c 


61.6 ”深入 探讨 TCP 协 议 


了 解 一 些 TCP 协 议 的 操作 细节 有 助 于 我 们 调试 使 用 TCP 套 接 字 的 应 
用 程序 ， 而 且 ， 在 东 些 情况 下 还 能 使 这 样 的 应 用 变 得 更 加 高 效 。 在 接 下 
来 的 几 节 中 ， 我 们 将 探讨 : 


e TCP 报 文 的 格式 ; 

TCP 的 确认 机 制 |; 

TCP 协 议 的 状态 机 ; 

TCP 连 接 的 建立 和 终止 ; 
TCP 的 TIME_WAIT 状 态 。 





61.6.1 TCP 报 文 的 格式 


图 61-2 展 示 了 在 一 个 TCP 连 接 中 两 个 结 反 之 间 交 换 的 TCP 报 文 格 
式 。 这 些 字段 的 含义 如 下 。 


0 15 16 51 


日 的 端口 号 





序列 号 





悄 认 序号 


2|] RE | 保留 位 | 控制 位 PA 
(4 位 ) | (4 位 ) (8 位 ) 


TCP 校 验 和 紧急 指针 


HE 0% 








选项 (如果 存 在 ) 
(0 一 40 #4 ) 





数据 (如 果 人 存在 ) 
(0+ 字 节 ) 





图 61-2: TCP 报 文 的 格式 


源 端 口号 (source port number) : 这 是 TCP 发 送 端的 端口 号 。 
目的 端口 号 〈destination port number) : 这 是 TCP 接 收 端的 端口 
O 


J o 


序列 号 (sequence number) : 如 58.6.3 节 中 的 描述 所 述 ， 这 是 该 报 
文 的 序列 号 ， 标 识 从 TCP 发 端 同 TCP 收 端 发 送 的 数据 字 节 流 ， 它 表 
示 在 这 个 报 文 段 中 的 第 一 个 数据 字 节 上 。 

确认 序号 Cacknowledgement number) : 如 果 设 定 了 ACK 位 ( 见 下 
文 ) ， 那 么 这 个 字段 包含 了 接收 方 期 望 从 发 送 方 接 收 到 的 下 一 个 数 
据 字 节 的 序列 号 。 

首部 长 度 (header length) : 该 字段 用 来 表示 TCP 报 文 首 部 的 长 


度 ， 


首部 长 度 单位 是 32 位 。 由 于 这 个 字段 只 占 4 个 比特 位 ， 因 此 首 


部 总 长 度 最 大 可 达到 60 字 节 〈15 个 字 长 ) 。 该 字段 使 得 TCP 接 收 端 
可 以 确定 变 长 的 选项 字段 《optons) 的 长 度 ， 以 及 数据 域 的 起 始 


保留 
0) o 


位 (reserved) : 该 字段 包含 4 个 未 使 用 的 比特 位 〈 必 须 置 为 


控制 位 〈control bit) : 该 字段 由 8 个 比特 位 组 成 ， 能 进一步 指定 报 
文 的 含义 。 


O 〇 


O 


O 〇 


CWR: 拥塞 窗口 减 小 标记 〈congestion window reduced 

flag) 。 

ECE: 显 式 的 拥塞 通知 回 显 标记 〈explicit congestion 
notification echo flag) 。CWR 和 ECE 标 记 用 在 TCP/ 了 P 的 显示 拥 
塞 通知 (ECN) 算法 中 。ECN 加 入 到 TCP/P 的 时 间 相 对 较 新 ， 
在 RFC 3168 和 [Floyd, 1994] 中 有 详尽 描述 。Linux 上 自从 2.4 版 内 
核 以 来 就 实现 了 ECN， 可 以 为 Linux 专 有 的 文 

件 /proc/sys/net/ipv4/tcp_ecn 设 置 一 个 非 零 值 来 开启 这 个 功能 。 
URG: 如 果 设 置 了 该 位 ， 那 么 紧急 指针 字段 包含 的 信息 就 是 有 
效 的 。 

ACK: 如 果 设 置 了 该 位 ， 那 么 确认 序号 字段 包含 的 信息 就 是 有 
效 的 〈 即 ， 该 字段 可 用 来 确认 由 对 端 发 送 过 来 的 上 一 个 数 

据 ) 。 

PSH: 将 所 有 收 到 的 数据 发 给 接收 的 进程 。RFC993 和 [Stevens， 
1994] 中 描述 了 这 个 标记 。 








o RST: 重 置 连接 。 该 字段 用 来 处 理 多 种 错误 情况 。 
o SYN: 同步 序列 号 。 在 建立 连接 时 ， 双 方 需要 交换 设置 了 该 位 


的 报 文 。 这 样 使 得 TCP 连 接 的 两 端 可 以 指定 初始 序列 号 ， 稍 后 
用 于 在 双 问 传输 数据 。 
o FIN: 发 送 端 提 示 已 经 完成 了 发 送 任务 。 


可 以 在 报 文 段 中 设 定 多 个 控制 位 〈 或 者 全 都 不 设置 ) ， 使 得 单个 报 
文 段 能 用 于 多 种 用 途 。 例 如 ， 稍 后 我 们 将 看 到 在 建立 TCP 连 接 时 ， 报 文 
段 会 同时 设置 SYN 和 ACK。 


。 窗口 大 小 (window size) : 该 字段 用 在 接收 端 发 送 ACK 确认 时 提 
示 自 己 可 接受 数据 的 空间 大 小 。 (该 字段 同 滑动 窗口 机 制 有 关 ， 在 
58.6.3 节 中 有 简要 摘 述 。) 

tak 

















TCP 校 验 和 不 只 包含 TCP 首 部 和 数据 域 ， 还 包含 了 常 被 
称 为 TCP 伪 首部 的 12 个 字 节 。 伪 首部 由 如 下 部 分 组 成 : 源 
地 址 和 目的 地 址 卫 《〈 各 占 4 字 节 ) ; 2 字 节 用 来 指定 TCP 报 
文 的 大 小 《这 个 值 是 计算 出 来 的 ， 但 既 不 属于 IP 首 部 也 不 
属于 TCP 首 部 ); TCP/IP 协 议 族 中 针对 TCP 的 唯一 协议 号 ， 
单字 节 ， 值 为 6; 以 及 1 个 字 节 的 填充 域 ， 该 字 节 全 为 0 OX 
样 伪 首 部 的 长 度 就 是 16 位 的 整数 倍 了 ) 。 在 计算 校 验 和 时 
要 包含 伪 首 部 的 原因 是 允许 TCP 的 接收 端 可 以 重新 核对 接 
收 到 的 报 文 是 否 已 经 到 达 正 确 的 目的 地 ( 即 ，IP 层 没有 错 
误 地 将 应 该 发 往 另 一 台 主 机 的 数据 报 接收 ， 或 者 将 应 该 发 
往 另 一 个 上 层 协 议 的 数据 包 转 发 给 了 TCP 层 ) 。UDP 计 算 
校 验 和 的 方式 和 原因 都 类 似 于 TCP。 请 参见 [Stevens, 1994] 
以 获取 有 关 伪 首部 的 细节 信息 。 














e 紧急 指针 (Urgent pointer) : 如 果 设 定 了 URG 位 ， 那 么 束 表 示 从 发 


送 端 到 接收 端 传输 的 数据 为 紧急 数据 。 我 们 将 在 61.13.1 节 中 简单 
讨论 紧急 数据 。 

e 选项 (Options) : 这 是 一 个 变 长 的 字段 ， 包 含 了 控制 TCP 连接 操 
作 的 选项 。 

。 数据 (Data): 这 个 字段 包含 了 该 报 文 段 中 传输 的 用 户 数 据 。 如 果 
报 文 段 没 有 包含 任何 数据 的 话 ， 这 个 字段 的 长 度 就 为 0( 例 如 ， 如 
果 只 是 一 个 简单 的 ACK 报 文 ) 。 


61.6.2 ”TCP 序列 号 和 确认 机 制 


每 个 通过 TCP 连 接 传 送 的 字 市 都 由 TCP 协 议 分 配 了 一 个 逻辑 序列 
号 。【〔 在 一 条 连接 中 ， 双 回 数 据 流 都 有 各 上 自 的 序列 号 。) 当 传送 一 个 报 
文 时 ， 该 报 文 的 序列 号 字段 被 设 为 该 传输 方向 上 的 报 文 段 数据 域 第 一 个 
字 节 的 逻辑 偏 移 。 这 样 TCP 接 收 端 束 可 以 按照 正确 的 顺序 对 接收 到 的 报 
文 段 重新 组 装 ， 并 且 当 发 送 一 个 确认 报 文 给 发 送 端 时 就 表明 目 己 接收 到 
的 是 哪 一 个 数据 。 


要 实现 可 靠 的 通信 ，TCP 采 用 了 主动 确认 的 方式 。 也 就 是 ， 当 一 个 
报 文 段 被 成 功 接收 后 ，TCP 接 收 端 会 发 送 一 个 确认 消息 CR, KES 
ACK 位 的 报 文 段 ) 给 TCP 发 送 端 ， 如 图 61-3 所 示 。 该 消息 的 确认 序号 
字段 被 设置 为 接收 方 所 期 望 接收 的 下 一 个 数据 字 节 的 逻辑 序列 号 。 〈 换 
句 话说， 确认 序号 字段 的 值 就 是 上 一 个 成 功 收 到 的 数据 字 节 的 序列 号 加 
lə ) 
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图 61-3: TCP 协 议 的 确认 机 制 


当 TCP 发 送 病 太 送 报 文 时 会 设置 一 个 定时 右 。 如 果 在 定时 右 超 时 前 
没有 接收 到 确认 报 文 ， 那 么 该 报 文 会 重新 发 送 。 








图 61-3 以 及 稍 后 出 现 的 相似 的 图 示 旨 在 说 明 两 个 结 点 
间 交 换 的 TCP 报 文 。 从 上 到 下 看 这 些 图 时 ， 倾 笑 的 第 尖 隐 
含 表 示 了 有 发送 报 文 所 需要 的 时 间 。 


61.6.3 TCP 协议 状态 机 以 及 状态 迁移 图 


维护 一 个 TCP 连 接 需 要 同步 协调 这 个 连接 的 两 端 。 为 了 减 小 这 项 任 


务 的 复 傈 度 ，TCP 结 点 以 状态 机 的 方式 来 建 模 。 这 意味 着 TCP 结 点 可 以 
处 于 一 组 固定 状态 中 的 其 中 一 种 ， 并 且 根 据 对 事件 的 啊 应 来 从 一 种 状态 
迁移 到 另 一 种 状态 。 比 如 可 根据 TCP 上 层 的 应 用 程序 所 执行 的 系统 调 


用 ， 
种 。 





又 或 者 是 从 对 端 TCP 结 点 接收 到 了 TCP 报 文 。TCP 的 状态 有 如 下 几 


LISTEN: TCP 正 等 待 从 对 端 TCP 结 点 发 来 的 连接 请 求 。 
SYN_SENT: TCP 发 送 了 一 个 SYN 报 文 ， 代 表 应 用 程序 执行 了 一 个 
主动 打开 的 操作 ， 并 等 待 对 端 回应 以 此 完成 连接 的 建立 。 
SYN_RECV: 之 前 处 于 LISTEN 状 态 的 TCP 结 点 收 到 了 对 端 发 送 的 
SYN 报 文 ， 并 已 经 通过 发 送 SYN/ACK 报 文 做 出 了 响应 〈 即 ， 这 个 
TCP 报 文 同时 设置 了 SYN 和 ACK 位 ) ， 正 等 待 对 端 TCP 结 点 发 送 一 
个 ACK 以 此 完成 连接 的 建立 。 

ESTABLISHED: 与 对 端 TCP 结 点 间 的 连接 建立 完成 。 数 据 报 文 此 
时 可 以 在 两 个 TCP 结 点 间 双 向 交换 。 

FIN_WAIT1: 应 用 程序 关闭 了 连接 。TCP 结 点 发 送 一 个 FIN 报 文 到 
对 端 ， 以 此 终止 本 端的 连接 ， 并 等 待 对 端 发 来 的 ACK。 这 个 状态 以 
及 接 下 来 的 3 种 状态 都 与 应 用 程序 执行 主动 关闭 有 关 一 一 也 就 是 ， 
首先 关闭 本 端 连接 的 应 用 程序 。 

FIN_WAIT2: 之 前 处 于 FIN_WAIT1 状 态 的 TCP 节 点 现在 已 经 收 到 
了 对 端 TCP 结 点 发 来 的 ACK。 

CLOSING: 之 前 处 于 FIN_WAIT1 状 态 的 TCP 节 点 正在 等 待 对 端 发 
送 ACK， 但 却 收 到 了 FIN。 这 表示 对 端 也 正在 尝试 执行 一 个 主动 关 
闭 。【〔( 换 句 话 说 ， 这 两 个 TCP 结 点 几乎 在 同一 时 刻 发 送 了 FIN 报 
文 。 这 种 情况 非常 罕见 。) 











e TIME WAIT: 完成 主动 关闭 后 ，TCP 结 点 接收 到 了 FIN 报 文 。 这 表 
示 对 端 执 行 了 一 个 被 动 关 闭 。 此 时 这 个 TCP 结 点 将 在 TIME_WAIT 
状态 中 等 待 一 段 固定 的 时 间 ， 这 是 为 了 确保 TCP 连 接 能 够 可 靠 地 终 
止 ， 同 时 也 是 为 了 确保 任何 老 的 重复 报 文 在 重新 建立 同样 的 连接 之 
前 在 网 络 中 超时 消失 。 (我 们 将 在 61.6.7 节 中 详细 解释 TIME_WAIT 
状态 的 细节 。) 当 这 个 固定 的 时 间 段 超时 后 ， 连 接 就 关闭 了 ， 相 关 
的 内 核资 源 都 得 到 释放 。 

CLOSE_WAIT: TCP 结 点 从 对 端 收 到 FIN 报 文 后 将 处 于 
CLOSE_WAIT 状态 。 该 状态 以 及 接 下 来 的 一 个 状态 都 同 应 用 程序 
执行 的 被 动 关 闭 有 关 ， 也 就 是 第 二 个 执行 关闭 操作 的 应 用 。 
LAST_ACK: 应 用 程序 执行 被 动 关闭 ， 而 之 前 处 于 CLOSE_WAIT 
状态 的 TCP 结 点 发 送 一 个 FIN 报 文 给 对 端 ， 并 等 待 对 端的 确认 。 当 
收 到 对 端 发 来 的 确认 ACK 报 文 时 ， 连 接 关 闭 ， 相 关 的 内 核资 源 都 会 
得 到 释放 。 

除了 上 述 这 些 状态 外 ，RFC 793 中 还 增加 了 一 个 虚拟 的 状态 


CLOSED， 代 表 没 有 连接 时 的 状态 〈 即 ， 没 有 内 核资 源 被 分 配 来 描述 一 
个 TCP 连 接 ) 。 











在 上 述 列表 中 ， 我 们 对 TCP 各 个 状态 的 名 词 拼 写 采 用 
的 是 Linux 内 核 源码 中 的 写法 。 这 同 RFC 793 中 的 拼写 稍 有 
区 别 。 


图 61-4 展 示 了 TCP 协 议 的 状态 迁移 图 。 (这 张 图 基于 RFC 793 以 及 
[Stevens et al., 2004] 中 的 图 表 。) 这 张 图 展示 了 一 个 TCP 节点 通过 啊 应 
各 种 事件 从 一 种 状态 迁移 到 另 一 种 状态 。 每 个 箭头 表示 一 种 可 能 出 现 的 
迁移 ， 并 以 触发 这 个 迁移 的 相应 事件 做 了 标记 。 这 个 标记 要 么 是 应 用 程 
序 做 执行 的 操作 《以 粗 体 表示 ) ， 要 么 是 字符 串 recv， 表 示 从 对 端 接 收 
到 一 个 报 文 。 当 TCP 节 点 从 一 种 状态 迁移 到 另 一 种 状态 时 ， 可 能 会 发 送 
报 文 到 对 端 节 点 ， 这 种 现象 由 send 标 志 来 标记 。 例 如 从 ESTABLISHED 
到 FIN_WAIT1 状 态 的 迁移 ， 第 头 表 示 触 发 迁移 的 事件 是 本 地 应 用 程序 
执行 close0 所 产生 ， 在 迁移 过 程 中 ，TCP 节 点 发 送 一 个 FIN 报 文 到 对 端 。 
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图 61-4: TCP 协 议 状 态 迁 移 图 


在 图 61-4 中 ， 客 户 端 TCP 节 点 通 稼 的 迁移 路 径 以 重 实 线 箭 头 表示 ， 
而 服务 器 端 TCP 节 点 通常 的 迁移 路 径 以 重 虚 线 箭头 表示 。 (以 其 他 箭 3 
表示 的 路 径 比 较 少 经 历 。) 观察 路 径 中 箭头 括号 里 的 数字 ， 我 们 可 以 看 
到 由 两 个 TCP 结 点 发 送 和 接收 的 报 文 彼此 之 间 互 为 倒影 镜像 。 (在 
ESTABLISHED 状 态 之 后 ， 如 果 是 由 服务 器 执行 主动 关闭， 那么 服务 右 
0 ee mers nt 
a 


图 61-4 并 没有 展示 出 TCP 状 态 机 所 有 可 能 的 迁移 路 径 ， 
只 是 说 明了 那些 我 们 主要 感 兴趣 的 部 分 。 更 详细 的 TCP 状 
态 迁 移 网 可 以 
在 http://www.cl.cam.ac.uk/~pes20/Netsem/poster.pdf 找 到 。 


61.6.4 ” TCP 连接 的 建立 





在 套 接 字 API 层 ， 两 个 流 式 套 接 字 通过 以 下 步骤 来 建立 连接 〈 人 参见 
图 56-1) 。 


1. 服务 器 调用 listen() 在 套 接 字 上 执行 被 动 打开 ， 然 后 调用 accept() 
阻塞 服务 器 进程 直到 连接 建立 完成 。 


2. 客户 问 调 用 connect0 在 套 接 字 上 执行 主动 打开 ， 以 此 来 同 服务 
器 端的 被 动 打开 套 接 字 之 间 建 立 连 接 。 


TCP 协 议 建 立 连 接 所 执行 的 步骤 请 参见 图 61-5。 这 几 个 步骤 通常 被 
称 为 3 次 握手 ， 因 为 在 两 个 TCP 结 点 间 有 3 个 报 文 需 要 传递 。 步 又 如 下 。 


客户 端 服务 此 


listen() <LISTEN> 


accept() 
m T (MÆ) 
syn senro nee) ! 

(阻塞 ) 


<SYN_RECV> 





<ESTABLISHED> (返回 ) | 


1 (返回 ) <ESTABLISHED> 





图 61-5: TCP 连 接 建立 时 的 3 次 握手 


1. connectO 调 用 导致 客户 端 TCP 结 点 发 送 一 个 SYN 报 文 到 服务 器 


端 TCP 结 点 。 这 个 报 文 将 告知 服务 器 有 关 客 户 端 TCP 结 点 的 初始 序列 号 
(在 图 中 以 M 来 标记 ) 。 这 个 信息 是 必要 的 ， 因 为 序列 号 不 会 从 0 开 
始 ， 参 见 58.6.3 节 。 


2. 服务 器 端 TCP 结 点 必须 确认 客户 端 发 送 来 的 TCP SYN 报 文 ， 并 
告知 客户 端 上 自己 的 初始 序列 号 〈 在 图 中 以 N 来 标记 ) 。 《需要 两 个 序列 
号 是 因为 流 式 套 接 字 是 双向 的 。) 服务 器 端 TCP 结 点 返回 一 个 同时 设 定 
了 SYN 和 ACK 控 制 位 的 报 文 ， 这 样 束 能 同时 执行 这 两 种 操作 。 我 们 说 
ACK 承 载 在 SYN 上 。) 


3. 客户 端 TCP 结 点 发 送 一 个 ACK 报 文 来 确认 服务 器 端 TCP 结 点 的 
SYN 报 文 。 














在 3 次 握手 中 ， 前 两 个 步骤 中 交换 的 SYN 报 文 可 能 会 包 
含 TCP 首 部 中 的 options 字 段 信息 ， 这 是 用 来 确定 连接 的 多 
个 相关 参数 的 。 请 参见 [Stevens et al., 2004]、[Stevens， 
1994] 以 及 [Wright & Stevens, 1995] 以 获取 更 多 细节 。 








图 61-5 中 尖 插 号 中 的 标记 (例如 <LISTEN>) 表示 TCP 连接 中 任意 
一 侧 的 状态 。 

SYN 标记 占据 了 序列 号 字段 中 的 1 个 字 节 ， 这 么 做 是 必要 的 ， 因 为 
WE T SYN 位 的 报 文 可 能 还 会 包含 数据 字 节 ， 因 此 这 样 才能 准确 确认 
这 个 标记 。 这 就 是 为 什么 在 图 61-5 中 我 们 通过 ACK M+1 报 文 来 确认 SYN 
Mo 


61.6.5 TCP 连接 的 终止 
关闭 一 个 TCP 连 接 通 常会 以 如 下 几 种 方式 进行 。 


1. 在 一 个 TCP 连 接 中 ， 其 中 一 并 的 应 用 程序 执行 close() 调 用 。 
(通常 是 由 客户 端 必 起， 但 这 并 不 是 必须 的 。) 我 们 说 这 个 应 用 程序 正 





在 执行 一 个 主动 关闭 。 


2， 稍 后 ， 连 接 另 一 端的 应 用 程序 〈 服 务 器 ) 也 执行 一 个 close0 调 
用 。 这 被 称 为 被 动 天 闭 。 
” ”图 61-6 展 示 了 TCP 协议 所 执行 的 相关 步骤 这里， 我们 假设 是 由 客 
Psi ACE ESI) 。 步 又 如 下 。 
客户 端 服务 器 
( 主动 关闭 ) ( 被 动 关闭 ) 
<ESTABLISHED> <ESTABLISHED> 
<FIN_WAITI> close() 
<CLOSE_WAIT> 
<FIN_WAIT2> 


close() <LAST ACK> 
<TIME_WAIT> 





<CLOSED> 


图 61-6: TCP 连 接 的 终止 


1. 客户 端 执行 一 个 主动 关闭 ， 这 将 导致 客户 端 TCP 结 点 发 送 一 个 
FIN 报 文 给 服务 器 。 


2. 在 接收 到 FIN 报 文 后 ， 服 务 器 端 TCP 结 点 发 出 ACK 报 文 作为 响 
ee 之 后 在 服务 器 器 ， 任 何 对 read0 操 作 的 答 试 都 会 产生 文件 结尾 《〈 即 
返回 0) 。 


3. 稍 后 ， 当 服务 器 关闭 自己 这 端的 连接 时 ， 服 务 器 端 TCP 结 点 发 
送 FIN 报 文 到 客户 端 。 

4. 客户 端 TCP 结 点 发 送 ACK 报 文 作为 响应 ， 以 此 来 确认 服务 器 端 
发 来 的 FIN 报 文 。 


以 SYN 标记 为 例 ， 基 于 同样 的 理由 ，FIN 标记 也 会 占据 序列 号 字 
段 的 1 个 字 节 。 这 就 是 为 什么 我 们 在 图 61-6 中 展示 对 FIN M 报 文 的 确认 
时 ， 确 认 报 文 应 该 是 ACK M+1。 











61.6.6 ”在 TCP 和 套 接 字 上 调用 shutdown() 





在 前 一 节 的 讨论 中 我 们 假设 完成 的 是 全 双 工 的 关闭， 那 束 是 说 ， 应 
用 程序 通过 close() 将 TCP 套 接 字 的 发 送 和 接收 通道 都 关闭 了 。 如 61.2 
节 中 所 提 到 的 ， 我 们 可 以 使 用 shutdown0 来 只 关闭 连接 的 其 中 一 个 通道 

《 半 双 工 的 关闭 ) 。 本 节 对 TCP EFE shutdown0 操 作 的 一 些 细节 之 
处 做 了 说 明 。 


在 61.6.5 节 中 我 们 谈 到 将 参数 how 指 定 为 SHUT_WR 或 者 
SHUT_RDWR 时 将 开始 TCP 连 接 的 终止 步骤 〈 即 ， 主 动 关闭 ) ， 而 不 管 
是 否 还 有 其 他 的 文件 描述 符 指 同 这 个 套 接 字 。 一 旦 终止 步骤 开始 ， 本 地 
TCP 结 点 将 迁移 到 FIN_WAIT1 状态 ， 然 后 进入 FIN_WAIT2 状 态 ， 同 
时 对 端 TCP 结 点 将 迁移 到 CLOSE WAIT 状态 〈 见 图 61-6) 。 如 果 参 数 
how 指 定 为 SHUT_WR， 那 么 由 于 套 接 字 文 件 描 述 符 还 保持 合法 ， 而 且 
连接 的 读 端 仍然 是 打开 的 ， 因 此 对 端 可 以 继续 发 送 数据 给 我 们 。 


SHUT_RD 在 TCP 套 接 字 中 是 没有 实际 意义 的 操作 。 这 是 因为 大 多 
数 TCP 协 议 的 实现 中 都 没有 为 SHUT_RD 提 供 所 期 望 的 行为 ， 而 且 
SHUT_RD 产 生 的 效果 在 不 同 的 实现 中 各 有 不 同 。 在 Linux 以 及 一 些 其 他 
的 实现 中 ， 在 执行 SHUT_RD 操 作 后 〈 在 剩余 的 数据 全 部 被 读 取 完 毕 
Ja) ，read0 将 返回 文件 结尾 ， 这 是 我 们 对 SHUT_RD 操 作 所 期 望 的 行 
为 ， 见 61.2 节 的 描述 。 但 是 ， 如 果 对 端 应 用 程序 稍 后 在 该 套 接 字 上 写 入 
数据 时 ， 那 么 仍然 可 能 在 本 地 套 接 字 上 读 取 到 数据 。 


在 其 他 一 些 实现 中 (例如 BSD)，SHUT_RD 确 实 会 导致 后 续 的 
read0) 总 是 返回 0。 但 是 ， 在 那些 实现 中 ， 如 果 对 端 继续 通过 write() 问 套 
接 字 写 入 数据 ， 那 么 数据 通道 最 终 会 被 填 满 ， 直 到 对 端的 write0 (SHE 
式 ) 被 阻塞 。〔 在 UNIX 域 流 式 套 接 字 中 ， 如 果 在 本 地 套 接 字 上 执行 
SHUT_RD 操 作 后 仍然 继续 癌 套 接 字 上 写 入 数据 ， 那 么 对 端 将 接收 到 
SIGPIPE 信 号 ， 且 伴随 的 错误 码 为 EPIPE。) 


总 的 来 说 ， 对 于 可 移植 的 TCP 应 用 程序 来 说 ， 应 该 避免 使 用 
SHUT_RD 操 作 。 























61.6.7 TIME WAIT 状态 


TCP 协 议 中 的 TIME_WAIT 状 态 在 网 络 编程 中 常常 会 引起 理解 上 的 
混乱 。 参 考 图 61-4， 我 们 可 以 看 到 TCP 在 这 个 状态 下 正在 执行 一 个 主动 
关闭 。TIME_WAIT 状 态 的 存在 主要 基于 两 个 目的 。 





。 实现 可 靠 的 连接 终止 。 
。 让 老 的 重复 的 报 文 段 在 网 络 中 过 期 失效 ， 这 样 在 建立 新 的 连接 时 将 
不 再 接收 它们 。 


TIME_WAIT 状 态 区 别 于 其 他 状态 的 地 方 在 于 : 导致 从 该 状态 迁移 
到 其 他 状态 〈 到 CLOSED 状 态 ) 的 事件 是 超时 。 这 个 超时 时 间 为 2 倍 的 
MSL (2MSL) ， 这 里 的 MSL 〈 报 文 最 大 生存 时 间 ) 是 TCP 报 文 在 网 络 
中 的 最 大 生存 时 间 。 








IP 首 部 中 有 一 个 8 位 的 生存 时 间 字 段 (TIL) ， 如 果 在 
报 文 从 源 主机 到 目的 主机 间 传 递 时 ， 在 规定 的 跳 数 〈 经 过 
的 路 由 器 ) 内 报 文 没 有 到 达 目 的 地 ， 那 么 该 字段 用 来 确保 
所 有 的 卫 报 文 最 终 都 会 被 丢弃 。MSL 是 IP 报 文 在 超过 TTL 限 
制 前 可 在 网 络 中 生存 的 最 大 估计 时 间 。 由 于 TIL 只 有 8 位 ， 
因此 人 允许 最 大 跳 数 为 255 跳 。 通 常 ，IP 报 文 在 完成 整个 转发 
过 程 中 需要 的 跳 数 比 这 个 最 大 值 要 小 很 多 。 当 路 由 器 出 现 
几 种 特定 类 型 的 异常 〈 例 如 ， 路 由 器 配置 问题 ) 导致 报 文 
在 网 络 中 循环 直到 超过 了 TTL 限 制 ， 此 时 IP 报 文 就 会 遇 到 
这 个 限制 。 





BSD 的 套 接 字 实现 假设 MSL 为 30 秒 ， 而 Linux 遵 循 了 BSD 规 范 。 
而 ，Linux 上 的 TIME_WAIT 状 态 将 持续 60 秒 。 但 是 ，RFC 1122 建 议 MSL 
的 值 为 2 分 钟 ， 因 此 在 遵循 了 这 个 建议 的 实现 中 ，TIME_WAIT 状 态 将 持 
续 4 分 钟 。 


通过 观察 图 61-6， 现 在 我 们 可 以 理解 TIME_WAIT 状 态 的 第 一 个 目 
的 了 一 一 确保 能 可 靠 地 终止 连接 。 在 这 个 图 中 ， 我 们 可 以 看 到 在 终止 
TCP 连 接 时 有 4 个 报 文 需 要 交换 。 其 中 最 后 一 个 ACK 报 文 是 从 执行 主动 
关闭 的 一 方 发 往 执行 被 动 关闭 的 一 方 。 现 在 假设 这 个 ACK 在 网 络 中 被 丢 
弃 了 ， 如 果 发 生 了 这 种 情况 ， 那 么 执行 TCP 被 动 关闭 的 一 方 最 终 会 重 传 


它 的 FIN 报 文 。 让 执行 TCP 主 动 关闭 的 一 方 保持 在 TIME_WAIT 状 态 一 段 
时 间 ， 可 以 确保 它 在 这 种 情况 下 可 以 重新 发 送 最 后 的 ACK 确 认 报 文 。 如 
果 执 行 主动 关闭 的 一 方 已 经 不 存在 了 ， 那 么 一 一 由 于 它 不 再 持 有 关于 连 
接 的 任何 状态 信息 一 一 TCP 协 议 将 针对 对 端 重 发 的 FIN 发 送 一 个 

RST (#8) 给 执行 被 动 关闭 的 一 方 以 作为 啊 应 。 而 这 个 RST 会 被 解释 
为 一 个 错误 。 (这 就 解释 了 为 何 TIME_WAIT 状 态 的 持续 时 间 为 2 倍 的 

MSL: 1 个 MSL 时 间 留 给 最 后 的 ACK 确认 报 文 到 达 对 端 TCP 结 点 ， 男 
一 个 MSL 时 间 留 给 必须 发 送 的 FIN 报 文 。) 











执行 被 动 关闭 的 一 方 并 不 需要 一 个 功能 上 相当 于 
TIME_WAIT 的 状态 。 因 为 在 连接 终止 时 ， 被 动 关闭 的 一 方 
是 作为 发 起 者 开始 进行 最 后 的 报 文 交 换 。 在 发 送 了 FIN 报 文 
后 ， 这 个 TCP 结 点 将 等 待 对 端 发 来 的 ACK 确 认 ， 如 果 在 
ACK 到 达 之 前 超时 了 就 重 传 FIN 。 








要 理解 TIME_WAIT 状 态 的 第 二 个 目的 确保 老 的 重复 的 报 文 在 
网 络 中 过 期 失效 一 我们 必须 记 住 TCP 协 议 采 用 的 重 传 算法 意味 着 可 能 
会 生成 重复 的 报 文 ， 并 且 根 据 路 由 的 选择 ， 这 些 重 复 的 报 文 可 能 会 在 连 
接 已 经 终止 后 才 到 达 。 假 设 我 们 在 两 个 套 接 字 地 址 之 间 有 一 条 TCP 连 
接 ， 比 如 说 204.152.189.116 端 口 21 (FTP 服 务 的 端口 ) ， 以 及 200.0.0.1 
端口 50000。 同 时 假设 这 条 连接 已 经 关闭 了 ， 而 之 后 使 用 同样 的 也 和 端 
口 重新 建立 新 的 连接 。 这 可 以 看 做 是 原来 连接 的 新 化 身 。 在 这 种 情况 
下 ，TCP 必 须 确 保 上 一 次 连接 中 老 的 重复 报 文 不 会 在 新 的 连接 中 被 当成 
合法 数据 接收 。 当 有 TCP 结 点 处 于 TIME_WAIT 状态 时 是 无 法 通过 该 结 
点 创建 新 的 连接 的 ， 这 样 就 阻止 了 新 连接 的 建立 。 


在 网 络 论坛 中 常会 看 到 的 一 个 问题 是 如 何 关 闭 TIME_WAIT 状 态 ， 
因为 当 重 新 局 动 的 服务 器 进程 尝试 将 套 接 字 绑 定 到 处 于 TIME_WAIT 状 
态 的 地 址 上 时 ， 会 导致 出 现 EADDRINUSE 的 错误 〈“ 地 址 已 使 用 ”) 。 
尽管 的 确 有 办 法 可 以 关闭 TIME_WAIT 状 态 〈 参 见 [Stevens et al., 

2004]) ， 并 且 也 有 办 法 可 以 让 TCP 结 点 从 TIME_WAIT 状 态 中 过 早 地 
终止 (参见 [Snader, 2000]) ， 但 还 是 应 该 避免 这 么 做 。 因 为 这 么 做 会 阻 














但 TIME_WAIT 状 态 所 提供 的 可 靠 性 保证 。 在 61.10 节 中 ， 我 们 会 看 到 
SO_REUSEADDR 套 接 字 选项 ， 这 个 选项 可 用 来 避免 常常 会 遇 到 的 
EADDRINUSE 错 误 ， 同 时 仍然 允许 TIME_WAIT 状 态 提供 其 可 靠 性 保 
证 。 


61.7 ”监视 套 接 字 : netstat 


netstat 程 序 可 以 显示 系统 中 Intermet 和 UNIX 域 套 接 字 的 状态 。 当 编 
写 套 接 字 应 用 程序 时 ，netstat 是 个 非常 有 用 的 调试 工具 。 。 大 多 数 UNIX 实 
现 都 会 提供 一 种 版 本 的 netstat， 尽管 在 不 同 的 实现 中 命令 行 参 数 的 语法 
ABEJ. 


默认 情况 下 ， 当 执行 netstat 时 如 果 不 给 出 命令 行 选项 ， 那 么 它 会 同 
Internet 域 已 连接 的 套 接 字 信息 。 我 们 可 以 通过 一 些 
命令 行 选 项 来 改变 所 显示 的 信息 。 其 中 一 些 选项 如 表 61-1 所 示 。 


表 61-1: netstat 命 令 的 选项 









































连续 重新 显示 套 接 字 信息 每 秒 
































PE T 
= 显示 Intemet 域 TCP Cit) 套 接 字 的 信息 


显示 Intemet 域 UDP 〈 数 据 报 ) 套 接 字 的 信息 

















显示 UNIX 域 套 接 字 的 信息 


这 里 有 个 简单 的 例子 ， 我 们 使 用 netstat 来 列 出 当前 系统 上 所 有 的 


Internet 域 套 接 字 信息 ， 下 面 是 输出 。 


$ netstat -a --inet 
Active Internet connections (servers and established) 


Proto Recv-Q Send-Q Local Address Foreign Address State 
ek 


tcp 0 0 *:50000 LISTEN 

tcp 0 0 *:55000 ere LISTEN 

tcp 0 0 localhost:smtp *:* LISTEN 

tcp 0 0 localhost:32776 localhost:58000 TIME WAIT 
tcp 34767 0 localhost:55000 localhost:32773 ESTABLISHED 
tcp 0 115680 localhost:32773 localhost:55000 ESTABLISHED 
udp 0 0 localhost:61000 localhost:60000 ESTABLISHED 
udp 684 0 *:60000 KUE 


对 于 每 个 Intemet 域 套 接 字 ， 我 们 可 以 看 到 如 下 的 信息 。 


Proto: 表示 套 接 字 所 使 用 的 协议 一 一 例如 tcp 或 udp。 

Recv-Q: 表示 套 接 字 接 收 缓冲 区 中 还 未 被 本 地 应 用 读 取 的 字 节 数 。 
对 于 UDP 套 接 字 来 说 ， 该 字段 不 只 包含 数据 ， 还 包含 UDP 首部 及 
其 他 元 数据 所 占 的 字 市 。 

Send-Q: 表示 套 接 字 发 送 缓冲 区 中 排队 等 竺 发送 的 字 节 数 。 和 
Recv-Q 字 段 一 样 ， 对 于 UDP 和 套 接 字 ， 该 字段 还 包含 UDP 首部 和 
其 他 元 数据 所 占 的 字 市 。 

Local Address: 该 字段 表示 套 接 字 绑 定 到 的 地 址 ， 以 主机 了 :端口 号 
的 形式 表示 。 默 认 情 况 下 ， 主 机 地 址 和 端口 号 都 以 名 称 形式 来 显 
示 ， 除 非 数 值 形 式 无 法 解析 到 对 应 的 主机 和 服务 名 称 。 地 址 中 主机 
PBA A ARS CH) 表示 这 是 一 个 通 配 卫 地 址 。 

Foreign Address: 这 是 对 端 套 接 字 所 绑 定 的 地 址 。 字 符 串 #:* 表 示 没 
有 对 端 地 址 。 

State: 表示 当前 套 接 字 所 处 的 状态 。 对 于 TCP 套 接 字 来 说 ， 这 就 是 
61.6.3 节 中 描述 的 那些 状态 中 的 其 中 一 种 。 


要 获得 更 多 细节 ， 请 参阅 netstat(8) 用 户 手 册页 。 


目录 /proc/net 中 有 多 个 专属 于 Linux 的 文件 ， 这 些 文件 允许 程序 读 取 











到 同 netstat 的 输出 类 似 的 信息 。 这 些 文件 名 称 为 ttp、udp、tcp6、udp6 以 
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61.8 ”使 用 tcpdump 来 监视 TCP 流 量 


tcpdump 是 一 个 很 有 用 的 调试 工具 ， 可 以 让 超级 用 户 监 视 网 络 中 的 
实时 流量 ， 实 时 生成 文本 信息 ， 这 些 文本 信息 所 表达 的 意思 类 似 于 61-3 
的 图 示 。 尽 管 工 具 的 名 称 是 tcpdump， 但 实际 上 它 可 以 用 来 显示 所 有 类 
型 的 TCP/IP 数据 包 流 量 ( 例 如 ，TCP R, UDP 数据 报 以 及 ICMP Fh 
文 ) 。 对 于 每 个 网 络 报 文 ，tcpdump 都 会 显示 出 像 时 间 戳 、 源 卫 地 址 、 
目的 卫 地 址 以 及 更 多 协议 特有 的 细节 信息 。 可 以 根据 协议 类 型 、 源 和 目 
的 IP 地 址 、 端 口号 以 及 其 他 一 些 标准 来 选择 需要 监视 的 数据 包 。 全 部 
的 细节 可 以 在 tcpdump 的 用 户 手册 页 中 找到 。 














wireshark (之 前 叫做 
ethereal, http://www.wireshark.org/) 程序 可 完成 同 tcpdump 
类 似 的 任务 ， 但 流量 信息 是 通过 图 形 界 面 来 显示 的 。 











对 于 每 个 TCP 报 文 ，tcpdump 都 会 按照 如 下 方式 显示 。 





src > dst: flags data-seqno ack window urg <options> 





这 些 字段 的 含义 如 下 。 


src: 表示 源 卫 地 址 和 端口 号 。 

dst: 表示 目的 IP 地 址 和 端口 号 。 

。 flags: 该 字段 包含 的 内 容 为 零 个 或 多 个 下 列 字 符 的 组 合 ， 每 个 字符 
对 应 于 一 个 TCP 控 制 位 ，61.6.1 节 中 已 描述 过 ， 它 们 是 S (SYN) 、 
F (FIN) 、P (PSH) 、R (RST) 、E (ECE) LARC (CWR). 

e data-seqno: 该 字段 表示 这 个 数据 包 中 的 序列 号 范围 。 














默认 情况 下 ， 序 列 号 范围 的 显示 与 该 方向 上 所 监视 的 


数据 流 的 第 一 个 字 节 相关 。tcpdump 的 -S 选 项 可 以 让 序列 号 
以 绝对 格式 显示 。 


e ack: 这 是 一 个 形式 为 “ack num” 的 字符 串 ， 表 示 连 接 的 另 一 端 所 期 
望 的 下 一 个 字 节 的 序列 号 。 

e window: 这 是 一 个 形式 为 “win num” 的 字符 串 ， 表 示 在 这 条 连接 相反 
方 回 上 用 于 传输 的 接收 缓冲 区 的 空间 大 小 。 

。 urg: 这 是 一 个 形式 为 “urg num” 的 字符 串 ， 表 示 报 文 段 在 指定 的 偏 移 
上 包含 紧急 数据 。 

e options: 这 个 字符 串 描述 了 包含 在 该 报 文 段 中 的 任意 TCP 选 项 。 





其 中 src、dst 和 flags 字 段 总 是 会 显示 。 其 他 剩余 的 字段 只 在 合适 的 
时 候 才 会 显示 。 


下 面 的 shell 会 话 展示 了 应 该 如 何 使 用 tcpdump 来 监视 客户 端 (运行 
于 主机 pukaki 上 ) 和 服务 器 《运行 在 主机 tekapo 上 ) 之 间 的 流量 。 在 这 
个 shell 会 话 中 ， 我 们 用 了 两 个 tcpdump 的 选项 ， 使 得 输出 信息 变 得 更 为 
简洁 。-t 选 项 取消 了 时 间 戳 信息 的 显示 ，-N 选 项 使 得 在 显示 主机 名 时 去 
挤 了 域名 限定 。 此 外 ， 为 了 简洁 而 且 由 于 我 们 不 会 对 TCP 的 各 个 选项 做 
细致 的 描述 ， 我 们 从 tcpdump 的 输出 中 去 掉 了 options 字 段 。 


服务 器 工作 于 55555 端 口上 ， 因 此 我 们 的 tcpdump 命 令 应 该 选择 那个 
端口 上 的 流量 。 输 出 显示 了 在 建立 连接 时 所 交换 的 3 个 报 文 。 


$ tcpdump -t -N ‘port 55555' 

IP pukaki.60391 > tekapo.55555: 9 3412991013 :3412991013 (0) win 5840 

IP tekapo.55555 > pukaki.60391: S 1149562427:1149562427(0) ack 3412991014 win 5792 
IP pukaki.60391 > tekapo.55555: . ack 1 win 5840 














这 三 个 报 文 是 在 三 次 握手 时 交换 的 SYN、SYN/ACK 以 及 ACK (& 
见 图 61-5) 。 


在 接 下 来 的 输出 中 ， 客 户 端 发 送 给 服务 器 两 条 消息 ， 分 别 包 含有 16 
和 32 字 节 。 而 服务 器 每 次 都 啊 应 一 条 4 字 节 的 消息 。 


IP pukaki.60391 > tekapo.55555: P 1:17(16) ack 1 win 5840 
IP tekapo.55555 > pukaki.60391: . ack 17 win 1448 

IP tekapo.55555 > pukaki.60391: P 1:5(4) ack 17 win 1448 
IP pukaki.60391 > tekapo.55555: . ack 5 win 5840 

IP pukaki.60391 > tekapo.55555: P 17:49(32) ack 5 win 5840 
IP tekapo.55555 > pukaki.60391: . ack 49 win 1448 

IP tekapo.55555 > pukaki.60391: P 5:9(4) ack 49 win 1448 
IP pukaki.60391 > tekapo.55555: . ack 9 win 5840 


对 于 每 个 数据 包 ， 我 们 都 可 以 看 到 ACK 报 文 在 相反 的 方向 上 发 
iB 

最 后 ， 我 们 看 看 在 连接 终止 时 所 交换 的 报 文 《首先 由 客户 端 关 闭 它 
这 一 病 的 连接 ， 然 后 再 由 服务 右 关 闭 男 一 端 )。 
IP pukaki.60391 > tekapo.55555: F 49:49(0) ack 9 win 5840 
IP tekapo.55555 > pukaki.60391: . ack 50 win 1448 


IP tekapo.55555 > pukaki.60391: F 9:9(0) ack 50 win 1448 
IP pukaki.60391 > tekapo.55555: . ack 10 win 5840 


上 述 输出 展示 了 在 连接 终止 过 程 中 所 交换 的 报 文 〈 见 图 61-6) 。 


61.9 Be Pu 


套 接 字 选项 能 影响 到 套 接 字 操 作 的 多 个 功能 。 在 本 书 中 ， 我 们 在 众 
多 的 套 接 字 选项 中 只 介绍 了 其 中 几 个 选项 。 涵 盖 大 多 数 标 准 套 接 字 选项 
的 详细 讨论 可 以 在 [stevens et al., 2004] 中 找到 。 请 参阅 tcp(7)、udp(7)、 
ao socket(7) 以 及 unix(7) 的 用 户 手册 页 以 得 到 更 多 Linux 上 特有 的 细节 


Ho 











系统 调用 setsockopt() 和 getsockoptO 是 用 来 设 定 和 获取 套 接 字 选 项 
的 。 





#include «sys/socket.h> 


int getsockopt(int sockfd, int level, int opiname, void *optval, 
socklen_t *optlen); 

int setsockopt(int sock/d, int level, int opiname, const void *optval, 
socklen_t opilen); 





Both return 0 on success, or -1 on error 











Xf F setsockopt()#llgetsockopt() Kin, BWsockfd{t 245 HERT 
文件 摘 述 符 。 


参数 level 指 定 了 套 接 字 选 项 所 适用 的 协议 比如 ，IP 或 者 TCP。 
对 于 本 书 中 我 们 描述 的 大 多 数 套 接 字 选项 来 说 ，level 都 会 设 为 
SOL_SOCKET， 这 表示 选项 作用 于 套 接 字 API 层 。 


参数 optname 标 识 了 我 们 希望 设 定 或 取出 的 套 接 字 选 项 。 参 数 optval 
古 一 个 指 癌 缓冲 区 的 指针 ， 用 来 指定 或 者 返回 选项 的 值 。 根 据 选项 的 不 
同 ， 这 个 参数 可 以 是 一 个 指 回 整 数 或 结构 体 的 指针 。 


参数 optlen 指定 了 由 optval 所 指 癌 的 缓冲 区 空间 大 小 〈 字 市 数 )。 
对 于 setsockopt() 来 说 ， 这 个 参数 是 按 值 传递 的 。 对 于 getsockopt() 来 
说 ，optlen 是 一 个 保存 结果 值 的 参数 。 在 调用 之 前 ， 我 们 将 optlen 初 始 
化 为 由 optval 所 指 同 的 缓冲 区 空间 大 小 值 ， 调 用 返回 后 ， 该 参数 被 设 为 
实际 写 入 到 绥 冲 区 中 的 字 节 数 。 


61.11 节 中 已 经 详细 说 明了 由 accept0 返 回 的 套 接 字 文件 描述 符 从 监 























听 套 接 字 中 继承 了 可 设 定 的 套 接 字 选 项 值 。 


套 接 字 选 项 与 打开 的 文件 描述 相关 联 (参见 图 5-2) 。 这 表示 通过 
dup0 或 forkO 调 用 复制 而 来 的 文件 描述 符 副本 同 原始 的 文件 描述 符 一 起 
共享 套 接 字 选 项 集合 。 


套 接 字 选项 的 一 个 简单 例子 是 SO_TYPE， 可 以 用 来 找 出 套 接 字 的 
类 型 , HE 如 : 


int optval; 
socklen t optlen; 








optlen = sizeof(optval); 
if (getsockopt(sfd, SOL_SOCKET, SO_TYPE, &optval, &optlen) == -1) 
errExit("getsockopt"); 


经 过 这 个 调用 之 后 ，optval 束 包含 了 套 接 字 类 型 一 比如， 
SOCK_STREAM 或 者 SOCK_DGRAM。 在 通过 exec0 继 承 了 套 接 字 文件 
描述 符 的 程序 中 ， 比 如 由 inetd 所 调用 的 程序 ， 这 种 情况 下 该 调用 会 很 有 
用 一 一 因为 程序 可 能 并 不 知道 它 继承 而 来 的 套 接 字 是 什么 类 型 。 


SO_TYPE 是 只 读 套 接 字 选项 的 一 个 例子 。 不 能 用 setsockopt0 来 修改 
BERTAM, 








61.10 SO_REUSEADDR 套 接 字 选项 


SO_REUSEADDR 套 接 字 选项 可 用 作 多 种 用 途 〈 见 [Stevens et al., 
2004] 第 7 章 以 获得 更 多 细节 ) 。 我 们 这 里 只 关注 一 种 最 常见 的 用 途 : 避 
免 当 TCP 服 务 器 重启 时 ， 尝 试 将 套 接 字 绑 定 到 当前 已 经 同 TCP 结 点 相关 
联 的 端口 上 时 出 现 的 EADDRINUSE (地 址 已 使 用 ) 错误 。 这 个 问题 通 
常会 在 下 面 两 种 情况 中 出 现 。 


。 之 前 连接 到 客户 端的 服务 器 要 么 通过 close0， 要 么 是 因为 骨 涡 “〈 例 
如 被 信号 杀 死 ) 而 执行 了 一 个 主动 关闭 。 这 就 使 得 TCP 结 点 将 处 于 
TIME_WAIT 状 态 ， 直 到 2 倍 的 MSL 超 时 过 期 为 止 。 

。 之 前 ， 服 务 器 先 创 建 一 个 子 进程 来 处 理 客户 端的 连接 。 稍 后 ， 服 务 
器 终止 ， 而 子 进程 继续 服务 客户 端 ， 因 而 使 得 维护 的 TCP 结 点 使 
用 了 服务 器 的 知名 端口 写 (well-known port) 。 


在 以 上 两 种 情况 中 ， 剩 下 的 TCP 结 点 无 法 接受 新 的 连接 。 尽 管 如 
此 ， 针 对 这 两 种 情况 ， 默 认 情 况 下 大 多 数 的 TCP 实 现 会 阻止 新 的 监听 和 套 
接 字 绑 定 到 服务 器 的 知名 端口 上 。 

















EADDRINUSE 错 误 在 客户 端 上 不 各 出现 ， 因 为 它们 一 
般 使 用 的 是 临时 端口 ， 这 些 临时 端口 不 会 是 当前 处 于 
TIME_WAIT 状 态 下 的 那些 端口 。 但 是 ， 如 果 客 户 端 绑 定 到 
一 个 指定 的 端口 上 ， 那 么 还 是 会 遇 到 这 个 错误 。 


要 理解 SO_REUSEADDR 套 接 字 选项 的 操作 ， 回 到 我 们 早先 针对 流 
式 套 接 字 ( 见 56.5 节 ) 的 电话 类 比 上 会 很 有 帮助 。 就 像 打 电 话 一 样 ( 忽 
略 电话 会 议 的 概念 ) ， 一 个 TCP 套 接 字 连接 通过 一 对 互联 的 结 点 来 标 
识 。accept0 操 作 就 类 似 于 公司 内 部 总 机 (“服务 器 *) 的 接线 员 。 当 有 新 
的 电话 打 进 来 时 ， 接 线 员 将 它 转 接 到 公司 某 个 内 部 的 电话 上 “一 个 新 
的 套 接 字 ”) 。 从 外 部 来 看 是 没 法 找 出 那个 内 部 电话 的 。 当 多 个 外 部 打 


来 的 电话 都 通过 总 机 来 处 理 时 ， 唯 一 可 以 区 别 它 们 的 方法 就 是 通过 外 部 
电话 的 电话 号 码 和 总 机 号 码 的 组 合 。( 当 考虑 到 可 能 会 有 多 个 公司 的 总 
机 处 于 同一 个 电话 网 络 时 ， 总 机 号 码 也 是 必须 要 知道 的 。) 类 比 来 看 ， 
每 次 当 我 们 在 监听 套 接 字 上 接受 一 个 套 接 字 连 接 时 都 会 创建 出 一 个 新 的 
套 接 字 。 唯 一 可 区 分 它们 的 方法 是 通过 它们 所 连接 到 的 不 同 的 对 端 套 接 





ry 


T 


换 句 话说 ， 一 个 已 连接 的 TCP 套 接 字 是 由 一 个 4 元 组 ( 即 ，4 个 值 的 
联合 ) 来 唯一 标识 的 ， 形 式 如 下 。 


{ local-IP-address, local-port, foreign-IP-address, foreign-port } 


TCP 规 范 要 求 每 个 这 样 的 4 元 组 都 是 唯一 的 ， 也 就 是 说 只 有 一 个 对 
应 的 连接 (“ 打 来 的 电话 ”) 可 以 存在 。 问 题 是 大 多 数 实现 (包括 
Linux) 都 强制 施加 了 一 个 更 为 严格 的 约束 : 如 果 主 机 上 有 任何 可 匹配 
到 本 地 端口 的 TCP 连 接 ， 则 本 地 器 口 不 能 被 重用 《〈 即 ， 对 bind0 的 调 
FAD 。 正 如 本 节 开 头 描述 的 场景 ， 甚 至 当 TCP 不 能 再 接受 新 的 连接 时 
这 条 规定 也 是 强制 执行 的 。 


Ja} SO_REUSEADDR 套 接 字 选 项 可 以 解放 这 个 限制 ， 使 得 更 接 
近 TCP 的 需求 。 默 认 情 况 下 该 选项 的 值 为 0， 表 示 被 关闭 。 我 们 可 以 在 
绑 定 套 接 字 之 前 为 该 选项 设 定 一 个 非 零 值 来 月 用 它 ， 见 程序 清单 61-4。 


在 本 节 开 头 描述 的 两 种 情况 下 ， 尽 管 有 另 一 个 TCP 结 点 绑 定 到 了 同 
一 个 端口 上 ， 我 们 也 可 以 通过 设 定 SO_REUSEADDR 选项 允许 我 们 将 
套 接 字 绑 定 到 这 个 本 地 端口 上 。 大 多 数 TCP 服 务 器 都 应 该 开局 这 个 选 
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程序 清单 61-4: 设 定 SO_REUSEADDR 套 接 字 选项 








int sockfd, optval; 


sockfd = socket(AF INET, SOCK STREAM, 0); 
if (sockfd == -1) 
errExit("socket"); 


optval = 1; 
if (setsockopt(sockfd, SOL SOCKET, SO REUSEADDR, &optval, 
sizeof(optval)) == -1) 
errExit("socket"); 


if (bind(sockfd, &addr, addrlen) == -1) 
errExit("bind"); 

if (listen(sockfd, backlog) == -1) 
errExit("Listen") ; 





61.11 在 accept(0 中 继承 标记 和 选项 


多 种 标记 和 设 定 都 可 以 同 打开 的 文件 描述 和 文件 描述 符 〈 见 5.4 
W) 相关 联 起 来 。 此 外 ， 如 61.9 节 所 述 ， 我 们 可 以 为 套 接 字 设 定 多 个 选 
项 。 如 果 将 这 些 标 记 和 选项 设 定 在 监听 套 接 字 上 ， 它 们 会 通过 由 
acceptO 返 回 的 新 套 接 字 所 继承 吗 ? 本 节 我 们 将 描述 其 中 的 细节 。 


在 Linuxz 上 ， 如 下 这 些 属性 是 不 会 被 acceptO0 返 回 的 新 的 文件 描述 符 
所 继承 的 。 


同 打开 的 文件 描述 相关 的 状态 标 前 过 fcntl0) 的 
F_SETFL 〈 见 5.3 节 ) 操作 所 修改 的 标记 。 这 些 标 记 包 括 
O_NONBLOCK 和 O_ASYNC。 
; 述 符 标 前 过 fcntl() 的 F_SETFD 操 作 来 修改 的 标 
记 。 唯 一 一 个 这 样 的 标记 是 执行 中 关闭 (dlose-on-exec) 标记 
(FD_CLOEXEC，27.4 节 中 有 描述 )〉。 

与 信号 驱动 WO〔( 见 63.3 节 ) 相关 联 的 文件 描述 符 属 性 ， 如 fcnt10 的 
F_SETOWN ( 属 主 进 程 ID)〉 以 及 F_SETSIG 〈 生 成 信号 ) 操作 。 


换 句 话说 ， 由 a a 符 继 承 了 大 部 分 套 接 字 选 
项 ， 这 些 选 项 可 以 通过 setsockopt() 来 设 定 ( 见 61.9 节 ) 。 


本 节 摘 述 的 一 些 细 节 在 SUSv3 中 并 没有 规定 ， 有 关 acceptO 返 回 的 
新 的 连接 套 接 字 的 继承 规则 在 不 同 的 UNIX 实 现 中 也 有 所 区 别 。 最 需要 
注意 的 是 ， 在 一 些 UNIX 实 现 中 ， 如 果 打 开 的 文件 状态 标记 如 
O_NONBLOCK 和 O_ASYNC 设 定 在 了 监听 套 接 字 上 ， 那 么 它们 会 被 
POE 为 了 满足 可 移植 性 ， 可 能 需要 显 式 
地 在 acceptO 返 回 的 新 套 接 字 上 重新 设 定 这 些 属性 。 



































61.12 TCP vs.UDP 


鉴于 TCP 可 提供 可 靠 的 数据 传输 而 UDP 无 法 保证 这 一 点 ， 一 个 明显 
的 问题 出 现 了 : “ 那 为 何 还 要 用 UDP 了 呢 ? ”这 个 问题 的 答案 在 [Stevens et 
al., 2004] 的 第 22 章 中 已 经 有 所 涉及 。 这 里 ， 我 们 总 结 了 一 些 引 导 我 们 选 
择 UDP 而 不 是 TCP 的 原因 。 


。 UDP 服务 器 能 从 多 个 客户 端 接收 数据 报 〈 并 可 以 同 它 们 发 送 回 
复 ) ， 而 不 必 为 每 个 客户 端 创 建 和 终止 连接 〈 即 ， 使 用 UDP 传送 
单条 消息 的 开销 比 使 用 TCP 要 小 ) 。 

。 对 于 简单 的 请 求 响应 式 通 信 ，UDP 的 速度 比 TCP 要 快 。 因 为 
UDP 不 需要 建立 和 终止 连接 。[Stevens, 1996] 附 录 A 中 记录 了 在 最 
好 的 情况 下 使 用 TCP 需 要 的 时 间 是 : 


2 * RTT + SPT 


在 这 个 公式 中 ，RTT 表示 往返 时 间 《〈 发 送 一 个 请 求 并 接收 响应 所 需 
要 的 时 间 ) ， 而 SPT 表 示 服 务 器 端 处 理 请 求 所 用 的 时 间 。 在 广域网 
H, SPT 的 值 可 能 会 比 RTT 小 。) 对 于 UDP 来 说 ， 最 好 情况 下 单个 请 
求 啊 应 通信 所 用 的 时 间 为 : 




















RTT + SPT 


同 TCP 相 比 少 了 一 个 RTT 时 间 。 由 于 主机 之 间 的 RTT 时 间 受 长 距离 
《比如 跨 洲 际 ) 或 许多 中 间 路 由 器 的 影响 ， 这 个 数值 一 般 可 达到 数 个 十 








分 之 一 秒 。 这 个 时 间 上 的 差距 使 得 UDP 成 为 某 些 请 求 一 一 响应 式 通 信 中 
更 有 吸引 力 的 方案 。DNS 就 是 一 个 应 用 UDP 的 绝 好 例子 一 一 采用 UDP 使 


得 域名 查找 操作 只 需要 在 服务 器 间 双 向 各 发 送 一 个 数据 报 就 可 以 了 。 


。 UDP 套 接 字 上 可 以 进行 广播 和 组 播 处 理 。 广 播 允 许 发 送 端 发 送 的 数 
据 报 能 在 接 入 到 该 网 络 中 的 所 有 主机 的 相同 端口 上 接收 到 。 组 播 也 
类 似 ， 只 是 组 播 只 允许 数据 报 发 送 到 指定 的 一 组 主机 上 。 更 多 细节 
请 参阅 [Stevens et al., 2004] 中 的 第 21 章 和 第 22 章 。 

某 些 特定 类 型 的 应 用 例如， 视频 流 和 首 频 流 ) 不 需要 TCP 提供 
的 可 靠 性 也 能 工作 在 可 接受 的 程度 内 。 换 句 话 说 ， 当 报 文 在 传输 过 
程 中 丢弃 ，TCP 党 试 重 传 所 造成 的 延 时 可 能 是 无 法 接受 的 。〈 在 视 
频 流 中 出 现 延 时 可 能 比 简单 的 丢 包 更 严重 。) 因而 ， 这 样 的 应 用 更 





倾 问 于 使 用 UDP， 并 在 应 用 程序 中 采用 特定 的 恢复 末 略 来 应 对 侦 
尔 会 出 现 的 丢 包 现象 。 


使 用 UDP 但 又 需要 可 靠 性 保证 的 应 用 程序 必须 自行 实现 可 靠 性 保 
障 功 能 。 通 常 ， 这 至 少 需 要 序列 号 、 确 认 机 制 、 丢 包 重 传 以 及 重复 报 文 
检测 [Stevens et al., 2004] 中 给 出 了 一 个 实现 好 的 例子 。 但 是 ， 如 果 还 
需要 更 高 级 的 功能 如 流量 控制 和 拥塞 控制 的 话 ， 那 么 最 好 还 是 直接 使 用 
TCP. Æ UDP 之 上 实现 所 有 这 些 功 能 是 非常 复杂 的 ， 就 算 真 的 实现 得 
很 好 ， 结 果 也 很 可 能 达 不 到 TCP 的 性 能 。 





61.13 ”高 级 功能 


UNIX 和 Internet 域 套 接 字 还 有 许多 我 们 在 本 书 中 没有 详细 介绍 到 
的 功能 。 我 们 在 本 节 中 对 其 中 一 些 功能 做 了 总 结 。 要 获得 全 部 的 细节 ， 
请 参 疯 [Stevens et al., 2004]. 


61.13.1 和 带 外 数据 


带 外 数据 是 流 式 套 接 字 的 一 种 特性 ， 人 允许 发 送 端 将 传送 的 数据 标记 
为 高 优先 级 。 也 就 是 说 ， 接 收 端 不 需要 读 取 字 节 流 中 所 有 的 中 间 数 据 就 
能 获得 有 可 用 的 带 外 数据 的 通知 。 这 个 特性 在 许多 程序 中 都 有 用 到 ， 比 
如 telnet、rlogin 以 及 ftp， 它 们 利用 该 特性 来 终止 之 前 传送 的 命令 。 带 外 
数据 的 发 送 和 接收 需要 在 sendO 和 recv() 中 指定 MSG_OOB 标 记 。 当 一 个 
套 接 字 接收 到 带 外 数据 可 用 的 通知 时 ， 内 核 为 套 接 字 的 属 主 (通常 是 使 
用 该 套 接 字 的 进程 ) 生成 SIGURG 信 号 ， 如 同 fcntO 的 F_SETOWN 操 作 














当 采 用 TCP 套 接 字 时 ， 任 意 时 刻 最 多 只 有 1 字 市 数据 可 被 标记 为 带 
外 数据 。 如 果 在 接收 端 处 理 完 前 一 个 带 外 数据 字 节 之 前 ， 发 送 站 友 送 了 
额外 的 带 外 数据 ， 那 么 之 前 对 带 外 数据 的 通知 就 会 丢失 。 


TCP 将 带 外 数据 限制 为 一 个 字 节 ， 这 实际 上 是 在 套 接 
字 API 的 通用 型 带 外 模型 和 采用 TCP 紧 急 模 式 的 具体 实现 之 
间 的 不 匹配 造成 的 。 我 们 在 61.6.1 节 中 介绍 TCP 报 文 的 格式 
时 就 接触 到 了 TCP 的 紧急 模式 。TCP 通 过 在 首部 中 设 定 
URG 标 志 位 来 表示 有 紧急 〈 带 外 ) 数据 存在 ， 并 将 紧急 指 
针 字 段 指向 了 紧急 数据 。 但 是 ，TCP 本 身 没 有 办 法 指明 紧 
急 数 据 序列 的 长 度 ， 因 此 就 认为 紧急 数据 只 由 一 个 字 节 组 
Mo 


更 多 关于 TCP 紧 急 数 据 的 信息 可 以 在 RFC 793 中 找到 。 














在 某 些 UNIX 实 现 中 ，UNIX 域 流 式 套 接 字 是 文 持 带 外 数据 的 ， 而 
Linux 不 支持 。 


现 如 今 是 不 提倡 使 用 带 外 数据 的 ， 在 某 些 情况 下 它 可 能 是 不 可 靠 的 
(参见 [Gont & Yourtchenko, 2009]) 。 另 外 一 种 方法 是 维护 两 个 流 式 套 
接 字 用 作 通 信 。 其 中 一 个 用 来 做 普通 的 通信 ， 而 另 一 个 用 来 做 高 优先 级 
通信 。 应 用 程序 可 以 采用 63 章 中 摘 述 过 的 其 中 一 种 技术 来 同时 监视 这 
两 个 通道 。 这 种 方法 允许 让 多 个 字 节 的 优先 级 数据 得 到 传送 。 此 外 ， 这 
种 技术 可 以 用 在 任何 通信 域 的 流 式 套 接 字 中 (比如 UNIX 域 套 接 字 ) 。 














61.13.2 ”sendmsg() 和 recvmsg() 系 统 调 用 


sendmsg() 和 recvmsg() 是 套 接 字 VO 系统 调用 中 最 为 通用 的 两 种 。 
sendmsgO 系 统 调用 能 做 到 所 有 write0、send0 以 及 sendto0) 能 做 到 的 事 ; 
recvmsg(O 系 统 调用 能 做 到 所 有 read0、recv0O 以 及 recvfrom0) 能 做 到 的 事 。 
此 外 ， 这 两 个 系统 调用 还 有 如 下 功能 。 


e 同 readv0 和 writevO0 〈 见 5.7 节 ) 一 样 ， 我 们 可 以 执行 分 散 -聚合 

I/O (scatter-gather I/O) 。 当 我 们 通过 sendmsgO 在 数据 报 套 接 字 上 
聚合 输出 时 《或 者 在 一 个 已 连接 的 数据 报 套 接 字 上 执行 

writev()) ， 束 生成 一 个 单独 的 数据 报 。 相 反 ，recvmsg0 (LAR 
readv()) 可 用 来 在 数据 报 套 接 字 上 分 散 输 入 ， 将 单个 数据 报 分 散 到 
多 个 用 户 空 间 绥 冲 区 中 。 

我 们 可 以 传送 包含 特定 于 域 的 辅助 数据 〈 也 称 为 控制 信息 ) 。 辅 助 
数据 可 以 通过 流 式 和 数据 报 式 套 接 字 来 传递 。 我 们 会 在 下 面 介 绍 一 
些 有 关 辅 助 数据 的 例子 。 





Linux 2.6.33 版 新 增 了 一 个 系统 调用 recvmmsg()。 该 系 
统 调 用 类 似 于 recvmsg0， 但 允许 在 单个 系统 调用 中 接收 多 
个 数据 报 。 当 应 用 程序 需要 处 理 的 网 络 流 量 很 高 时 ， 这 可 
以 减 小 应 用 程序 中 的 系统 调用 开销 。 在 未 来 的 内 核 版 本 中 





很 有 可 能 会 增加 一 个 类 似 于 sendmmsg(O 这 样 的 系统 调用 。 


61.13.3 ”传递 文件 描述 符 


通过 sendmsgO0 和 recvmsg0， 我 们 可 在 同一 人 台 主 机 上 通过 UNIX 域 
套 接 字 将 包含 文件 摘 述 符 的 辅助 数据 从 一 个 进程 传递 到 另 一 个 进程 上 。 
以 这 种 方式 可 以 传递 任意 类 型 的 文件 描述 符 一 一 比如 ， 从 open0 或 
pipe0O 返 回 得 到 的 文件 摘 述 符 。 一 个 同 套 接 字 更 相关 的 例子 是 : 主 服务 
器 可 以 在 TCP 监听 套 接 字 上 接受 客户 端 连 接 ， 然 后 将 返回 的 文件 描述 
符 传递 给 进程 池 中 的 其 中 一 个 成 员 上 《〈 见 60.4 节 ) ， 这 些 成 员 由 服务 
器 的 子 进程 组 成 。 之 后 ， 子 进程 就 可 以 响应 客户 端的 请 求 了 。 


虽然 这 种 技术 通 钊 称 为 传递 文件 描述 符 ， 但 实际 上 在 两 个 进程 间 传 
递 的 是 对 同一 个 打开 文件 描述 的 引用 《 见 图 5-2) 。 在 接收 进程 中 使 用 
的 文件 描述 符号 一 般 和 发 送 进程 中 采用 的 文件 描述 符号 不 同 。 








随 本 书 发 布 的 源码 中 ， 子 目录 sockets 中 的 
scm_rights_send.c 和 scm_rights_recv.c 文 件 中 给 出 了 传递 文 
件 描 述 符 的 例子 。 


61.13.4 ”接收 发 送 端的 凭据 


另 一 个 使 用 辅助 数据 的 例子 是 通过 UNIX 域 套 接 字 接收 发 送 端的 凭 
证 。 这 些 赁 证 由 发 送 端 进程 的 用 户 ID、 组 ID 以 及 进程 ID 组 成 。 发 送 端 可 
能 会 将 自己 的 用 户 ID 和 组 ID 设置 为 相对 应 的 实际 用 户 ID、 有 效用 户 ID 
或 者 保存 设置 ID。 这 样 使 得 接收 端 进程 可 以 在 同一 台 主 机 上 验证 发 送 
端 。 要 获得 更 多 的 细节 ， 请 参阅 socket(7) 和 unix(7) 用 户 手册 页 。 


与 传递 文件 凭证 不 同 ， 有 关 发 送 端的 凭证 传递 并 没有 在 SUSv3 中 规 
定 。 除 了 Linux 之 外 ， 一 些 现代 的 BSD 系 统 中 实现 了 这 个 特性 〈 这 里 的 


结构 体 中 包含 的 信息 比 Linux 上 的 多 ) ， 但 是 很 少 有 其 他 的 UNIX 实 
oe 有 关 FreeBSD EHTE 和 证 传递 的 细节 描述 A nJ Æ [Stevens 
et al., 2004] 中 找到 。 


在 Linuxz 上 ， 一 个 特权 级 进程 如 果 需 要 传递 的 凭证 的 话 ， 可 以 将 用 
户 ID、 组 ID 和 进程 ID 分 别 伪造 成 CAP_SETUID、CAP_SETGID 和 
CAP_ SYS_ADMIN。 


随 本 书 发 布 的 源码 中 ， 子 目录 sockets 中 的 
scm_cred_send.c 和 scm_cred_recv.c 文 件 中 给 出 了 传递 任 证 的 
例子 。 


61.13.5 ”顺序 数据 包 套 接 字 


顺序 SOR LES (Sequenced-packet sockets) 结合 了 流 式 套 接 字 
和 数据 报 套 接 字 的 功能 。 


同 流 式 套 接 字 一 样 ， 顺 序数 据 包 套 接 字 也 是 面向 连接 的 。 建 立 连 接 
的 方式 和 流 式 套 接 字 一 样 ， 也 是 通过 bind()、listen()、acceptO 和 
connect() 调 用 。 

同 数据 报 套 接 字 一 样 ， 顺 序数 据 包 套 接 字 也 是 保留 消息 边界 的 。 在 
ee a e 《由 对 端 写 
人 。 如 果 消 息 比 调用 者 提供 的 缓冲 区 还 要 长 ， 那 么 剩余 的 字 贡 会 
MAF. o 

与 流 式 套 接 字 一 样 ， 而 不 同 于 数据 报 套 接 字 的 是 : 顺序 数据 包 套 接 
字 之 间 的 通信 是 可 靠 的 。 消 息 会 以 无 错误 、 » 顺序 、 不 重复 的 方式 
传递 到 对 端 应 用 程序 上 ， 且 可 以 保证 消息 会 到 达 对 端 〈 假 设 没 有 出 
现 系统 或 应 用 程序 骨 演 或 者 网 络 过 载 的 现象 ) 2 


顺序 数据 包 套 接 字 也 是 通过 socketO 调 用 来 创建 的 ， 需 要 将 参数 type 
指定 为 SOCK_SEQPACKET。 


在 历史 上 ，Linux 同 大 多 数 UNIX 实 现 一 样 ， 并 没有 在 UNIX 域 或 是 























Intemet 域 提供 对 顺序 数据 包 套 接 字 的 支持 。 但 是 ， 从 2.6.4 版 内 核 开 始 ， 
Linux 在 UNIX 域 套 接 字 上 支持 了 SOCK_SEQPACKET.。 





在 Internet 域 上 ，UDP 和 和 TCP 协议 都 不 支持 SOCK_SEQPACKET， 但 
SCTP 协 议 〈 将 在 下 一 节 介 绍 ) 是 支持 的 。 


本 书 中 我 们 没有 给 出 一 个 使 用 顺序 数据 包 套 接 字 的 例子 。 但 是 ， 除 
了 会 预 留 消 息 边界 外 ， 在 使 用 上 它 同 流 式 套 接 字 并 没有 什么 不 同 。 








61.13.6 ”SCTP 以 及 DCCP 传 输 层 协议 


SCTP 和 DCCP 是 两 个 新 的 传输 层 协议 ， 有 可 能 在 将 来 变 得 越 来 越 普 
pe 


流 控制 传输 协议 (SCTP，http://www.sctp.org/) 被 设计 来 专门 支持 
电话 信号 ， 但 同时 也 具有 通用 的 用 途 。 同 TCP 一 样 ，SCTP 提 供 了 可 
靠 、 双 向 、 面 向 连接 的 传输 。 与 TCP 不 同 的 是 ，SCTP 预 留 了 消息 边 
界 。SCTP 的 特点 束 是 文 持 多 条 数据 流 ， 这 样 束 允许 多 个 逻辑 上 的 数据 
流通 过 一 条 单独 的 连接 来 传递 。 


有 关 SCTP 的 描述 可 在 [Stewart & Xie, 2001]、[Stevens et al., 2004] 以 
及 RFC 4960、3257 和 3286 上 找到 。 


自从 2.6 内 核 以 来 ，Linux 也 开始 文 持 SCTP。 更 多 关于 该 特性 的 实现 
信息 可 在 http://lksctp.sourceforge.net/ 上 找到 。 


前 面 的 章节 全 面 地 描述 了 和 套 接 字 API， 我 们 将 Internet 域 的 流 式 套 接 
字 同 TCP 等 同 起 来 。 但 是 ，SCTP 提 供 了 一 种 可 选 的 协议 来 实现 流 式 套 
接 字 ， 只 要 按照 如 下 形式 创建 套 接 字 即 可 。 


socket(AF_INET，SOCK_STREAM，IPPROTO_SCTP) ; 


从 2.6.14 版 内 核 开始 ，Linux 支 持 了 一 种 新 的 数据 报 协议 一 数据 报 
拥塞 控制 协议 (DCCP) 。 同 TCP 一 样 ，DCCP 也 提供 拥塞 控制 能 力 〈 应 
用 层 就 没 必 要 实现 拥 竖 控制 了 ) ， 防 正 由 于 数据 报 的 快速 传递 而 使 网 络 
过 载 。 (我 们 在 58.6.3 节 中 描述 TCP 协议 时 解释 了 什么 是 拥塞 控制 。) 
但 是 ， 与 TCP 不 同 的 是 (类 似 于 UDP) ，DCCP 对 于 可 靠 性 或 按 序 传 
递 并 不 做 任何 保证 ， 因 而 可 以 让 不 需要 用 到 这 些 特 性 的 应 用 程序 避免 承 














担 所 经 历 的 延 时 。 关 于 DCCP 的 信息 可 
在 http://www.read.cs.ucla.edu/dccp/ 和 RFC 4336 以 及 4340 中 找到 。 


61.14 ”总结 


在 许多 情况 下 ， 当 在 流 式 套 接 字 上 执行 IO 操作 时 会 出 现 部 分 读 取 
和 部 分 写 入 的 现象 。 我 们 给 出 了 两 个 函数 readn0 以 及 writen0 的 实现 ， 写 
们 可 用 来 确保 将 缓冲 区 中 的 数据 完整 地 读 取 或 写 入 。 


shutdown0O 系 统 调用 对 连接 终止 提供 了 更 加 精细 的 控制 。 通 过 调用 
shutdown()， 无 论 是 否 有 其 他 打开 的 文件 描述 符 指 癌 套 接 字 ， 我 们 都 可 
以 强行 关闭 双 问 通信 流 的 其 中 一 端 或 两 端 。 


同 read0 和 write0) 一 样 ，recv0 和 send0 也 可 用 来 在 套 接 字 上 执行 IO 
人 该 参数 用 来 控制 特定 于 套 接 字 
J1/O 功 能 。 


系统 调用 sendfile() 人 允许 我 们 高 效 地 将 文件 内 容 拷贝 到 套 接 字 上 。 获 
得 高 效 性 的 原因 在 于 我 们 不 需要 将 文件 数据 在 用 户 内 存 空 间 中 来 回 拷 
贝 ， 而 read0 和 writeO 则 需要 这 么 处 理 。 


系统 调用 getsockname() 和 getpeername() 可 以 分 别 获取 套 接 字 绑 定 的 
本 地 地 址 以 及 连接 的 对 端 套 接 字 地 址 。 


我 们 对 TCP 协 议 的 一 些 操 作 细 节 做 了 讨论 ， 包 括 TCP 的 状态 、TCP 
状态 迁移 图 以 及 TCP 连 接 的 建立 和 终止 。 作 为 讨论 的 一 部 分 ， 我 们 了 解 
了 为 什么 TIME_WAIT 状 态 在 TCP 的 可 靠 性 保证 中 占据 了 重要 的 部 分 。 
尽管 当 重 启 服务 器 时 ， 这 个 状态 可 以 导致 出 现 “ 地 址 已 经 使 用 ”的 错误 。 
之 后 我 们 学 习 了 SO_REUSEADDR 套 接 字 选 项 可 用 来 避免 出 现 这 个 错 
误 ， 同 时 让 TIME_WAIT 状 态 达 到 其 预期 的 目的 。 


netstat 和 tcpdump 命 令 是 用 来 监视 和 调试 使 用 套 接 字 的 应 用 程序 的 优 
PLA 


系统 调用 getsockoptOD 和 setsockoptO 可 用 来 获取 和 修改 影响 套 接 字 操 
作 的 相关 选项 。 


在 Linux 上 ， 当 accept0 调 用 返回 一 个 新 创建 的 套 接 字 时 ， 它 并 不 会 
继承 监听 套 接 字 上 的 与 信号 驱动 WO 相关 的 打开 文件 状态 标记 、 文 件 描 
述 符 标 记 以 及 文件 插 述 符 属 性 。 但 是 ， 可 以 继承 已 设 定 的 套 接 字 选项 。 





























我 们 也 提 到 了 在 SUSv3 规 范 中 ， 对 于 这 些 继承 规则 的 细节 并 没有 做 说 
明 ， 这 些 规则 在 不 同 的 实现 中 有 所 不 同 。 


尽管 UDP 没有 提供 TCP 那 样 的 可 靠 性 保证 ， 我 们 也 了 解 到 了 对 于 对 
些 应 用 程序 来 说 为 什么 UDP 是 更 加 合适 的 选择 。 


最 后 ， 我 们 列 出 了 一 些 套 接 字 编 程 中 的 高 级 特性 ， 本 书 并 没有 对 此 
做 详细 的 描述 。 


更 多 信息 
请 参阅 59.15 节 中 列 出 的 更 多 信息 来 源 。 


61.15 练习 


61-1. 假设 修改 了 程序 清单 61-2 Cis_echo_cl.c) 中 的 程序 ， 使 得 程 
序 不 使 用 fork0 创 建 两 个 子 进 程 并 行 处 理 ， 相 反 只 采用 一 个 进程 首先 将 
标准 输入 揽 贝 到 套 接 字 ， 然 后 读 取 服务 器 端的 啊 应 。 运 行 这 个 客户 端 程 
序 时 可 能 会 出 现 什么 问题 ? (参考 图 58-8。) 


61-2. 通过 socketpair0) 来 实现 pipe0。 利 用 shutdown(0) 来 确保 得 到 的 
管道 是 单 问 的 。 


61-3. 通过 read0、write0 和 ]lseek0 来 实现 sendfileO) 的 奉 代 品 。 


61-4. 如 果 在 调用 bind0 之 前 先 在 TCP 套 接 字 上 调用 listen0， 那 么 内 
核 会 为 套 接 字 分 配 一 个 临时 端口 号。 编写 一 个 程序 ， 利 用 getsockname() 
来 显示 这 个 结果 。 


61-5. 编写 一 个 客户 端 和 服务 占 程 序 ， 使 得 客户 端 能 够 在 服务 器 所 
在 的 主机 上 执行 任意 的 shell 命 令 。〔 如 果 这 个 应 用 中 没有 实现 任何 安全 
机 制 ， 你 应 该 确保 运行 该 服务 器 的 用 户 账 户 不 会 被 恶意 用 户 利 用 并 造成 
破坏 。) 客户 端 应 该 接受 两 个 命令 行 参数 : 


$ ./is_shell_cl server-host ‘some-shell-command' 


在 连接 到 服务 器 之 后 ， 客 户 端 将 给 定 的 命令 发 送 到 服务 器 ， 然 后 通 
过 调用 shutdownO 关 闭 本 地 套 接 字 的 写 端 ， 这 样 服务 器 会 检测 到 文件 结 
尾 。 服 务 器 应 该 在 单独 的 子 进程 中 处理 每 个 到 来 的 连接 ( 即 ， 采 用 并 发 
型 设计 ) 。 对 于 每 个 到 来 的 连接 ， 服 务 器 应 该 从 套 接 字 中 读 取 命令 (下 
ae ee ee eee, 
两 个 提示 。 


Oe A eran 

列子 。 

。 通过 调用 dup20， 将 套 接 字 复制 到 标准 输出 和 标准 错误 输出 上 ， 被 
执行 的 命令 会 自动 写 入 到 和 套 接 字 上 。 


61-6. 61.13.1 节 中 提 到 还 有 一 种 其 他 的 方法 可 处 理 带 外 数据 。 可 以 
在 客户 端 和 服务 器 之 间 创 建 两 条 套 接 字 连接 : 一 条 连接 用 于 处 理 普通 数 

















据 ， 男 一 条 用 于 处 理 优先 级 数据 。 编 写 客 户 端 和 服务 器 程序 来 实现 这 个 
框架 。 这 里 有 一 些 提示 。 


。 服务 器 再 要 通过 菏 些 方法 获知 哪 两 个 套 接 字 是 属于 同一 个 客户 端 








的 。 一 种 办 法 是 让 客户 端 先 创建 一 个 使 用 临时 端口 的 监听 套 接 字 
( 即 ， 绑 定 到 端口 0 上 ) 。 在 获得 了 监听 套 接 字 的 临时 端口 所 后 
(通过 调用 getsockname()) ， 客 户 端 将 “普通 ”的 套 接 字 连接 到 服务 

器 的 监听 套 接 字 上 ， 并 发 送 一 条 包含 了 客户 端 监听 套 接 字 端 口号 的 

消息 给 服务 右 。 之 后 客户 端 等 竺 服务 器 利用 客户 端的 监听 套 接 字 在 

相反 的 方 同 上 建立 一 条 用 于 人 处理“ 优先 级 ”数据 的 连接 。 (服务 器 可 

以 在 针对 普通 连接 的 accept0 调 用 中 获取 到 客户 端的 IP 地 址 。) 

实现 一 些 安全 保护 机 制 ， 防 止 恶意 进程 尝试 连接 到 客户 端的 监听 套 

接 字 上 。 要 做 到 这 点 ， 客 户 端 可 以 通过 普通 套 接 字 发 送 一 个 

cookie 〈 即 ， 某 种 类 型 的 唯一 标识 消息 ) 给 服务 器 。 之 后 服务 器 将 

这 个 cookie 通过 优先 级 套 接 字 返回 给 客户 端 ， 以 便 客 户 端 验证 。 

为 了 试验 将 普通 的 和 优先 级 数据 从 客户 端 传送 到 服务 器 ， 你 需要 在 

服务 器 端 利 用 selectO 或 者 poll() 在 63.2 节 中 描述 ) 对 两 个 套 接 字 的 

输入 实现 多 路 复 用 。 











Qj) 译 者 注 : 原文 为 “On return, it contains the offset of the next byte 
following the last byte that was transferred from in_fd.” 
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历史 上 ， 用 户 接 入 一 个 UNIX 系 统 都 是 通过 串 行 线 (RS-232 连 接 ) 
连接 到 一 个 终端 上 的 。 终 端 由 阴极 射线 管 CCRT) 组 成 ， 能 够 显示 出 字 
符 ， 而 且 在 某 些 情况 下 可 以 显示 出 基本 图 形 。 一 般 来 说 ，CRT 能 提供 单 
色 24 行 80 列 的 显示 效果 。 按 照 当 今 的 标准 ， 这 些 CRT 体 积 很 小 且 昂 贵 。 
甚至 在 更 早 的 时 期 ， 终 端 有 时 候 还 是 硬 拷贝 电 传 设备 。 串 行 线 也 可 以 用 
比如 打印 机 和 用 来 在 计算 机 之 间 互 连 的 调制 解 调 





在 早期 的 UNIX 系 统 上 ， 连 接 到 系统 上 的 终端 由 字符 型 
设备 来 表示 ， 名 称 以 /dev/ttyn 的 形式 给 出 。 (在 Linux 
上 ，/dev/ttyn 设 备 是 系统 上 的 虚拟 控制 台 。) 我 们 常会 看 到 
tty (Ui Ateletype) 作为 终端 的 缩写 形式 。 


尤其 是 在 UNIX 的 早期 时 代 ， 终 端 设 备 并 没有 统一 的 标准 。 这 意味 
着 不 同 的 字符 序列 需要 执行 类 似 移动 光标 到 一 行 的 开头 ， 或 者 移动 光标 
到 屏幕 中 央 这 样 的 操作 。 (终于 有 些 设 备 商 实现 了 这 样 的 转 义 序列 
例如 ，Digitals 的 VT-100 成 为 了 事实 上 的 标准 ， 最 终 成 为 了 ANSI 标 准 。 
但 是 ， 依 然 还 存在 着 各 种 各 样 的 终端 类 型 。) 由 于 缺乏 统一 的 标准 ， 这 
就 意味 着 很 难 编写 可 移植 的 程序 来 利用 终端 的 特性 。vi 编 辑 器 是 早期 有 
着 这 种 可 移植 性 需求 的 例子 。termcap 和 terminfo 数 据 库 〈 在 [Strang et al., 
1988] 中 有 描述 ) 中 的 制 表 操 作 应 该 如 何 针 对 多 种 类 型 的 终端 执行 各 式 
各 样 的 屏幕 控制 操作 呢 ? curses 库 〈[Strang, 1986]) 正 是 为 了 应 对 这 种 
缺失 的 标准 应 运 而 生 。 

如 今 传 统 型 终端 已 经 不 常见 了 。 现 代 UNIX 系 统 的 常用 接口 是 高 性 
能 位 映射 图 形 显示 器 上 的 XWindow 窗口 管理 器 。 (老式 的 终端 所 提供 
的 功能 大 致 上 等 同 于 一 个 单独 的 终端 窗口 一 xterm 终 端 或 其 他 类 似 的 























产品 一 一 运行 在 X Window 系 统 之 上 。 这 种 终端 的 用 户 只 有 一 个 单独 的 
面向 系统 的 “窗口 "这 一 事实 是 由 34.7 节 中 描述 的 开发 作业 控制 设施 所 
驱动 的 。〉 同样 的 ， 如 今 许多 直接 连接 到 计算 机 上 的 设备 (例如 打印 
机 ) 都 是 带 有 网 络 连接 的 智能 型 设备 。 





以 上 所 述 都 是 在 次 如 今 面 癌 终 问 设 备 的 编程 已 经 不 像 以 前 那么 频 党 
了 。 因 此 ， 本 章 把 重点 放 在 终端 编程 上 ， 尤 其 是 与 软件 终端 模拟 器 相关 
的 方面 《例如 xterm 及 类 似 的 模拟 器 ) 。 本 章 只 对 串 行 线 做 了 简单 的 介 
绍 ， 本 章 末 尾 提供 了 关于 串口 编程 的 进一步 信息 。 








62.1 整体 概览 


传统 型 终端 和 终端 模拟 器 都 需要 同 终端 驱动 程序 相关 联 ， 由 驱动 程 
序 负责 处 理 设备 上 的 输入 和 输出 。 (如 果 是 终端 模拟 器 ， 这 里 的 设备 就 
古 一 个 伪 终 端 。 我 们 在 第 64 半 介绍 了 伪 终 问 。) 终端 驱动 程序 可 以 由 本 
章 中 介绍 的 函数 来 控制 其 多 个 方面 的 操作 。 


当 执 行 输入 时 ， 驱 动 程序 可 以 工作 在 以 下 两 种 模式 下 。 


规范 模式 : 在 这 种 模式 下 ， 终 端的 输入 是 按 行 来 处 理 的 ， 而 且 可 进 
行 行 编辑 操作 。 每 一 行 都 由 换行 符 来 结束 ， 当 用 户 按 下 回 车 键 时 可 
产生 换行 符 。 在 终端 上 执行 的 read0 调 用 只 会 在 一 行 输入 完成 之 后 
才 会 返回 ， 且 最 多 只 会 返回 一 行 。《〈 如 果 read0 请 求 的 字 节 数 少 于 
当前 行 中 的 可 用 字 节 ， 那 么 剩 下 的 字 节 在 下 次 read0 调 用 时 可 

用 。) 这 是 默认 的 输入 模式 。 

非 规范 模式 : 终端 输入 不 会 被 装配 成 行 。 像 vi、more 和 less 这 样 
的 程序 会 将 终端 置 于 非 规范 模式 ， 这 样 不 需要 用 户 按 下 回 车 键 它 们 
就 能 读 取 到 单个 的 字符 了 。 


终端 驱动 程序 也 能 对 一 系列 的 特殊 字符 做 解释 ， 比 如 中 断 字 符 ( 通 
常 为 Ctrl-C〉 以 及 文件 结尾 符 ( 通 党 是 Ctrl-D〉。 当 有 信号 为 前 台 进 程 组 
产生 时 ， 双 或 者 是 程序 在 从 终端 读 取 时 出 现 某 种 类 型 的 输入 条 件 ， 此 时 
就 可 能 会 出 现 这 样 的 解释 操作 。 将 终 闹 置 于 非 规 范 模式 下 的 程序 通常 也 
会 禁止 处 理 茶 些 或 者 所 有 这 些 特殊 字符 。 


终端 驱动 程序 会 对 两 个 队列 做 操作 (参见 图 62-1〉: 一 个 用 于 从 终 
端 设备 将 输入 字符 传送 到 读 取 进程 上 ， 另 一 个 用 于 将 输出 字符 从 进程 传 
送 到 终端 上 。 如 条 开局 了 终端 回 显 功能 ， 那 么 终端 驱动 程序 会 自动 将 任 
人 
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在 终端 输入 的 字符 在 终端 显示 的 字符 





图 62-1: 终端 设备 的 输入 和 输出 队列 





SUSv3 规 定 了 MAX_INPUT 上 限 ， 在 实现 中 可 用 来 表示 
终端 输入 队列 的 最 大 长 度 。 还 有 一 个 相关 的 上 限 
MAX_CANON， 定 义 了 处 于 规范 模式 下 一 行 输入 的 最 大 字 
节 数 。 在 Linux 上 ，sysconf(_SC_MAX_INPUT) 和 和 
sysconf(_SC_MAX_CANON) 都 会 返回 255。 但 是 ， 内 核实 
际 上 并 不 会 采用 这 些 限制 ， 而 只 是 简单 地 在 输入 队列 上 加 
上 了 4096 字 节 的 限制 。 相 对 的 ， 输 出 队列 上 也 有 一 个 这 样 
的 限制 。 然 而 应 用 程序 不 需要 关心 这 些 限制 ， 这 是 因为 如 
果 一 个 进程 产生 输出 的 速度 比 终 端 驱 动 程序 处 理 的 速度 还 
要 快 的 话 ， 内 核 会 暂停 执行 写 进 程 ， 直 到 输出 队列 的 空间 
再 次 可 用 为 止 。 





在 Linux 上， 我 们 通过 调用 ioctl(fd, FIONREAD, &cnt) 





来 获取 终端 输入 队列 中 的 未 该 取 字 节 数 ， 文 件 描述 符 fa 指 
向 的 就 是 终端 。 这 个 特性 在 SUSv3 中 并 没有 规定 。 


62.2 ”获取 和 修改 终端 属性 
函数 tcgetattr0 和 tcsetattrO 可 以 用 来 获取 和 修改 终端 的 属性 。 





#include <termios.h> 


int tegetattr(int fd, struct termios *lermitos_p); 
int tesetattr(int fd, int optional_actions, const struct termios *termios_p) ; 


Both return 0 on success, or -1 on error 











参数 fd 是 指向 终端 的 文件 描述 符 。 (如 果 fd 不 指向 终端 ， 调 用 这 些 
函数 就 会 失败 ， 伴 随 的 错误 码 为 ENOTITY。 ) 


参数 termios_p 是 一 个 指向 结构 体 termios 的 指针 ， 用 来 记录 终端 的 各 
项 属性 。 


struct termios { 


tcflag t c_iflag; /* Input flags */ 

tcflag_t c_oflag; /* Output flags */ 

tcflag t c cflag; /* Control flags */ 

tcflag t c_lflag; /* Local modes */ 

Gah c_line; /* Line discipline (nonstandard)*/ 

cc t c_cc[NCCS]; /* Terminal special characters */ 
speed t c_ispeed; /* Input speed (nonstandard; unused) */ 
speed t c_ospeed; /* Output speed (nonstandard; unused) */ 


t 





结构 体 termios 中 的 前 4 个 字段 都 是 位 掩 码 《数据 类 型 tcflag_t 是 合适 
大 小 的 整数 类 型 )， 包 含有 可 控制 终 亲 驱 动 程序 各 方面 操作 的 标志 。 


c_iflag 包 含 控 制 终端 输入 的 标志 。 
c_oflag 包 含 控制 终端 输出 的 标志 。 
c_cflag 包 含 与 终端 线 速 的 硬件 控制 相关 的 标志 。 
c_lflag 包 含 控 制 终端 输入 的 用 户 界 面 的 标志 。 


所 有 在 上 述 字段 中 用 到 的 标志 都 列 在 表 62-2 中 。 


c_line 字 段 指定 了 终端 的 行规 程 〈line discipline) 。 为 了 达到 对 终端 
模拟 器 编程 的 目的 ， 行 规程 将 一 直 设 为 N_TTY， 也 就 是 所 谓 的 新 规程 。 


ee a 贡 的 代码 中 的 一 个 组 件 ， 实 现 了 规范 模式 下 的 IO 处 
。 行 规程 的 设 定 同 串口 编程 有 关 。 


数组 c_cc 包 含 着 终端 的 特殊 字符 〈 中 断 、 挂 起 等 ) ， 以 及 用 来 控制 
非 规范 模式 下 输入 操作 的 相关 字段 。 数据 类 型 cc_. t 是 无 符号 整 型 ， 适 合 
于 保存 这 些 值 。 ee ee n 
pex wok pee IITA 


c_ispeed#ll c_ospeed 字段 在 Linux ERARE), CGFA HRA 
SUSv3 中 规定 ) 。 我 们 将 在 62.7 贡 中 讲解 Linux 是 如 何 保存 终端 线 速 的 。 


随 着 时 间 的 推移 ， 第 7 版 及 早期 的 BSD 终 端 驱 动 程序 
称 作 tty 驱 动 ) 己 经 得 到 了 发 展 ， 它 只 用 了 不 到 4 个 不 同 
a 吉 构 来 代表 同 termios 结 构 体 相 同 的 信息 。System V 
用 一 个 单独 的 结构 体 termio 取 代 了 这 种 巴洛克 式 的 组 织 方 
式 。 最 初 的 POSIX 委 员 会 选 定 了 System V 的 API 作 为 标准 ， 
在 这 个 过 程 中 将 其 改名 为 termios。 











当 通 过 tcsetattr0 来 修改 终端 属性 时 ， 参 数 optional_actions 用 来 确定 
何 时 这 些 修改 将 生效 。 该 参数 可 以 被 指定 为 下 列 值 中 的 一 种 。 


TCSANOW 
修改 立刻 得 到 生效 。 
TCSADRAIN 


当 所 有 当前 处 于 排队 中 的 输出 已 经 传送 到 终端 之 后 ， 修 改 得 到 生 
效 。 通 常 ， 访 标志 应 该 在 修改 影响 终端 的 输出 时 才 会 指定 ， 这 样 我 们 融 
不 会 影响 到 已 经 处 于 排队 中 、 但 还 没有 显示 出 来 的 输出 数据 。 


TCSAFLUSH 








该 标志 的 产生 的 效果 同 TCSADRAIN， 但 是 除 此 之 外 ， 当 标志 生效 
时 那些 仍然 等 等 处 理 的 输入 数据 部 会 补 于 弃 。 这 个 特性 很 有 用 ， 比 如 ， 
ig 此 时 我 们 希望 关闭 终端 回 显 功能 ， 并 防止 用 户 提前 
AA 


通常 (也 是 推荐 做 法 ) 修改 终端 属性 的 方法 是 调用 tcgetattr0) 来 获取 
一 个 包含 有 当前 设 定 的 termios 结 构 体 ， 然 后 调用 tcsetattr0 将 更 新 后 的 结 
构 体 传 回 给 驱动 程序 。 〈 这 种 方法 可 确保 我 们 传递 给 tcsetattr0 的 是 一 个 
ot i ) 例如 ， 我 们 可 以 采用 下 列 代 码 将 终端 的 回 显 
功能 关闭 。 


struct termios tp; 














if (tcgetattr(STDIN FILENO, &tp) == -1) 
errExit ("tcgetattr"); 

tp.c_ lflag &= ~ECHO; 

if (tcsetattr(STDIN FILENO, TCSAFLUSH, &tp) == -1) 
errExit("tcsetattr"); 


如 果 任 何 一 个 对 终端 属性 的 修改 请 求 可 以 执行 的 话 ， 函 数 tcsetattr0 
将 返回 成 功 ; 它 只 会 在 没有 任何 修改 请 求 能 执行 时 才 会 返回 失败 。 这 意 
味 着 当 我 们 修改 多 个 属性 时 ， 有 时 可 能 有 必要 再 调用 一 次 tcgetattr0 来 获 
取 新 的 终 问 属性 ， 并 同 之 前 的 修改 请 求 做 对 比 。 








在 34.7.2 节 中 ， 我 们 注 明了 如 果 tcsetattr() 由 后 台 进 程 组 
中 的 一 个 进程 调用 的 话 ， 那 么 终端 驱动 程序 会 通过 发 送 
SIGTTOU 信 号 来 暂停 这 个 进程 组 。 因 此 ， 如 果 从 孤儿 进程 
组 中 调用 的 话 ，tcsetattr0 会 失败 ， 伴 随 的 错误 码 为 EIO。 同 
样 的 道理 也 适用 于 本 章 中 描述 的 多 个 其 他 的 函数 ， 包 括 
tcflush()、tcflow()、tcsendbreak() 以 及 tcdrain()。 


在 早期 的 UNIX 实 现 中 ， 终 端 属性 是 通过 ioctl0 来 访问 
的 。 和 本 章 描 述 的 其 他 几 个 函数 一 样 ， 函 数 tcgetattr() 和 
tcsetattr() 都 是 在 POSIX 中 创建 的 ， 被 设计 用 来 解决 由 于 在 
ioctl0 中 第 三 个 参数 没 法 做 类 型 检查 的 问题 。 在 Linux 上 ， 


62.3 stty 命 令 


stty 命 令 是 以 命令 行 的 形式 来 模拟 函数 tcgetattr0 和 tcsetattr0 的 功 
能 ， 人 允许 我 们 在 shell 上 检视 和 修改 终端 属性 。 当 我 们 监视 、 调 试 或 者 取 
消 程 序 修改 的 终端 属性 时 ， 这 个 工具 非常 有 用 。 


我 们 可 以 采用 如 下 的 命令 检视 所 有 终端 的 当前 属性 (这 里 是 在 一 个 
虚拟 控制 台 上 执行 的 〉。 


$ stty -a 

speed 38400 baud; rows 25; columns 80; line = 0; 

intr = SC; quit = *\; erase = *?; kill = *U; eof = ^D; eol = <undef>; 

eol2 = <undef>; start = ^Q; stop = ^S; susp = ^Z; rprnt = ^R; 

werase = ^W; lnext = ^V; flush = ^O; min = 1; time = 0; 

-parenb -parodd cs8 hupcl -cstopb cread -clocal -crtscts 

-ignbrk brkint -ignpar -parmrk -inpck -istrip -inlcr -igncr icrnl ixon -ixoff 
-iuclc -ixany imaxbel -iutf8 

opost -olcuc -ocrnl onlcr -onocr -onlret -ofill -ofdel nlo cro tabo bso vto ffo 
isig icanon iexten echo echoe echok -echonl -noflsh -xcase -tostop -echoprt 
echoctl echoke 


上 述 输出 的 第 一 行 显示 出 了 终端 的 线 速 《比特 每 秒 ) 、 终 端的 窗口 
大 小 以 及 以 数值 形式 给 出 的 行规 程 (0 代表 N_TTY， 即 新 行规 程 〉。 

接 下 来 的 3 行 显示 出 了 有 关 各 种 终端 特殊 字符 的 设 定 。^C 表 示 Ctrl- 
C， 以 此 类 推 。 字 人 符 串 <undef> 表 示 相 应 的 终端 特殊 字符 目前 没有 定义 。 
min 和 time 的 值 与 非 规范 模式 下 的 输入 有 关 ， 它 们 将 在 62.6.2 节 中 描述 。 


剩 下 的 几 行 显 示 出 了 termios 结 构 体 中 c_cflag、c_iflag、c_oflag 以 及 
C lflag 字 段 中 各 个 标志 的 设 定 〈 按 顺序 显示 ) 。 这 里 的 标志 名 前 带 有 一 
下 连 字符 (-) 的 表示 目前 被 禁用 ， 人 否则 表示 当前 已 设 定 。 


如 末 输 入 命令 时 不 加 任何 命令 行 参数 ， 那 么 stty 只 会 显示 出 线 速 、 
行规 程 以 及 任何 其 他 偏离 了 正常 值 的 设 定 。 


我 们 可 以 采用 如 下 的 命令 修改 有 关 终 端 特殊 字符 的 设 定 。 
$ stty intr ^L Make the interrupt character Control. 


当 指 定 了 一 个 控制 字符 作为 最 后 的 命令 行 参数 时 ， 我 们 能 够 以 多 种 




















。 以 2 个 字符 为 序列 ，^ 跟 铸 一 个 相关 的 字符 〈 如 上 所 示 ) 。 


e 以 8 进 制 或 16 进 制 数 来 表示 (014 或 0xC)。 
。 直接 输入 实际 的 字符 本 身 。 


如 果 我 们 采用 最 后 那 种 选择 ， 且 待 处 理 的 字符 在 shell 或 终端 驱动 程 
序 中 有 着 特 别 的 含义 ， 那 么 我 们 必须 在 其 之 前 加 上 文本 形式 的 
next (literal next) 字符 (通常 是 Ctrl-V) 。 





$ stty intr Control-V Control-L 


(尽管 基于 可 读 性 的 考虑 ， 上 述 例子 在 Control-V 和 Control-L 之 间 显 
示 了 一 个 空格 。 实 际 上 在 Control-V 和 所 期 望 的 字符 之 间 是 不 需要 键入 空 
格 符 的 。) 


尽管 不 第 见 ， 但 还 是 有 可 能 将 终 剖 特殊 字符 定义 为 非 控 制 字符 。 
$ stty intr q Make the interrupt character q 
SRT, ARATZA ABI AIA DATE ATANES CBI, PAE 
字符 d) 。 

要 修改 终端 标志 ， 例 如 TOSTOP 标 志 ， 我 们 可 以 使 用 下 列 命令 。 


$ stty tostop Enable the TOSTOP flag 
$ stty -tostop Disable the TOSTOP flag 


AN ee SFT EMA i EIET, FY BESS EY ioe, TEAS 
终端 处 于 可 以 显示 但 不 可 用 的 状态 。 在 终端 模拟 器 中 ， 我 们 可 以 奢侈 地 
关闭 终端 窗口 然后 重新 开局 另 一 个 。 另 一 种 方法 是 ， 我 们 可 以 输入 下 列 
字符 序列 ， 将 终端 标志 和 特殊 字符 还 原 到 一 个 合理 的 状态 。 


Control-j stty sane Control-] 


Control-J 字 符 才 是 真正 的 换行 符 《〈 十 进 制 ASCII 码 为 10) 。 我 们 使 
用 这 个 字符 是 因为 在 某 些 模式 下 ， 终 端 驱动 程序 可 能 不 再 将 Enter 键 〈 十 
进 制 ASCII 码 为 13) 映射 为 一 个 换行 符 了 。 我 们 首先 输入 一 个 Control-J 
是 为 了 确保 得 到 一 个 新 行 ， 前 面 没有 任何 字符 。 假 如 终端 回 显 功能 已 经 
关闭 的 话 ， 就 没 那么 容易 看 出 是 否 得 到 一 个 新 行 了 。 





























Sty 命令 工作 于 终端 的 标准 输入 之 上 。 通 过 -F〈 关 于 权限 检查 〉 选 
项 ， 我 们 可 以 监视 并 设 定 运行 着 stty 命 令 的 终端 属性 。 


$ su Need privilege to access another user's terminal 
Password: 
# stty -a -F /dev/tty3 Fetch attributes for terminal /dev/tty3 


Output omitted for brevity 


-F 选项 是 stty 命令 在 Linux 上 的 扩展 。 在 许多 其 他 的 UNIX 实现 
中 ，stty 总 是 工作 在 终端 的 标准 输入 上 ， 而 且 我 们 必须 使 用 下 面 这 种 形 
式 的 命令 (在 Linux 上 同样 适用 ) o 


# stty -a < /dev/tty3 





62.4 终端 特殊 字符 


表 62-1 列 出 了 Linux 终 端 驳 动 程序 所 能 只 别 的 特殊 字符 。 前 两 列 显 

示 了 字符 的 名 称 以 及 对 应 在 c_ cc 数组 中 用 作 下 标的 党 量 值 。 (可 以 看 

到 | 这 些 常 量 只 是 简单 地 在 字符 名 前 加 上 了 V 作 为 前 级 。) CR 和 NL 字 
符 没 有 对 应 的 c_cc 下 标 ， 因 为 这 些 字 符 的 值 不 能 改变 。 


表 62-1: 终端 特殊 字符 


相关 的 位 掩 码 标志 














EOL2 VEOL2 
ERASE VERASE 擦 除 字 


INTR VINTR CSIGINTÌ 
KILL VKILL 擦 除 一 行 ICANON 











LNEXT |VLNEXT | 字面 化 下 个 字 |AV |ICANON, IEXTEN 


ICANON, INLCR, 
(无 ) ECHONL、 OPOST、 
ONLCR、 ONLRET 














退出 
VAMIL (SIGQUIT) 


| 加 
=f 

REPRINT | VREPRINT oul 打印 输入 Jeon IEXTEN. ECHO E 

START |VSTART “| 开始 输出 ja fron IXOFF z 

i al 

加 


A 
N 
A 
A 


STOP VSTOP 停止 输出 s | IXON, IXOFF 


A 
暂停 
AIT A 
SUSP VSUSP CCT foe 
WERASE |VWERASE | 擦 除 一 个 字 |AW |ICANON, IEXTEN 


表格 中 默认 设 定 这 一 列 显示 了 特殊 字符 通常 的 默认 值 。 除 了 能 够 将 
终端 特殊 字符 设 定 为 指定 值 之 外 ， 还 可 以 通过 将 该 值 设 定 为 
fpathconf(fd,_PC_VDISABLE) 的 返回 值 来 关闭 该 字符 ， 这 里 的 fd 表示 指 
向 终端 的 文件 描述 符 。“【 在 大 多 数 UNIX 实 现 中 ， 该 调用 返回 0。) 


每 个 特殊 字符 的 操作 受 termios 结构 体位 掩 码 字 段 中 的 各 种 标志 设 
定 的 影响 (参见 62.5 节 ) ， 请 参见 表格 中 倒数 第 2 列 。 

表格 的 最 后 一 列表 示 这 些 特殊 字符 中 有 哪些 是 在 SUSv3 中 规定 
的 。 无 论 SUSv3 是 怎么 规定 的 ， 大 部 分 这 些 字 符 在 所 有 的 UNIX 实 现 中 
都 得 到 了 文 持 。 


接 下 来 的 段落 为 这 些 终端 特殊 字符 提供 了 更 加 详细 的 解释 和 说 明 。 














注意 到 如 果 终 站 驱动 程序 对 这 些 输入 字符 执行 了 特殊 的 解释 ， 那 么 除了 
CR、EOL、EOL2 以 及 NL 之 外 ， 其 他 字符 都 会 锐 于 莽 〈 即 ， 不 会 将 字符 
传 给 任何 正在 读 取 输入 的 进程 ) 。 


CR 


CR 是 回 车 符 。 这 个 字符 会 传递 给 正在 读 取 输入 的 进程 。 在 默认 设 
定 了 ICRNL 标志 “在 输入 中 将 CR 映射 为 NL) 的 规范 模式 下 《〈 设 定 
ICANON 标 志 ) ， 这 个 字符 首先 被 转换 为 一 个 换行 符 (ASCII 码 十 进 制 
为 10，AJ) ， 然 后 再 传递 给 读 取 输 入 的 进程 。 如 果 设 定 了 IGNCR (A 
ICR) 标志 ， 那 么 就 在 输入 上 忽略 这 个 字符 〈 此 时 必须 用 真正 的 换行 
符 来 作为 一 行 的 结束 ) 。 输 出 一 个 CR 字符 将 导致 终端 将 光标 移动 到 一 
行 的 开始 处 。 


DISCARD 








DISCARD 是 丢弃 输出 字符 。 尽 管 这 个 字符 定义 在 了 数组 c_cc 中 ， 
但 实际 上 在 Linux 上 没有 任何 效果 。 在 一 些 其 他 的 UNIX 实现 中 ， 一旦 
输入 这 个 字符 将 导致 程序 输出 被 丢弃 。 这 个 字符 就 像 一 个 开关 一 一 再 输 
入 一 次 将 重新 打开 输出 显示 。 当 程序 产生 大 量 输出 而 我 们 希望 略 过 其 中 
一 些 输出 时 这 个 功能 就 非常 有 用 。 (在 传统 的 终端 上 这 个 功能 更 加 有 
用 ， 因 为 此 时 线 速 会 更 加 缓慢 ， 而 且 也 不 存在 什么 其 他 的 “终端 窗 
O”. ) 这 个 字符 不 会 发 送 给 读 取 进程 。 


EOF 


EOF 是 传统 模式 下 的 文件 结尾 字符 〈 通 各 是 Ctrl-D) 。 在 一 行 的 开 
始 处 输入 这 个 字符 会 导致 在 终端 上 该 取得 入 的 进程 检测 到 文件 结尾 的 情 
况 〈 即 ，read0 返 回 0) 。 如 果 不 在 一 行 的 开始 处 ， 而 在 其 他 地 方 输入 这 
个 字符 ， 那 么 该 字符 会 立刻 导致 read0 完 成 调用 ， 返 回 这 一 行 中 目前 为 
- Aa a 
和 进程 。 


EOEL 以 及 EOL2 
EOL 和 EOL2 是 附加 的 行 分 隔 字 符 ， 对 于 规范 模式 下 的 输入 ， 其 表 


现 就 如 同 换行 (NL) 符 一 样 ， 用 来 终止 一 行 输入 并 使 该 行 对 读 取 进 程 
可 见 。 默 认 情况 下 ， 这 些 字符 是 未 定义 的 。 如 果 定义 了 它们 ， 它 们 是 会 

















被 发 送 给 读 取 进 程 的 。EOL2 字 符 只 有 当 设 置 了 IEXTEN (扩展 输入 处 
H) 标志 时 《默认 会 设置 ) 才能 工作 。 

用 到 这 些 字符 的 机 会 很 少 。 一 种 应 用 是 在 telnet 中 。 通 过 将 EOL 或 
EOL2 设 定 为 telnet 的 换 码 从 (通常 是 Ctrl-]， 或 者 如 有 果 工 作 在 rlogin 模 式 
下 时 为 ~) ，telnet 能 立刻 捕获 到 字符 ， 就 算是 正在 规范 模式 下 读 取 输入 
时 也 是 如 此 。 


ERASE 


在 规范 模式 下 ， 输 入 ERASE 字 符 会 控 除 当前 行 中 前 一 个 输入 的 学 
从 。 被 探 除 的 字符 以 及 ERASE 字 符 本 里 部 不 会 传递 给 读 取 输入 的 进程 。 


INTR 


INTRÈRE. WRA T ISIG (开启 信号 ) 标志 (默认 会 设 
置 ) ， 输 入 这 个 字符 会 产生 一 个 中 断 信 号 〈SIGINT) ， 并 发 送 给 终端 
的 前 台 进 程 组 〈 见 34.2 节 ) 。INTR 字 符 本 身 是 不 会 发 送 给 读 取 输入 的 进 
程 的 。 


KILL 

KILL 是 擦 除 行 (也 称 为 kill line) 字符 。 在 规范 模式 下 ， 输 入 这 个 
字符 使 得 当前 这 行 输入 被 丢弃 〈 即 ， 到 目前 为 止 输入 的 字符 连同 KILL 
字符 本 身 ， 都 不 会 传递 给 读 取 输入 的 进程 了 ) 。 


LNEXT 





LNEXT 是 下 一 个 字符 的 字面 化 表示 literal next) 。 在 某 些 情况 
下 ， 我 们 可 能 希望 将 终端 特殊 字符 的 其 中 一 个 看 作 是 一 个 普通 字符 ， 将 
其 作为 输入 传递 给 读 取 进程 。 输 入 LNEXT 字 符 后 (通常 是 Ctrl-V) 使 
得 下 一 个 字符 将 以 字面 形式 来 处 理 ， 避 人 免 终 端 驱 动 程序 执行 任何 针对 特 
殊 字 符 的 解释 处 理 。 因 而 ， 我 们 可 以 输入 Ctrl-V Ctrl-C 这 样 的 2 字符 序 
列 ， 提 供 一 个 真正 的 Ctrl-C 字 符 (ASCII 码 为 3〉 作为 输入 传递 给 读 取 进 
程 。LNEXT 字 符 本 身 并 不 会 传递 给 读 取 进程 。 这 个 字符 只 有 在 设 定 了 
IEXTEN 标 志 ( 默 认 会 设置 ) 的 规范 模式 下 才 会 被 解释 。 


NL 











NL 是 换行 符 。 在 规范 模式 下 ， 该 字符 终结 一 行 输入 。NL 字 符 本 身 
是 会 包含 在 行 中 返回 给 读 取 进程 的 。 (规范 模式 下 ，CR 字 符 通 常会 转 
换 为 NL。) 输出 一 个 NL 字符 导致 终端 将 光标 移动 到 下 一 行 。 如 果 设 置 
了 OPOST 和 ONLCR (将 NL 映射 为 CR-NL) 标志 “默认 会 设置 ) ， 那 么 
在 输出 中 ， 一 个 换行 符 就 会 映射 为 一 个 2 字符 序列 一 一 CR 加 上 NL。 
(同时 设 定 ICRNL 和 ONLCR 标 志 意 味 着 一 个 输入 的 CR 字符 会 转换 为 
NL， 然 后 回 显 为 CR 加 上 NL。) 





QUIT 


如 果 设 置 了 ISIG 标 志 ( 默 认 会 设置 ) ， 输 入 QUIT 字 符 会 产生 一 个 
退出 信号 (SIGQUIT)〉， 并 发 送 到 终端 的 前 台 进 程 组 中 〈 见 34.2 节 》。 
QUIT 字 符 本 身 并 不 会 传递 给 读 取 进程 。 


REPRINT 


REPRINT 字 符 代 表 重 新 打印 输入 。 在 规范 模式 下 ， 如 果 设 置 了 
IEXTEN 标 志 “【〈 默 认 会 设置 ) ， 输 入 该 字符 会 使 得 当前 的 输入 行 〈 还 没 
有 输入 完全 ) 重新 显示 在 终端 上 。 如 果 某 个 其 他 的 程序 〈 例 如 wall(1) 或 
者 write(1)) 输出 已 经 使 终端 的 显示 变 得 混乱 不 堪 ， 那 么 此 时 这 个 功能 
就 特别 有 用 了 。REPRINT 字 符 本 身 是 不 会 传递 给 读 取 进程 的 。 


START 和 STOP 


START 和 STOP 分 别 代表 开始 输出 和 停止 输出 字符 。 妆 设 定 了 了 
IXON (启动 开始 /停止 输出 控制 标志 时 (默认 会 设 定 ) ， 这 两 个 字符 
才能 工作 。 (START 和 STOP 字符 在 一 些 终 并 模拟 器 中 不 会 生效 。) 


输入 STOP 字符 会 暂停 终端 输出 。STOP 字符 本 身 不 会 传递 给 读 取 
进程 。 如 果 设 定 了 IXOFF 标志 ， 且 终端 的 输入 队列 已 满 ， 那 么 终端 驱动 
程序 会 自动 发 送 一 个 STOP 字符 来 对 输入 进行 节 流 控制 。 


输入 START 字 符 会 使 得 之 前 由 STOP 暂 停 的 终端 输出 得 到 恢复 。 
START 字 符 本 身 不 会 传递 给 读 取 进程 。 如果 设 定 了 IXOFF (启动 开始 / 
停止 输入 控制 ) 标志 (默认 是 不 会 设 定 的 ) ， 且 终端 驱动 程序 之 前 由 于 
输入 队列 已 满 已 经 发 送 过 了 一 个 STOP 字符 ， 那 么 一 旦 当 输 入 队列 中 又 
有 了 空间 ， 此 时 终端 驱动 程序 会 自动 发 送 一 个 START 字 符 以 恢复 输出 。 























如 果 设 定 了 IXANY 标 志 ， 那 么 任何 字符 ， 不 仅仅 只 是 START， 都 
可 以 按 顺序 输入 以 重启 输出 (同样 ， 这 个 字符 也 不 会 传递 给 读 取 进 
oe 


START 和 STOP 字符 可 用 于 在 计算 机 和 终端 设备 间 实 现 双 同 的 软 
件 流 控 。 这 些 字 符 的 一 种 功能 是 允许 用 户 停止 和 启动 终端 的 输出 。 可 以 
通过 设 定 IXON 标 志 来 使 能 输出 流 控 制 。 但 是 ， 另 一 个 方向 上 的 流 控 
《 即 ， 从 设备 到 计算 机 的 输入 流 控制 ， 通 过 设 定 IXOFF 标 志 开 局 ) 也 同 
样 重要 ， 比 如 当 终 端 设备 是 一 台 调 制 解 调 器 或 另 一 台 计 算 机 时 。 如 果 应 
用 程序 处 理 输入 的 速度 较 慢 ， 而 内 核 的 缓冲 区 很 快 就 被 填 满 时 ， 输 入 流 
控制 可 确保 不 会 丢失 数据 。 

随 着 目前 越 来 越 普 遍 的 高 线 速 ， 软 件 流 控 已 经 被 硬件 流 控 
CRTS/CTS) 所 取代 了 。 在 人 硬件 流 控 中 ， 通 过 串口 上 两 条 不 同 线 缆 上 发 
人 
j 关 。) 

SUSP 

SUSP 代 表 暂 停 字 符 。 如 果 设 定 了 ISIG 标 志 〔( 默 认 会 设 定 ) ， 输 入 
这 个 字符 会 产生 终端 暂停 信号 (SIGTSTP) ， 并 发 送 给 终端 的 前 台 进 程 
组 〈 见 34.2 节 ) 。SUSP 字 符 本 里 不 会 及 送 给 读 取 进程 。 


WERASE 











WERASE 是 探 除 单词 字符 。 在 规范 模式 下 ， 设 定 了 IEXTEN 标志 
(默认 会 设 定 ) 后 输入 这 个 字符 会 擦 除 前 一 个 单词 的 所 有 字符 。 一 个 单 
词 被 看 做 是 一 串 字 符 序 列 ， 可 包含 数字 和 下 划 线 。 在 某 些 UNIX 实 现 
中 ， 单 词 被 看 做 是 由 空格 分 隔 的 字符 序列 。) 


其 他 的 终端 特殊 字符 
其 他 的 UNIX 实 现 还 提供 了 除 表 62-1 中 之 外 的 特殊 终端 字符 。 
BSD 中 还 提供 了 DSUSP 和 STATUS 字 符 。DSUSP 字 符 (通常 为 Ctrl- 
Y) 工作 的 方式 类 似 于 SUSP 字符 ， 但 只 有 当 党 试 读 取 该 字符 时 才 会 暂 


停 前 台 进 程 组 〈 即 ， 在 之 前 所 有 的 输入 都 被 读 取 之 后 ) 。 在 几 个 非 源 自 
BSD 的 UNIX 实现 中 同样 也 提供 了 DSUSP 字符 。 











STATUS 字符 〈 通 常 为 Ctrl-T) 使 内 核 将 状态 信息 显示 在 终端 上 
《包括 前 台 进 程 的 状态 以 及 它 所 消耗 的 CPU 时 间 ) ， 并 发 送 一 个 
SIGINFO 信 号 到 前 全 进程 组 。 如 采 需 要 的 话 ， 进 程 可 以 捕获 这 个 信号 并 
显示 进一步 的 状态 信息 。 (Linux 通 过 神奇 的 SysRq 键 提供 了 类 似 的 功 
能 。 细 节 请 参见 内 核 源 文件 中 的 Documentation/sysrq.txt。) 


System V 的 衍生 系统 提供 了 SWITCH 字符 。 这 个 字符 用 来 在 shell 层 
下 切换 不 同 的 shell。shell] 层 是 System V 作 业 控 制 的 前 身 。 


示例 程序 
程序 清单 62-1 展 示 了 用 tcgetattr0 和 tcsetattr0) 来 修改 终端 的 中 断 字 


符 。 该 程序 将 中 断 字 符 设 定 为 程序 命令 行 参数 中 指定 字符 的 数值 形式 ， 
如 打 没 有 提供 命令 行 参 数 就 关闭 中 断 字符 。 




















单 62-1: 修改 终端 的 中 断 字符 





程序 清 





#include <termios.h> 
#include <ctype.h> 
#include "tlpi_hdr.h" 


int 


main(int argc, char *argv[]) 


struct termios tp; 
int intrChar; 


if (argc > 1 && strcmp(argv[1], "--help") == 0) 
usageErr("%s [intr-char]\n", argv[0]); 


/* Determine new INTR setting from command line */ 


if (argc == 1) { /* Disable */ 
intrChar = fpathconf(STDIN FILENO, PC _VDISABLE); 
if (intrChar == -1) 
errExit("Couldn't determine VDISABLE"); 
} else if (isdigit((unsigned char) argv[1][0]}) { 
intrChar = strtoul(argv[1], NULL, 0); /* Allows hex, 


tty/new_intr.c 


octal */ 


} else { /* Literal character */ 


intrChar = argv[1][0]; 


} 


/* Fetch current terminal settings, modify INTR character, and 
push changes back to the terminal driver */ 


if (tcgetattr(STDIN FILENO, &tp) == -1) 
errExit("tcgetattr"); 

tp.c_cc[VINTR] = intrChar; 

if (tcsetattr(STDIN FILENO, TCSAFLUSH, &tp) == -1) 
errExit("tcsetattr"); 


exit (EXIT_SUCCESS) ; 


tty/new_intr.c 


下 面 列 出 的 shell 会 saa ee 的 使 用 万 法 。 我 们 将 中 断 字符 设 
为 Ctrl-L (ASCII 码 为 12) ， 然 后 通过 stty 命 令 对 修改 做 验证 。 


$ ./new_inty 12 

$ stty 

speed 38400 baud; line = 0; 
intr = AL; 


之 后 我 们 启动 一 个 进程 ， 运 行 sleep(1)。 我 们 发 现 输 入 Ctrl-C 已 经 
不 会 产生 终止 进程 的 效果 了 ， 而 输入 Ctrl-L 才 会 终止 进程 。 


$ sleep 10 
aC Control-C has no effect; it is just echoed 
Type Control-L to terminate sleep 


现在 我 们 显示 出 shel 变 量 $? 的 值 ， 该 值 会 给 出 上 一 条 命令 的 终止 状 


我 们 看 到 进程 终止 的 状态 为 130。 这 表示 该 进程 由 信号 130 - 128 = 2 
来 杀 死 ， 而 信号 2 正 是 SIGINT。 


接 下 来 我 们 通过 该 程序 来 关闭 中 断 字 符 。 


$ ./new_intr 

$ stty Verify the change 
speed 38400 baud; line = 0; 

intr = <undef>; 


现在 我 们 发 现 无 论 是 Ctrl-C 还 是 Ctrl-L 都 不 会 产生 SIGINT 信 号 了 ， 
我 们 必须 使 用 Ctrl 人 来 终止 这 个 进程 。 


$ sleep 10 

REAL Control-C and Control-L are simply echoed 
Type Control-\ to generate SIGQUIT 

Quit 

$ stty sane Return terminal to a sane state 








62.5 ”终端 标志 


表 62-2 中 列 出 了 termios 结 构 体 中 4 个 标志 字段 所 控制 的 设置 。 表 格 
中 列举 出 的 常量 都 对 应 于 单个 比特 位 ， 除 了 那些 可 指定 掩 码 (mask) 的 
值 。 这 些 值 会 跨越 多 个 比特 位 ， 可 能 会 包含 在 某 个 范围 的 值 之 中 ， 掩 码 
在 括号 中 给 出 。 表 格 中 标记 为 SUSv3 的 列表 示 该 标志 是 否 在 SUSv3 中 规 
定 ， 而 标记 为 默认 的 这 一 列 给 出 了 登录 虚拟 控制 台 时 的 默认 设置 。 


表 62-2: 终端 标志 



































月 输入 奇偶 校 验 检 查 





























ISTRIP 从 输入 字符 中 去 掉 最 高 位 (bit 8) 关闭 le 


输入 为 UTF-8 编 码 〈 从 Linux 2.6.4 开 始 ) 


在 输入 中 将 大 写字 符 映 射 为 小 写字 符 《〈 如 果 IEXTEN 也 | 关闭 
同时 设置 的 话 ) 




















启 已 停止 的 输出 











动 开 始 /停止 输入 流 控 


IXON 启动 开始 /停止 输出 流 控 
PARMRK | 标记 奇偶 校 验 错 误 〈 带 有 两 个 前 缀 字 节 : 0377 + 0) 关闭 
ewe fo 








4 下 Xi 


psov as (BSO, BS1) BSO 
Ca aa (CRO. CR1, CR2, CR3) 
PRUL FT RENN HET (FFO, FF1) 

换行 延 时 掩 码 CNLO. NL1) 

在 输出 中 将 CR 映射 为 NL (参阅 ONOCR) 

用 DEL (0177) 作为 填充 符 ;， 否则 用 NUL (0) 
采用 填充 符 作 为 延迟 〈 而 不 是 定时 延迟 ) 






































ok 
下 





OLCUC | 在 输出 中 将 小 写字 符 映 射 为 大 写字 符 关闭 


在 输出 中 将 NL 映射 为 CR-NL 





ONLRET | 假定 NL 执行 CR 的 功能 (移动 到 一 行 的 开始 处 ) 
ONOCR 如 果 已 经 在 一 行 的 开始 处 就 不 输出 CR 


OPOST 执行 输出 后 续 处 理 


水 平 制 表 符 延 时 掩 码 (TAB0、TAB1、TAB2、 
TAB3) 

















VTDLY HE Eri Ze FEIN FRAY CVTO. VT1) 

















> 
@ 
加 
加 
p< 
SS 








i i (比特 率 ) ， 如 果 同 输出 波 特 率 不 同 《〈 未 
) 


忽略 调制 解 调 器 的 状态 行 〈 不 检查 载波 信和 号) 





CMSPAR | 使 用 奇偶 校 验 〈 标 记 / 空 格 ) 


CREAD 允许 输入 被 接收 


CRTSCTS | 启动 RTS/CTS (硬件 ) 流 控 




















ONLCR 
TABDLY 
ems 
CBAUD 
| 


* | aj] # | Bo 
可 | 4A | S | S&S | ~~ 


字符 大 小 掩 码 〈 第 5 到 第 8 位 : CS5、CS6、CS7、 
CS8) 






































2 个 停止 位 ; 否则 只 使 用 









































j 侦 数 奇 人 




















RAE RE CPO, ALD 





回 显 ERASE 字 符 





回 显 KILL 字 符 








显 的 KILL 字 符 后 不 输出 新 的 行 








显 NL《〈 在 规范 模式 下 ) ， 即 使 禁止 了 











输出 被 刷新 (未 使 用 ) 








网 范 模式 (一行 接 一 行 ) 输 入 




















IEXTEN ”| 启动 对 输入 字符 的 扩展 处 理 打开 le 





ISIG 启动 信号 产生 字符 (INTR、QUIT、SUSP) 
NOFLSH | 禁止 在 INTR、QUIT 和 SUSP 上 进行 刷新 Kh 


PENDIN | 在 下 一 次 读 操作 此 



































XCASE 规范 大 /小 写 表示 (未 实现 ) 


许多 shell 都 提供 了 命令 行 编辑 功能 ，shell 本 身 可 以 控制 表 62-2 中 列 
出 的 标志 。 这 表示 如 果 我 们 试 着 用 stty(1) 来 检验 这 些 设置 的 话 ， 那 么 当 
输入 shell 命 令 时 这 些 修改 可 能 不 会 生效 。 若 要 绕 过 这 种 行为 ， 我 们 必须 
在 shell 中 禁止 命令 行 编 辑 。 比 如 ， 在 启动 bash 时 可 以 通过 指定 命令 行 选 
项 --noediting 来 禁止 命令 行 编辑 功能 。 


表 62-2 中 列 出 的 一 些 标志 在 老式 的 终端 上 只 提供 有 限 的 能 力 ， 且 
这 些 标志 在 现代 的 系统 上 使 用 的 很 少 。 比 如 ，IUCLC、OLCUC 和 
XCASE 标 志 只 能 用 在 仅 可 以 显示 大 写字 符 的 终端 上 。 在 许多 老式 的 
UNIX 系 统 上 ， 如 果 用 户 尝 试 以 用 户 名 的 大 写 形式 来 登录 ，login 程 序 会 
假设 用 户 使 用 的 正 是 这 样 的 终端 ， 并 且 会 设置 这 些 标 志 。 之 后 给 出 的 输 
入 密码 提示 将 变 成 : 

\PASSWORD: 

从 这 一 刻 开 始 ， 所 有 的 小 写字 符 都 会 以 大 写 形式 输出 ， 而 真正 的 大 
写字 符 会 在 前 面 加 上 反 斜 本 \。 同 样 的 ， 对 于 输入 ， 真 正 的 大 写字 符 可 
以 通过 加 上 一 个 反 斜 杠 前 级 来 指定 。ECHOPRT 标 志 同 样 也 是 设计 用 于 
功能 有 限 的 终端 。 


各 式 各 样 的 延 时 掩 码 也 同样 有 着 历史 济源， 能够 允许 终端 和 打印 机 








用 更 长 的 时 间 来 回 显 字符 ， 比 如 回 车 和 换 页 符 。 相 关 的 标志 OFILL 和 
OFDEL 指定 了 这 样 的 延 时 是 如 何 执 行 的 。 大 多 数 这 些 标 志 在 Linux 上 
都 未 使 用 。 有 一 个 例外 是 用 来 设 定 TABDLY 标志 的 TAB3 掩 码 ， 使 得 制 
表 符 能 够 以 空格 输出 〈 最 多 8 个 空格 ) 。 

下 面 的 段落 将 对 termios 的 一 些 标志 做 详细 说 明 。 


BRKINT 


如 果 设 定 了 BRKINT， 且 没有 设 定 IGNBRK 标 志 ， 那 么 当 出 现 
BREAK 状 态 时 会 发 送 SIGINT 信 号 到 前 台 进 程 组 。 


大 多 数 常规 的 哑 终 端 都 提供 了 一 个 BREAK 键 。 按 下 这 
个 键 并 不 会 产生 一 个 字符 ， 而 是 产生 一 个 BREAK 状 态 ， 此 
时 在 一 段 给 定 的 时 间 内 会 有 一 系列 0 比特 发 送 给 终端 驱动 程 
序 ， 一般 来 说 会 持续 0.25 或 0.5 秒 〈 即 ， 多 于 传送 一 个 字 节 
所 需要 的 时 间 ) 。 “除非 已 经 设 定 了 IGNBRK 标 志 ， 终 端 
驱动 程序 会 发 送 一 个 单独 的 全 0 字 节 到 读 取 进程 上 。) 在 许 
多 UNIX 系 统 中 ，BREAK 状 态 就 表现 为 一 个 发 送 给 远 端 主 
机 的 信号 ， 用 来 将 线 速 〈 波 特 率 ) 调整 为 适合 于 终端 的 数 
值 。 因 此 ， 用 户 会 按 住 BREAK 键 直到 屏幕 上 出 现 有 效 的 登 
录 提 示 信 息 ， 表 示 此 时 的 线 速 已 经 可 以 适用 于 终端 了 。 











在 虚拟 控制 台 上 ， 我 们 可 以 通过 按 下 Ctrl-Break 来 产生 
一 个 BREAK 状 态 。 


ECHO 
设置 了 ECHO 标 志 将 开启 回 显 输入 字符 的 功能 。 当 读 取 密码 时 ， 禁 


止 回 显 是 很 有 用 的 。 在 vi 的 命令 模式 下 回 显 也 是 被 茶 止 的 ， 此 时 由 键盘 
产生 的 字符 被 解释 为 编辑 命令 而 不 是 文本 输入 。ECHO 标 记 在 规范 和 非 





规范 模式 下 都 是 有 效 的 。 
ECHOCTL 


如 果 设 置 了 ECHO 标 志 ， 那 么 开启 ECHOCTL 标 志 会 导致 除了 制 表 
符 、 换 行 符 、START 和 STOP 之 外 的 控制 字符 都 将 以 类 似 ^A (Ctrl-A) 
的 形式 回 显 出 来 。 如 果 关 闭 ECHOCTL 标 志 ， 控 制 字符 将 不 再 回 显 。 


控制 字符 是 指 那些 ASCII 码 值 小 于 32 的 字符 ， 再 加 上 字 
符 DEL (ASCII 码 十 进 制 为 127) 。 一 个 控制 字符 x， 在 回 显 
时 以 ^ 紧 跟着 表达 式 (x ^ 64) 的 结果 所 代表 的 字符 来 表 
示 。 除 了 DEL 外 ， 对 于 所 有 的 字符 ， 该 表达 式 中 异 或 操作 
XOR (A) 的 结果 了 吏 是 在 代表 该 字符 的 ASCII 码 值 上 加 上 
64. Alt, Ctrl-A (ASCII1) 将 回 显 为 ^A 〈A 的 ASCII 码 为 
65) 。 对 于 DEL 字符 ， 该 表达 式 的 结果 为 从 127 中 减 去 64， 
得 到 的 值 为 63， 也 就 是 ?的 ASCII 码 ， 因 此 DEL 被 回 显 为 


Ap。 








ECHOE 

在 规范 模式 下 ， 设 定 ECHOE 标 志 使 得 ERASE 能 以 可 视 化 的 方式 执 
行 ， 将 退 格 -空格 - 退 格 这 样 的 序列 输出 到 终端 上 。 如 果 关 闭 了 ECHOE 标 
志 ， 那 么 ERASE 字 符 本 身 就 会 回 显 出 来 〈 例 如 以 ^? 的 形式 ) ， 但 仍然 会 
完成 删除 一 个 字符 的 功能 。 


ECHOK 和 ECHOKE 





ECHOK 和 ECHOKE 标 志 控 制 着 在 规范 模式 下 使 用 KILL (PR BRIT 
字符 时 的 可 视 化 显示 。 在 默认 情况 下 (同时 设置 两 个 标志 ) ， 一 行文 本 
以 可 视 化 的 方式 擦 除 〈 参 见 ECHOE ) 。 如 果 其 中 任 一 标志 被 关闭 ， 那 
么 就 不 会 执行 可 视 化 的 探 除 《但 输入 行 仍然 会 被 丢弃 ) ， 而 KILL 字 符 
本 身 会 被 回 显 出 来 〈 例 如 以 AU 的 形式 ) 。 如 果 设 定 了 ECHOK 而 关闭 了 





ECHOKE， 那 么 也 会 输出 一 个 换行 符 。 
ICANON 


设 定 了 ICANON 标 志 将 局 动 规范 模式 输入 。 输 入 会 集中 成 行 ， 并 且 
会 打开 对 特殊 字符 EOFE、EOL、EOL2、ERASE、LNEXT、KILEL、 
REPRINT 以 及 WERASE 的 解释 处 理 〈 但 需要 注意 下 面 描述 到 的 IEXTEN 
标志 所 产生 的 效果 ) 。 


IEXIEN 


设 定 IEXTEN 标 志 将 打开 对 输入 字符 的 扩展 处 理 功能 。 必 须 设 定 这 
个 标志 ( 同 ICANON 一 样 ) ， 才 能 正确 解释 EOL2、LNEXT、 
REPRINT 以 及 WERASE 这 样 的 特殊 字符 。 要 使 IUCLC 标志 生效 ， 也 
必须 要 设 定 IEXTEN 标 志 才 行 。SUSv3 中 只 是 说 到 IEXTEN 标志 可 以 打 
《由 实现 来 定义 ) ， 有 具体 细节 在 其 他 的 UNIX 实现 中 可 能 

\ 同 。 


IMAXBEL 


Linux 上 忽略 了 IMAXBEL 标 志 的 设 定 。 在 登录 控制 台 上 ， 当 输入 队 
列 已 满 时 总 是 会 啊 起 啊 铃 声 。 


IUTF8 














设 定 IUTF8 标 志 将 打开 加 工 模式 (cooked mode) ( 见 62.6.3 节 )， 
以 此 当 执 行 行 编辑 时 能 够 正确 地 处 理 UTF-8 输 入。 


NOFLSH 


默认 情况 下 ， 当 输入 INTR、QUIT 或 SUSP 字 符 而 产生 信号 时 ， 任 何 
在 终端 输入 和 输出 队列 中 未 处 理 完 的 数据 都 会 被 刷新 《丢弃 ) 。 设 定 
NOFLSH 标 志 后 将 关闭 这 种 刷新 行为 。 


OPOST 


设 定 OPOST 标 志 后 将 打开 输出 的 后 续 处 理 功 能 。 必 须 设 定 该 标志 
能 使 termios 结 构 体 中 c_oflag 字 上 段 中 的 标志 生效 。 相反， 关闭 OPOST 标 
志 将 禁止 对 所 有 的 输出 做 后 续 处 理 。) 


PARENB、IGNPAR、INPCK、PARMRK 以 及 PARODD 


PARENB、IGNPAR、INPCK、PARMRK 以 及 PARODD 标 志 同 奇偶 
校 验 生成 和 检查 有 关 。 


PARENB 标 志 可 为 输出 字符 打开 奇偶 校 验 位 ， 并 为 输入 字符 做 奇偶 
校 验 检查 。 如 果 我 们 只 希望 生成 输出 的 奇偶 校 验 ， 那 么 我 们 可 以 通过 关 
Hl INPCK 标志 来 禁止 对 输入 做 奇偶 校 验 检 查 。 如 果 设 定 了 PARODD 标 
ae oo Ly FH A A an ESKARTAR E FSU SOR aT 

FY 


剩 下 的 标志 规定 了 当 输 入 字符 出 现 奇偶 校 验 错 误 时 应 该 如 何 处 理 。 
如 果 设 定 了 IGNPAR 标 志 ， 那 么 字符 将 被 丢弃 (不 会 传递 给 读 取 进 
程 》。 否 则 ， 如 果 设 定 了 PARMRK 标 志 ， 那 么 该 字符 会 传递 给 读 取 进 
Fi 但 会 在 前 面 加 上 ? 字 节 的 序列 0377 + 0。 (如 果 设 定 了 PARMRK 标 
志 ， 但 关闭 了 ISTRIP 标 志 ， 那 么 字符 0377 会 加 倍 成 0377 +0377. ) WR 
关闭 PARMRK 标 志 ， 但 设 定 了 INPCK 标志 ， 那 么 字符 被 丢弃 ， 且 不 会 
传递 给 读 取 进程 任何 字 节 。 如 果 IGNPAR、PARMRK 或 INPCK 都 没有 设 
定 ， 那 么 该 字符 会 传递 给 读 取 进程 。 


示例 程序 


程序 清单 62-2 展 示 了 如 何 使 用 tcgetattrO0 和 tcsetattr0) 来 关闭 ECHO 标 
记 ， 从 而 使 得 输入 字符 不 会 被 回 显 。 下 面 是 我 们 运行 该 程序 时 会 看 到 的 
结果 示例 。 
$ ./no_echo 


Enter text: We type some text, which is not echoed, 
Read: Knock, knock, Neo. bui was nevertheless read 

















程序 清单 62-2: 关闭 终端 回 显 功能 











tty/no_echo.c 


#tinclude <termios.h> 
#include "tlpi hdr.h" 


#define BUF_SIZE 100 


int 
main(int argc, char *argv[]) 


struct termios tp, save; 
char buf[BUF_SIZE]; 


/* Retrieve current terminal settings, turn echoing off */ 


if (tcgetattr(STDIN FILENO, &tp) == -1) 

errExit("tcgetattr’) ; 
save = tp; /* So we can restore settings later */ 
tp.c_lflag &= ~ECHO; /* ECHO off, other bits unchanged */ 
if (tcsetattr(STDIN FILENO, TCSAFLUSH, &tp) == -1) 

errExit("tcsetattr"); 


/* Read some input and then display it back to the user */ 
printf("Enter text: "); 
fflush(stdout) ; 
if (fgets(buf, BUF_SIZE, stdin) == NULL) 
printf("Got end-of-file/error on fgets()\n"); 
else 
printf("\nRead: %s", buf); 


/* Restore original terminal settings */ 


if (tcsetattr(STDIN FILENO, TCSANOW, &save) == -1) 
errExit("tcsetattr"); 


exit(EXIT_SUCCESS); 


tty/no_echo.c 


62.6 ”终端 的 IO 模式 


我 们 已 经 注意 到 终 并 驱 动 程序 能 够 以 规范 模式 或 非 规 范 模 式 来 处 理 
输入 ， 这 取决 于 对 ICANON 标 志 的 设 定 。 现 在 我 们 对 这 两 种 模式 做 深入 
描述 。 之 后 我 们 会 介绍 3 个 有 用 的 终端 模式 一 一 加 工 模式 、cbreak 模 式 以 
及 原始 模式 ， 这 些 模式 在 第 7 代 UNIX 系 统 中 都 存在 。 最 后 我 们 将 为 您 展 
示 如 何在 现代 的 UNIX 系 统 上 通过 将 termios 结 构 体 中 的 字段 设 定 为 合适 
的 值 来 模拟 这 几 种 模式 的 功能 。 








62.6.1 规范 模式 


我 们 可 通过 设 定 ICANON 标志 来 打开 规范 模式 输入 。 可 通过 如 下 
几 点 来 区 分 是 否 为 规范 模式 下 的 输入 。 


e 输入 被 装配 成 行 ， 通 过 如 下 几 种 行 结束 符 来 终结 : NL, EOL, 
EOL2 (如 果 设 定 了 IEXTEN 标 志 ) 、EOF 《除了 一 行 中 的 初始 位 
置 ) 或 者 CR 〈 如 果 打 开 了 ICRNL 标 志 ) 。 除 了 EOF 之 外 ， 其 他 的 
行 结束 符 都 会 传递 给 读 取 的 进程 〈 作 为 一 行 中 的 最 后 一 个 字符 ) 。 
打开 了 行 编辑 功能 ， 这 样 可 以 修改 当前 行 中 的 输入 。 因 此 ， 下 列 字 
符 是 可 用 的 : ERASE、KILL。 如 果 设 定 了 IEXTEN 标 志 的 话 ， 
WERASE 也 是 可 用 的 。 

如 果 设 定 了 IEXTEN 标 志 ， 则 REPRINT 和 LNEXT 字 符 也 都 是 可 用 
的 。 


在 规范 模式 下 ， 当 存在 有 一 行 完 整 的 输入 时 ， 终 端 上 的 read0O 调 用 
才 会 返回 。 【如果 请 求 的 字 节 数 比 一 行 中 所 包含 的 字 节 小 ， 那 么 read0) 
只 会 获取 到 该 行 的 一 部 分 。 剩 余 的 字 节 只 有 在 后 序 的 read0 调 用 中 取 
得 。) 如 果 read0 调 用 被 信号 处 理 例 程 中 断 ， 且 该 信号 没有 系统 调用 重 
局 ， 此 时 read0 也 会 终止 执行 〈 见 21.5 节 ) 。 




















在 62.5 节 中 我 们 描述 了 NOFLSH 标 志 ， 我 们 注意 到 产生 
言 号 的 字符 同样 会 导致 终端 驱动 程序 刷新 终端 的 输入 队 
列 。 无 不 管 信号 是 否 被 捕获 或 者 是 被 应 用 程序 忽略 ， 刷 新 








都 会 发 生 。 我 们 可 以 通过 打开 NOFLSH 标 志 来 防止 出 现 这 
种 刷新 的 行为 。 


62.6.2” 非 规范 模式 


一 些 应 用 程序 例如 vi 和 less〉 在 用 户 没有 提供 行 终止 符 时 也 需要 
从 终端 中 读 取 字 符 。 非 规范 模式 正 是 用 于 这 个 目的 。 在 非 规 范 模式 下 
(关闭 ICANON 标 志 ) 不 会 处 理 特殊 的 输入 。 特 别 的 一 点 是 : 输入 不 再 
装配 成 行 ， 相 反 会 立刻 对 应 用 程序 可 见 。 


在 什么 情况 下 一 个 非 规范 模式 下 的 read0 调 用 会 完成 ?我 们 可 以 指 
定 非 规范 模式 下 的 readO 调 用 在 经 历 了 一 段 特定 的 时 间 后 ， 或 者 在 读 取 
了 特定 数量 的 字 节 后 ， 又 或 者 是 两 者 兼 有 的 情况 下 终止 执行 。termios 结 
构 体 中 的 c_cc 数 组 里 有 两 个 元 素 可 用 来 决定 这 种 行为 : TIME 和 MIN。 
元 素 TIME 〈 通 过 常量 VTIME 来 索引 ) 以 十 分 之 一 秒 为 单位 来 指定 超时 
时 间 。 元 素 MIN 〈 通 过 VMIN 来 索引 ) 指定 了 被 读 取 字 节 数 的 最 小 值 。 
CMIN 和 TIME 的 设置 对 规范 模式 下 的 终端 IO 不 产生 任何 影响 。) 


参数 MIN 和 TIME 的 精确 操作 和 交互 取决 于 它们 各 上 自 是 否 包 含有 非 
零 值 。 下 面 介 绍 了 4 种 情况 。 注 意 ， 在 所 有 4 种 情况 中 ， 如 果 在 read0 调 
用 过 程 中 已 经 读 取 了 足够 的 字 节 数 来 满足 MIN 的 要 求 ， 那 么 read0 会 芯 
刻 返 回 可 用 的 字 节 数 和 所 请 求 的 字 节 数 中 较 小 的 那个 值 。 


MIN == 0, TIME ==0 ( 轮 询 读 取 ) 


如 果 在 调用 过 程 中 有 数据 可 用 ， 那 么 read0 将 立刻 返回 可 用 的 字 节 
数 中 较 小 的 那个 值 。 如 果 没 有 数据 可 用 ，read() 将 立 
刻 返 回 0。 


这 种 情况 可 服务 于 一 般 的 轮 询 请 求 ， 允 许 应 用 程序 以 非 阻塞 的 方式 
检查 输入 是 否 存 在 。 这 种 模式 有 些 类 似 于 为 终端 设 定 O_NONBLOCK 
标志 ( 见 5.9 节 ) 。 但 是 ， 在 设 定 O_NONBLOCK 标 志 后 ， 如 果 没 有 数据 
可 读 ， 那 么 read0 会 返回 -1， 伴 随 的 错误 码 为 EAGAIN。 


MIN > 0，TIME == 0 (HARER) 























这 种 情况 下 read0 会 阻 琶 (有 可 能 永远 阻 窄 下去) ， 直 到 请 求 的 字 
市 数 得 到 满足 或 者 读 取 到 了 MIN 个 字 节 ， 此 时 就 返回 这 两 者 中 较 小 的 那 


一 个 。 


像 less 这 样 的 程序 一 般 会 将 MIN 设 为 1， 而 把 TIME 设 为 0。 这 使 得 程 
序 不 用 在 轮 询 中 忙 等 从 而 浪费 CPU 时 间 ， 只 要 用 户 按 下 单个 按键 read() 
就 能 返回 了 。 


如 果 将 一 个 终端 置 于 非 规范 模式 ， 且 将 MIN 设 为 1，TIME 设 为 0， 
那么 可 以 采用 63 音 中 描述 的 技术 来 检查 用 户 是 否 已 经 在 终端 上 输入 了 一 
个 字符 〈 而 不 是 一 整 行 ) 。 


MIN == 0, TIME > 0( 带 有 超时 机 制 的 读 操作 ) 


这 种 情况 下 当 调 用 read0 时 会 启动 一 个 定时 器 。 当 至 少 有 1 字 节 可 
用 ， 或 者 当 经 历 了 TIME 个 十 分 之 一 秒 后 ，read0 会 立刻 返回 。 在 后 一 种 
情况 下 read0 将 返回 0。 


这 种 情况 对 同 串 行 设备 (比如 调制 解 调 器 〉 打 交道 的 程序 来 说 很 有 
用 。 程 序 可 以 及 送 数据 给 设备 然后 等 待 啊 应 。 假 如 设备 没有 啊 应 ， 采 用 
超时 机 制 就 能 避免 程序 永远 挂 起 。 


MIN > 0，TIME > 0 〈 既 有 超时 机 制 又 有 最 小 读 取 字 节 数 的 要 求 ) 


当 输 入 的 首 个 字 节 可 用 后 ， 之 后 每 接收 到 一 个 字 节 就 重启 定时 器 。 
如 果 满 足 读 取 到 了 MIN 个 字 节 ， 或 者 请 求 的 字 节 数 已 经 读 取 完 毕 ， 此 时 
read0 会 返回 两 者 间 较 小 的 那个 值 。 或 者 当 接 收 连续 字 节 之 间 的 时 阶 超 
过 了 TIME 个 十 分 之 一 秒 ， 此 时 read0 会 返回 0。 由 于 定时 器 只 会 在 初始 
字 节 可 用 后 才 启 动 ， 因 此 至 少 可 以 返回 1 字 节 。 (这 种 情况 下 read0 可 能 
会 永远 阻塞 下 去 。) 


这 种 情况 对 于 处 理 生 成 转 义 序列 的 终端 按键 十 分 有 有 用。 比如， 在 许 
多 终 问 上 ， 左 篆 头 键 产 生 的 3 字符 序列 由 退 格 再 加 上 OD 组 成 。 这 些 字 
符 被 连续 快速 地 传输 。 应 用 程序 在 处 理 这 样 的 字符 序列 时 需要 区 分 到 底 
古 用 户 按 下 了 一 个 这 样 的 按键 还 是 自己 慢 慢 地 单独 输入 了 这 3 个 字符 
We? 这 可 以 通过 执行 一 次 带 有 短 超 时 的 read0 调 用 来 解决 ， 比 方 说 将 超 
时 时 间 定 为 0.2 秒 。 有 一 些 版 本 的 vi 采用 这 种 技术 用 在 了 它 的 命令 模式 
E.o 根据 超时 时 间 的 长 短 ， 在 这 种 应 用 中 ， 我 们 可 能 需要 通过 快速 输 























入 前 面 提 到 的 那个 3 字符 序列 来 模拟 出 按 下 左 箭头 的 情况 
以 可 移植 的 方式 修改 并 恢复 MIN 和 TIME 


历史 上 ， 某 些 UNIX 的 实现 是 互相 兼容 的 。SUSv3 中 允许 VMIN 和 
VTIME 的 值 可 以 分 别 等 同 于 VEOF 和 VEOL， 这 就 意味 着 termios 结 构 
体 中 c_cc 数 组 里 的 这 些 元 素 可 能 会 产生 冲突 。 (在 Linux 上 ， 这 些 常量 
的 值 是 各 不 相同 的 。) 这 种 冲突 是 可 能 产生 的 ， 因 为 VEOF 和 VEOL 在 
非 规范 模式 下 是 不 使 用 的 。VMIN 和 VEOF 可 能 有 着 相同 的 值 ， 这 一 事 
实意 味 着 进入 非 规范 模式 后 程序 需要 特别 谨慎 ， 设 置 了 MIN 的 值 〈 通 常 
Al) 之 后 再 返回 到 规范 模式 下 。 此 时 ，EOF 就 不 再 是 其 之 前 的 值 4 了 
(Ctrl-D) 。 有 一 种 可 移植 的 方法 能 够 解决 这 个 问题 ， 可 以 在 切换 到 非 
规范 模式 之 前 先 保存 一 份 termios 设置 的 副本 ， 然 后 使 用 这 个 保存 的 副 
本 返回 到 规范 模式 下 。 


62.6.3 ”加 工 模式 、cbreak 模 式 以 及 原始 模式 


第 7 万 UNIX 操 作 系统 《以 及 于 期 的 BSD 系 统 ) 中 的 终 3 前 驱动 程序 能 
够 以 3 种 方式 处 理 输入 ， 分 别 是 : 加 工 模 式 Ccooked mode) ，cbreak 模 
式 和 原始 模式 。 这 3 种 模式 之 间 的 区 别 总 结 如 表 62-3 所 示 ， 


表 62-3: 加 工 模 式 、cbreak 模 式 和 原始 模式 之 间 的 区 别 
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是 否 解释 START/STOP 字 符 ? 
是 否 解释 其 他 的 特殊 字符 ? 
行 其 他 的 输入 处 理 ? 


















































加 工 模式 本 质 上 就 是 带 有 处 理 默认 特殊 字符 功 和 的 规范 模式 《可 以 
对 CR、NL 和 EOF 进 行 解释 ， 打 开行 编辑 功能 ;处 理 可 产生 信和 号 的 字 


符 ， 设 定 ICRNL、OCRNL 标 志 等 ) 。 


原始 模式 则 恰好 相反 ， 它 属于 非 规 范 模式 ， 所 有 的 输入 和 输出 都 不 
能 做 任何 处 理 ， 而 且 不 能 回 显 。 如果 应 用 程序 需要 确保 终端 驱动 程序 
绝对 不 会 对 传输 的 数据 做 任何 修改 ， 那 就 应 该 使 用 这 种 模式 。) 


cbreak 模 式 处 于 加 工 模 式 和 原始 模式 之 间 。 输 入 是 按照 非 规范 的 方 
式 来 处 理 的 ， 但 产生 信号 的 字符 会 被 解释 ， 且 仍然 会 出 现 各 种 输入 和 输 
出 的 转换 (取决 于 个 别 标志 的 设 定 ) 。cbreak 模 式 并 不 会 禁止 回 显 ， 但 
采用 这 种 模式 的 应 用 程序 通常 都 会 禁止 回 显 功能 。cbreak 模 式 在 与 屏幕 
处 理 相 关 的 应 用 程序 中 很 有 用 《比如 less) ， 这 类 程序 允许 逐个 字符 的 
输入 ， 但 仍然 需要 对 INTR、QUIT 以 及 SUSP 这 样 的 字符 做 解释 。 


示例 程序 


在 第 7 版 UNIX 以 及 原始 的 BSD 系统 的 终端 驱动 程序 中 ， 可 以 通 
过 调整 终端 驱动 程序 数据 结构 中 的 单个 比特 位 〈 称 作 RAW 和 
CBREAK) 在 原始 和 cbreak 模 式 间 切换 。 由 于 过 渡 到 了 POSIX termios 接 
口上 【现在 已 经 在 所 有 的 UNIX 实 现 上 得 以 支持 ) ， 现 在 已 经 无 法 再 通 
过 单个 比特 位 在 原始 和 cbreak 模式 之 间 做 选择 了 。 因 此 如 果 应 用 程序 要 
模拟 出 这 些 模 式 ， 必 须 显 式 地 修改 termios 结 构 体 中 的 相关 字段 。 程 序 清 
单 62-3 给 出 了 两 个 函数 ttySetCbreakO 以 及 ttySetRaw0O， 它 们 实现 了 对 应 
的 终端 模式 。 























用 到 了 ncurses 库 的 应 用 程序 可 以 调用 函数 cbreak() LA 
及 raw()。 它 们 实现 的 功能 同 程序 清单 62-3 中 给 出 的 函数 类 
We 
































程序 清单 62-3: 将 终端 切换 到 cbreak 和 原始 模式 上 


























tty/tty_functions.c 


#include <termios.h> 
#include <unistd.h> 
#include "tty_functions.h" /* Declares functions defined here */ 


/* Place terminal referred to by 'fd' in cbreak mode (noncanonical mode 
with echoing turned off). This function assumes that the terminal is 
currently in cooked mode (i.e., we shouldn't call it if the terminal 
is currently in raw mode, since it does not undo all of the changes 
made by the ttySetRaw()} function below). Return 0 on success, or -1 
on error. If 'prevTermios' is non-NULL, then use the buffer to which 
it points to return the previous terminal settings. */ 


int 
ttySetCbreak(int fd, struct termios *prevTermios) 
{ 
struct termios t; 
if (tcgetattr(fd, &t) == -1) 
return -1; 


if (prevTermios != NULL) 
*prevTermios = t; 


t.c_lflag &= ~(ICANON | ECHO); 
t.c_lflag |= ISIG; 


t.c_iflag &= ~ICRNL; 


t.c_cc[VMIN] = 1; /* Character-at-a-time input */ 


t.c_cc[VTIME] = 0; /* with blocking */ 
if (tcsetattr(fd, TCSAFLUSH, &t) == -1) 

return -1; 
return 0; 


} 


/* Place terminal referred to by 'fd' in raw mode (noncanonical mode 
with all input and output processing disabled). Return 0 on success, 
or -1 on error. If 'prevTermios' is non-NULL, then use the buffer to 
which it points to return the previous terminal settings. */ 


int 
ttySetRaw(int fd, struct termios *prevTermios) 


struct termios t; 


if (tcgetattr(fd, &t) == -1) 
return -1; 


if (prevTermios != NULL) 
*prevTermios = t; 


t.c lflag & ~(ICANON | ISIG | IEXTEN | ECHO); 
/* Noncanonical mode, disable signals, extended 
input processing, and echoing */ 


t.c_iflag &= ~(BRKINT | ICRNL | IGNBRK | IGNCR | INLCR | 
INPCK | ISTRIP | IXON | PARMRK); 
/* Disable special handling of CR, NL, and BREAK. 
No 8th-bit stripping or parity error handling. 
Disable START/STOP output flow control. */ 


t.c_oflag &= ~OPOST; /* Disable all output processing */ 
t.c_cc[VMIN] = 1; /* Character-at-a-time input */ 
t.c_cc[VTIME] = 0; /* with blocking */ 
if (tcsetattr(fd, TCSAFLUSH, &t) == -1) 

return -1; 
return 0; 


tty/tty_functions.c 


将 终端 置 于 原始 或 cbreak 模 式 下 的 程序 ， 当 它 终 止 时 必须 小 心地 将 
终端 返回 到 一 个 可 用 的 模式 下 。 除 了 其 他 任务 之 外 ， 需 要 处 理 所 有 可 能 
会 发 送 给 程序 的 信号 ， 这 样 该 程序 就 不 会 过 早 终止 执行 。 (cbreak 模 式 
下 ， 作 业 控 制 信号 仍然 可 以 从 键盘 上 产生 。) 


程序 清单 62-4 给 出 了 一 个 如 何 完成 这 些 任务 的 例子 。 该 程序 执行 以 


下 的 步骤 。 


根据 是 否 提供 有 命令 行 参 数 〈 任 意 字符 串 ) ， 将 终端 设 为 cbreak 模 

式 或 原始 模式 。 以 前 的 终端 设置 都 保存 在 全 局 变量 userTermios 中 。 

如 果 终 端 处 于 cbreak 模 式 下 ， 那 么 信号 可 以 从 终端 中 产生 。 这 些 信 

号 需要 得 到 处 理 ， 这 样 当 程序 终止 或 挂 起 时 会 将 终端 置 于 用 户 所 期 

望 的 状态 中 。 程 序 为 信号 SIGQUIT 和 SIGINT 安 装 同样 的 处 理 例 

程 。 信 号 SIGTSTP 需 要 一 些 特 别处 理 ， 因 此 这 个 信和 号 需要 安装 一 个 

不 同 的 处 理 例 程 。 

为 信号 SIGTERM 安 装 处 理 例 程 ， 这 是 为 了 捕获 由 kill 命 令 默 认 发 送 

的 信号 3 

执行 一 个 循环 ， 从 标准 输入 (stdin〉 上 一 次 读 取 一 个 字符 ， 并 在 标 

准 输出 上 回 显 。 程 序 在 将 字符 输出 之 前 会 对 各 种 各 样 的 输入 字符 做 

特殊 处 理 。 

o 在 输出 之 前 将 所 有 的 字符 转换 为 小 写 形式 。 

o 换行 符 An) MIAH Or) 不 做 任何 修改 就 直接 回 显 。 

o 除了 换行 符 和 回 车 符 之 外 的 控制 字符 都 以 2 字符 序列 的 形式 回 
w: 人 ^ 加 上 对 应 的 大 写字 符 ( 例 如 ，Ctrl-A 回 显 为 ^A) 。 

o 所 有 其 他 的 字符 都 回 显 为 星 号 (*) 。 

o 字母 q 使 循环 终止。 

退出 循环 后 ， 将 终端 恢复 到 上 次 用 户 设 定 的 状态 ， 然 后 终止 程序 。 


程序 为 信号 SIGQUIT、SIGINT 以 及 SIGTERM 安装 同一 个 处 理 例 





























。 该 处 理 例 程 将 终端 状态 恢复 到 上 一 次 用 户 的 设 定 ， 然 后 终止 程序 。 


言 号 SIGTSTP 的 处 理 例 程 以 34.7.3 节 中 所 描述 的 方式 来 处 理 该 信 








。 对 于 这 个 信号 处 理 例 程 ， 需 要 注意 如 下 儿 点 细 市 。 


刚 开 始 时 ， 处 理 例 程 保存 当前 的 终端 设置 (保存 到 ourTermios 

F) 。 启 动 该 程序 时 ， 在 再 次 引发 SIGTSTP 信和 号 而 终止 进程 之 
前 ， 将 终端 重 置 为 生效 的 设 定 ( 保 存在 userTermios 中 )。 

在 接收 到 信号 SIGCONT 后 ， 程 序 恢复 执行 。 处 理 例 程 再 次 将 当前 
的 终端 设 定 保 存 到 userTermios 中 ， 由 于 当 程 序 停止 执行 时 用 户 可 能 
已 经 修改 了 设置 《比如 通过 stty 命 令 ) 。 之 后 处 理 例 程 就 可 以 将 终 
端 返回 到 程序 所 要 求 的 状态 中 (ourTermios) 。 


程序 清单 62-4: 演示 cbreak 模 式 以 及 原始 模式 



























































tty/test_tty_functions.c 


#include <termios.h> 

#include <signal.h> 

finclude <ctype.h> 

#include "tty functions.h" /* Declarations of ttySetCbreak() 
and ttySetRaw() */ 

#include "tlpi hdr.h" 


人 static struct termios userTermios; 
/* Terminal settings as defined by user */ 


static void /* General handler: restore tty settings and exit */ 
handler(int sig) 


®© if (tcsetattr(STDIN FILENO, TCSAFLUSH, &userTermios) == -1) 
errExit("tcsetattr"); 
_exit(EXIT SUCCESS); 
} 


static void /* Handler for SIGTSTP */ 
© tstpHandler(int sig) 


struct termios ourTermios; /* To save our tty settings */ 
sigset_t tstpMask, prevMask; 

struct sigaction sa; 

int savedErrno; 


savedErrno = errno; /* We might change ‘errno’ here */ 


/* Save current terminal settings, restore terminal to 
state at time of program startup */ 


® if (tcgetattr(STDIN FILENO, &ourTermios) == -1) 
errExit("tcgetattr"); 
© if (tcsetattr(STDIN FILENO, TCSAFLUSH, &userTermios) == -1) 


errExit("tcsetattr"); 


/* Set the disposition of SIGTSTP to the default, raise the signal 
once more, and then unblock it so that we actually stop */ 


if (signal(SIGTSTP, SIG DFL) == SIG ERR) 
errExit("signal"); 
taise(SIGTSTP) ; 


sigemptyset (&tstpMask) ; 

sigaddset(&tstpMask, SIGTSTP); 

if (sigprocmask(SIG_UNBLOCK, &tstpMask, &prevMask) == -1) 
errExit("sigprocmask"); 


/* Execution resumes here after SIGCONT */ 


if (sigprocmask(SIG_SETMASK, &prevMask, NULL) == -1) 
errExit("sigprocmask") ; /* Reblock SIGTSTP */ 


© 


} 


int 


sigemptyset(&sa.sa_mask) ; /* Reestablish handler */ 
sa.sa flags = SA RESTART; 

sa.sa handler = tstpHandler; 

if (sigaction(SIGTSTP, &sa, NULL) == -1) 


errExit("sigaction") ; 


/* The user may have changed the terminal settings while we were 
stopped; save the settings so we can restore them later */ 


if (tcgetattr(STDIN FILENO, &userTermios) == -1) 
errExit("tcgetattr") ; 


/* Restore our terminal settings */ 


if (tcsetattr(STDIN_FILENO, TCSAFLUSH, &ourTermios) == -1) 
errExit("tcsetattr”); 


errno = savedErrno; 


main(int argc, char *argv[]) 


char ch; 
struct sigaction sa, prev; 
ssize_t ñ; 


sigemptyset(&sa.sa_mask) ; 
sa.sa flags = SA RESTART; 


if (argc > 1) { /* Use cbreak mode */ 
if (ttySetCbreak(STDIN_FILENO, &userTermios) == -1) 
errExit("ttySetCbreak") ; 


/* Terminal special characters can generate signals in cbreak 
mode. Catch them so that we can adjust the terminal mode. 


We establish handlers only if the signals are not being ignored. 


sa.sa_handler = handler; 


if (sigaction(SIGQUIT, NULL, &prev) == -1) 
errExit("sigaction"); 
if (prev.sa_handler != SIG_IGN) 
if (sigaction(SIGQUIT, &sa, NULL) == -1) 
errExit("sigaction"); 


if (sigaction(SIGINT, NULL, &prev) == -1) 
errExit("sigaction"); 
if (prev.sa_ handler != SIG IGN) 
if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction"); 


sa.sa_ handler = tstpHandler; 


*/ 


if (sigaction(SIGTSTP, NULL, &prev) == -1) 
errExit("sigaction"); 
if (prev.sa handler != SIG IGN) 
if (sigaction(SIGTSTP, &sa, NULL) == -1) 
errExit("sigaction"); 


} else { /* Use raw mode */ 
® if (ttySetRaw(STDIN FILENO, &userTermios) == -1) 
errExit ("ttySetRaw"); 
} 
® sa.sa handler = handler; 


if (sigaction(SIGTERM, &sa, NULL) == -1) 
errExit("sigaction") ; 


setbuf(stdout, NULL); /* Disable stdout buffering */ 
for (33) 4 /* Read and echo stdin */ 
n = read(STDIN FILENO, &ch, 1); 
if (n == -1) { 
errMsg("read"); 
break; 
} 
if (n == 0) /* Can occur after terminal disconnect */ 
break; 
® if (isalpha( (unsigned char) ch)) /* Letters --> lowercase */ 


putchar(tolower( (unsigned char) ch)); 
else if (ch == '\n' || ch == '\r') 
putchar(ch); 
else if (iscntrl((unsigned char) ch)) 
printf("*%c", ch ^ 64); /* Echo Control-A as ^A, etc. */ 


else 
putchar('*'); /* All other chars as '*' */ 
if (ch == 'q') /* Quit loop */ 
break; 


} 
D if (tcsetattr(STDIN_FILENO, TCSAFLUSH, &userTermios) == -1) 


errExit("tcsetattr"); 
exit(EXIT SUCCESS); 


tty/test_tty_functions.c 


j ao 程序 清单 62-4 使 用 原始 模式 时 ， 下 面 是 我 们 会 看 到 的 输 
示例 。 


$ stty Initial terminal mode is sane (cooked) 
speed 38400 baud; line = 0; 
$ ./test_tty_functions 


abe Type abc, and Controls 
def Type DEF, Control-], and Enter 
CZ Type Control-C, Control-Z, and Control] 
q$ Type q lo exil 


在 上 述 shel 会 话 的 最 后 一 行 中 ， 我 们 看 到 shell 将 目 己 的 提示 符 同 导 
致 程 序 终止 的 字符 q 打 印 在 了 同一 行 上 。 


下 面 是 采用 cbreak 模 式 时 的 输出 示例 。 


$ ./test_tty_functions x 


XYZ Type XYZ and Control-Z 
[1]+ Stopped ./test_tty functions x 
$ stty Verify that terminal mode was restored 
speed 38400 baud; line = 0; 
$ fg Resume in foreground 
-/test_tty_functions x 
rE Type 123 and Control] 

$ Type Control-C to terminate program 
Press Enter to get next shell prompt 
$ stty Verify that terminal mode was restored 


speed 38400 baud; line = 0; 


62.7 ”终端 线 速 (比特 率 ) 


不 同 的 终端 之 间 《〈 以 及 串 行 线 ) 传输 和 接收 的 速率 〈 位 数 每 秒 ) 是 
不 同 的 。 函 数 cfgetispeed() 和 cfsetispeedO) 用 来 获取 和 修改 输入 的 线 速 。 
函数 cfgetospeedO0 和 cfsetospeedO 用 来 获取 和 修改 输出 的 线 速 。 


术语 波 特 (baud) 通常 被 当做 是 终 问 线 速 (位 数 每 
H) 的 同义词 ， 尽 管 这 种 用 法 在 技术 上 来 说 并 不 正确 。 准 
确 地 说 ， 波 特 Chaud) 是 线路 中 信号 每 秒 可 以 变化 的 频 
紊 ， 和 每 秒 可 传送 的 位 数 不 是 一 回 事 ， 因 为 后 者 取决 于 比 
特 位 要 如 何 编码 为 信号 。 不 过 ， 术 语 波 特 Caud) 依然 继 
续 被 用 作 位 率 〈 位 数 每 秒 ) 的 同义词 。 (术语 “ 波 特 
率 ”(baud rate〉 常 常用 作 波 特 baud 的 同义词 ， 但 这 么 说 是 
见 余 的 ， 因 为 波 特定 义 的 就 是 速率 。) 为 了 避免 这 些 泥 
清 ， 我 们 通常 就 用 线 速 或 位 紊 这 样 的 术语 。 











ftinclude <termios.h> 


speed t cfgetispeed(const struct termios *termzos_p); 
speed t cfgetospeed(const struct termios *lermios_p); 


Both return a line speed from given éermios structure 


int cfsetospeed(struct termios *termios_ p, speed_t speed); 
int cfsetispeed(struct termios *lermios_p, speed_t speed); 


Both return 0 on success, or -1 on error 











这 里 每 一 个 函数 用 到 的 termios 结 构 体 都 必须 先 通过 tcgetattr(0) 来 初始 
Er 


比如 ， 要 找 出 当前 终端 的 输出 线 速 ， 我 们 可 以 这 样 做 : 


struct termios tp; 
speed t+ rate; 


if (tcgetattr(fd, &tp) == -1) 
errExit("tcgetattr"); 

rate = cfgetospeed(&tp) ; 

if (rate == -1) 
errExit("cfgetospeed"); 


如 果 我 们 希望 修改 这 个 线 速 ， 可 以 继续 按照 下 面 这 样 处 理 : 


if (cfsetospeed(&tp, B38400) == -1) 
errExit("cfsetospeed"); 

if (tcsetattr(fd, TCSAFLUSH, &tp) == -1) 
errExit("tcsetattr"); 


数据 类 型 speed_t 用 来 保存 线 速 。 这 里 没有 直接 以 数值 形式 来 设置 线 
速 ， 而 是 采用 了 一 组 符号 常量 (定义 在 <termios.h> 中 ) 。 这 些 和 常量 定义 
了 一 系列 离散 的 值 。 关 于 这 些 和 常量 ， 有 一 些 例子 比如 B300、B2400、 
B9600 以 及 B38400， 分 别 各 自 对 应 于 线 速 300、2400、9600 以 及 38400 位 
数 每 秒 。 使 用 一 组 离散 的 数值 也 反应 出 一 个 事实 ， 那 就 是 终端 通常 都 被 
设计 为 工作 在 一 组 固定 的 不 同 线 速 上 (已 标 准 化 的 ) 。 这 些 线 速 都 从 某 
个 基准 线 速 派生 而 来 (例如 115200 通 常用 于 个 人 电脑 ) ， 基 准 线 速 除 以 
某 个 整数 得 到 这 些 线 速 (例如 ，115200/12=9600) 。 


SUSv3 规 定 了 终端 线 速 应 该 保存 在 termios 结 构 体 中 ， 但 并 没有 规定 
(故意 的 ) 保存 在 哪个 字段 中 。 包 括 Linux 在 内 的 许多 实现 中 ， 都 是 在 
c_cflag 字 有 段 中 通过 CBAUD 掩 码 和 CBAUDEX 标 志 来 维护 这 些 值 。 (在 
62.2 节 中 ， 我 们 提 到 过 在 Linux 中 ，termios 结 构 体 中 的 非 标 准 字 段 
c_ispeed 和 和 c_ospeed 是 不 被 使 用 的 。) 


尽管 函数 cfsetispeed0 和 cfsetospeed0 可 以 分 开 指定 输入 和 和 输 出线 
速 ， 但 是 在 许多 终端 上 这 两 个 速率 必须 是 一 样 的 。 此 外 ，Linux 只 用 一 
个 单独 的 字段 来 保存 线 速 〈 即 ， 假 定 这 两 个 速率 值 总 是 一 样 的 ) ， 这 表 
同 输入 和 输出 线 速 率 相 关 的 函数 访问 的 都 是 相同 的 termios 结 构 体 
FTR- 











在 cfsetispeed0 中 将 Speed 设置 为 0 表示 将 输入 线 速 设 定 
为 稍 后 调用 tcsetattr0 时 得 到 的 任何 输出 线 速 值 。 在 那些 将 


这 两 个 线 速 分 开 维 护 的 系统 中 ， 这 种 方法 十 分 有 用 。 


62.8 终端 的 行 控制 


函数 tcsendbreakO、tcdrain0、tcflushO 以 及 tcflowO 所 执行 的 任务 通 
党 都 归 类 在 行 控 制 Cine control) 下 。 “这些 函数 都 是 POSIX 中 创建 
的 ， 被 设计 用 来 取代 各 种 ioctl0 操 作 。) 








ftinclude <termios.h> 


int tcsendbreak(int fd, int duration); 
int tedrain(int fd); 

int tcflush(int fd, int queue_selector) ; 
int tcflow(int fd, int action); 








All return 0 on success, or -1 on error 





在 每 个 函数 中 ， 参 数 fd 表示 文件 揪 述 符 ， 它 指 癌 终 端 或 串 行 线 上 的 
其 他 远程 设备 。 


tcsendbreak() 函 数 通过 传输 连续 的 0 比特 流产 生 一 个 BREAK 状 态 。 
参数 duration 指 定 了 传输 持续 的 时 间 。 如 果 duration 为 0， 那 么 传输 0 比 
特 序列 的 时 间 将 持续 0.25 秒 。 (SUSv3 规 定 这 个 时 间 至 少 要 有 0.25 秒 ， 
但 不 超过 0.5 秒 。) 如 果 duration 的 值 大 于 0， 传 输 0 比 特 序列 的 时 间 就 会 
持续 duration 个 室 秒 。SUSv3 对 于 这 种 情况 没有 做 任何 规定 ， 对 于 非 零 值 
的 duration 应 该 如 何 处 理 ， 在 不 同 的 UNIX 实 现 中 区 别 很 大 (这 里 讨论 的 
细节 只 针对 于 glibc) 。 


函数 tcdrain0 刷 新 《丢弃 ) 终端 输入 队列 、 终 端 和 输出 队列 或 者 这 两 
者 中 的 数据 ( 见 图 62-1) 。 刷 新 输入 队列 将 丢弃 已 经 由 终端 驱动 程序 接 
收 但 还 没有 被 任何 进程 读 取 的 数据 。 比 如 ， 一 个 应 用 程序 可 以 使 用 
tcflush(0 来 丢弃 提示 输入 密码 之 前 就 已 经 输入 到 终端 的 数据 。 刷 新 输出 
队列 将 丢弃 已 经 写 入 (传递 到 终端 驱动 程序 ) 但 还 没有 传递 给 设备 的 数 
据 。 参 数 queue-selector 指 定 了 表 62-4 中 所 示 的 其 中 一 个 值 。 





注意 ， 术 语 刷新 (flush) 在 tcflushO 中 的 含义 和 我 们 在 
谈论 文件 MO 时 是 不 一 样 的 。 对 于 文件 TO， 刷新 意味 着 通过 


标准 输入 的 也 ushO 将 输出 从 用 户 空 间 内 存 上 强制 传输 到 组 
冲 区 cache 上 ， 或 者 通过 fsyncO、fdatasyncO 以 及 syncO 强 制 
将 数据 从 缓冲 区 cache 传 输 到 磁盘 上 。 








表 62-4: tcflush0 中 参数 queue_selector 的 值 





TCIFLUSH 新 输入 队列 
TCOFLUSH | 刷新 输出 队列 


TCIOFLUSH | 输入 队列 和 输出 队列 都 得 到 刷新 














函数 tcflow0 控 制 着 数据 在 计算 机 和 终端 〈 或 者 其 他 的 远程 设备 ) 
之 间 的 数据 流 方向 。 人 参数 action 为 表 62-5 中 所 示 的 值 之 一 。 TCIOFF 和 
TCION RA EŻ i 6 WS ER STOP AISTART 2 FH A 效 ， 在 这 种 情况 
下 这 些 操作 将 分 别 导 致 终端 暂停 和 恢复 发 送 数据 到 计算 机 。 


表 62-5: tcflushO 中 参数 action 的 值 














TCIOFF 传送 一 个 STOP 字 符 给 终端 
TCION 传送 一 个 START 字 符 给 终端 





62.9 ”终端 窗口 大 小 


企 一 个 窗口 环境 中 ， 一 个 处 理 屏 医 的 应 用 程序 需要 能 够 监视 终端 窗 
口 的 大 小 ， 这 样 当 用 户 修改 了 窗口 大 小 时 能 够 适当 地 重新 绘制 屏幕 。 内 
核对 此 提供 了 两 种 方式 来 文 持 。 


。 在 终端 窗口 大 小 改变 后 发 送 一 个 SIGWINCH 信 和 号 给 前 台 进 程 组 。 默 
认 情 况 下 ， 该 信号 被 忽略 。 

。 在 任意 时 刻 通常 是 在 接收 到 SIGWINCH 信 号 之 后 进程 可 以 
使 用 ioctlO 的 TIOCGWINSZ 操 作 来 获取 终端 窗口 的 当前 大 小 。 


ioctl() 的 TTIOCGWINSZ 操 作 应 该 按照 如 下 方式 来 使 用 。 


if (ioctl (fd, TIOCGWINSZ, &ws) == -1) 
errExit("ioct1"); 
BBA tH A in Bal IAS. ioctl Wis TFB BE 
指向 winsize 结 构 体 (定义 在 <sys/ioctl.h> 中 〉 的 指针 ， 用 来 返回 终端 窗 
口 的 大 小 。 


struct winsize { 




















unsigned short ws_row; /* Number of rows (characters) */ 
unsigned short ws_col; /* Number of columns (characters) */ 
unsigned short ws xpixel; /* Horizontal size (pixels) */ 
unsigned short ws_ypixel; /* Vertical size (pixels) */ 


BB 


和 许多 其 他 的 实现 一 样 ，Linux 没 有 使 用 winsize 结 构 体 中 与 像素 大 
小 相关 的 字段 。 


程序 清单 62-5 演 示 了 信号 SIGWINCH 以 及 ioctl0 的 TIOCGWINSZ 操 
作 的 用 法 。 下 面 是 运行 该 程序 时 的 输出 示例 ， 该 程序 运行 在 一 个 窗口 管 
理 嚣 下， 而 且 终 端 和 窗口 大 小 改变 了 3 次 。 


$ ./demo_SIGWINCH 

Caught SIGWINCH, new window size: 35 rows * 80 columns 
Caught SIGWINCH, new window size: 35 rows * 73 columns 
Caught SIGWINCH, new window size: 22 rows * 73 columns 
Type Control-C to terminate program 























程序 清单 62-5: 监视 终端 窗口 大 小 的 改变 














tty/demo_SIGWINCH.c 
#include <signal.h> 
#include <termios.h> 


#include <sys/ioctl.h> 
#include "tlpi_hdr.h" 


static void 
sigwinchHandler({int sig) 


{ 


Int 
main(int argc, char *argv[]) 


struct winsize ws; 
struct sigaction sa; 


sigemptyset(&sa.sa_mask); 

sa.sa flags = 0; 

sa.sa handler = sigwinchHandler; 

if (sigaction(SIGWINCH, &sa, NULL) == -1) 
errExit("sigaction") ; 


for (55) { 
pause(); /* Wait for SIGWINCH signal */ 


if (ioct1(STDIN_FILENO, TIOCGWINSZ, &ws) == -1) 
errExit("ioct1"); 
printf("Caught SIGWINCH, new window size: " 
"ed rows * %d columns\n", ws.ws row, wS.ws_col); 


tty/demo_SIGWINCH.c 


也 可 以 在 iocdO 的 TIOCSWINSZ 操 作 中 传 入 一 个 初始 化 过 的 winsize 
结构 体 来 修改 终端 驱动 程序 对 于 窗口 大 小 的 设 定 。 


WS.WS row = 40; 

ws.ws col = 100; 

if (ioctl(fd, TIOCSWINSZ, &ws) == -1) 
errExit("ioct1"); 


如 果 winsize 结 构 体 中 的 值 与 终端 驱动 程序 当前 对 于 终端 窗口 大 小 的 
设 定 不 一 致 ， 那 么 会 发 生 两 件 事情 : 


E E 
JITE; 








。 发 送 一 个 SIGWINCH 信 号 到 终端 的 前 台 进 程 组 中 。 


然而 需要 注意 的 是 ， 这 些 事 件 本 身 并 不 足以 改变 实际 的 窗口 显示 尺 
这 是 由 内 核 之 外 的 软件 所 控制 的 (比如 窗口 管理 器 或 终端 模拟 器 程 
Ti 


尽管 并 没有 在 SUSv3 中 得 到 规范 化 ， 大 多 数 UNIX 实 现 都 提供 了 本 
节 介 绍 的 ioctO 操 作 来 访问 终端 的 窗口 大 小 。 








62.10 ”终端 标识 


在 34.4 节 中 ， 我 们 介绍 J ctermid() cA 3, 该 函数 返回 进程 控制 终端 
的 名 称 〈 在 UNIX 系 统 上 通 通常 为 /dev/tty) 。 本 节 摘 述 的 函数 对 于 标识 终 
端 也 同样 有 用 。 


函数 isatty() 使 我 们 能 够 判断 文件 描述 符 fd 是 否 同 一 个 终端 相关 联 
( 相 比 于 其 他 的 文件 类 型 )。 





#include <unistd.h> 


int isatty(int fd); 


Returns truc (1) if fd is associated with a terminal, otherwise false (0) 











图 数 isattyO 对 于 编辑 右 和 其 但 需要 判断 标准 笨 入 和 输出 古谷 要 定 问 
到 终端 上 的 屏幕 处 理 程序 来 说 十 分 有 用 。 


给 定 一 个 文件 描述 符 ， 函 数 ttyname0 返 回 与 之 相关 的 终端 设备 名 
称 。 





ftinclude <unistd.h> 


char *ttyname(int fd); 


Returns pointer to (statically allocated) string containing 
terminal name, or NULL on error 











要 得 到 终端 的 名 称 ， ttynameO 通 过 调用 : 18.8 节 中 摘 述 的 函数 
opendirO 和 readdir0 来 通 历 包 含 终 端 设 备 名 称 的 目录 ， 碍 找 每 个 H: 录 ， 
直到 找到 的 设备 ID 号 (stat 结 构 体 中 的 st_rdev 字 段 〉 同 文件 摘 述 符 fd 所 
关联 的 设备 相 匹 配 。 终 端 设备 通常 都 保存 在 两 个 目录 下 : /dev 
和 /dev/pts。/dev 目 录 中 包含 了 有 关 虚 拟 控 制 台 的 条 目 〈 比 
如 ， /dev/tty1) Al BSD 伪 终 端 。/dev/pts 目 录 则 包含 了 (System VA) 
伪 终 端 从 设备 。《〈 我 们 在 第 64 章 中 讨论 伪 终 端 。) 











ttyname(O 还 有 一 个 形式 为 ttyname_r0 的 可 重 入 版 本 。 


tty(1) 命 令 可 以 显示 出 与 它 的 标准 输入 相关 联 的 终端 名 
称 ， 它 是 函数 ttyname0 的 命令 行 模拟 。 


62.11 总 结 


在 早期 的 UNIX 系 统 上 ， 终 端 是 通过 串 行 线 连接 到 计算 机 上 的 真正 
的 硬件 设备 。 早 期 的 终端 并 没有 得 到 标准 化 ， 这 意味 着 对 于 不 同 的 人 硬件 
厂商 ， 对 终端 进行 编程 时 的 转 义 序列 是 不 同 的 。 在 现代 工作 站 上 ， 这 样 
AA sig AE BIST eX Window 系 统 的 位 图 监视 器 所 取代 了 。 但 是 ， 当 
处 理 虚 拟 设 备 比如 虚拟 控制 全 和 终端 模拟 右 〈 使 用 了 伪 终 端 ) ， 以 及 通 
过 串 行 线 连 接 的 真实 设备 时 ， 仍 然 需 要 能 够 对 终端 进行 编程 。 


有 关 终 端的 设置 《除了 终端 窗口 大 小 外 ) 都 维护 在 termios 结 构 体 
中 ， 它 包含 了 4 个 位 掩 码 字 段 用 来 控制 有 关 终 问 的 各 种 设置 ， 以 及 一 个 
定义 了 各 种 特殊 字符 的 数组 ， 这 些 特殊 字符 由 终端 驱动 程序 负责 解释 。 
函数 tcgetattrO0 和 tcsetattrO 人 允许 程序 获取 并 修改 终端 的 设置 。 


当 执 行 输 入 时 ， 终 端 驱动 程序 可 以 操作 于 两 种 不 同 的 模式 下 。 在 规 
范 模 式 下 ， 输 入 会 装配 成 行 ( 由 其 中 一 种 行 终止 符 结束 〉， 且 打开 了 行 
编辑 功能 。 与 之 相反 ， 非 规范 模式 下 人 允许 应 用 程序 一 次 只 读 取 一 个 输入 
字符 ， 而 不 需要 等 到 用 户 输入 一 个 行 终止 符 。 非 规范 模式 下 鞭 止 了 行 编 
辑 功能 。 非 规范 模式 下 的 读 操作 什么 时 候 完成 ， 是 由 termios 结构 体 中 
的 MIN 和 TIME 字 段 来 控制 的 ， 它 们 决定 了 最 少 被 读 取 的 字符 数 以 及 施 
人 
i HI 


历史 上 第 7 版 UNIX 以 及 BSD 终 端 驱动 程序 提供 了 3 种 输入 模式 
加 工 模式 、cbreak 模 式 和 原始 模式 它们 对 终端 的 输入 和 输出 处 理 提 
供 了 不 同 程 度 的 支持 。cbreak 和 原始 模式 可 以 通过 修改 termios 结 构 体 中 
的 各 个 字段 来 模拟 。 


还 有 一 系列 函数 可 以 执行 各 种 其 他 的 终端 操作 。 这 些 函 数 包括 修改 
终 病 线 速 以 及 执行 行 控制 操作 (生成 一 个 BREAK 状 态 ， 和 暂停 进程 直到 
输出 已 经 完成 传递 ， 刷 新 终端 的 输入 和 输出 队列 ， 暂 停 或 恢复 终端 和 计 
算 机 之 间 的 双 回 数据 传输 ) 。 其 他 的 函数 允许 我 们 检查 给 定 的 文件 描述 
符 是 否 指向 一 个 中 断 ， 并 获取 该 终端 的 名 称 。 系 统 调 用 ioctl() 可 用 来 获 
人 
‘BEE o 


























更 多 信息 


[Stevens, 1992] 中 也 对 面向 终端 的 编程 做 了 描述 ， 并 对 串口 编程 做 
了 更 加 细致 的 讲解 。 网 络 上 还 有 一 些 讨 论 面 同 终 病 编程 的 优秀 资源 。 比 
如 在 LDP 站 点 Chttp://www.tldp.org) 上 的 Serial HOWTO 以 及 Text- 
terminal HOWTO， 作 者 都 是 David S. Lawyer。 男 一 个 有 用 的 资源 是 
Michael R. Sweet 所 著 的 《POSIX 操作 系统 下 的 串口 编程 指南 》 
(“Serial Programming Guide for POSIX Operation Systems”) ， 可 以 
在 http://www.easysw.com/~mike/serial/ 上 找到 在 线 资源 。 


62.12 练习 


62-1. 实现 函 a (你 会 
的 描述 很 有 帮助 。 


62-2. 实现 函数 ttyname()。 
62-3. 实现 8.5 节 中 描述 过 的 函 (函数 getpassO 可 以 通 
过 打开 /devwitty 为 控制 终 问 获取 到 一 个 文件 摘 述 符 。) 


判断 标准 输入 所 指 辐 的 终端 是 
显示 出 TIME 和 


发 现 读 一 读 62.2 节 中 关于 tcgetattr() 


62-4. 编写 一 个 程序 显示 下 列 信息 : 
处 于 规范 模式 还 是 非 规 范 模式 。 如 果 处 于 非 规范 模式 ， 


MIN 的 值 。 


第 63 间 ”其 他 备 选 的 VO 模型 


除了 已 经 在 本 书 很 多 地 方 使 用 到 的 常规 文件 WO 外 ， 本 章 我 们 将 讨 
论 其 他 3 种 可 选 的 VO 模型 。 


© IO 多 路 复 用 《〈selectO 以 及 poll0 系 统 调用 ) 。 
。 信号 驱动 IO。 
。 Linux 专 有 的 epoll 编 程 接 口 


63.1 整体 概览 


目前 为 止 ， 本 书 中 大 部 分 程序 使 用 的 IO 模型 都 是 单个 进程 每 次 只 
在 一 个 文件 描述 符 上 执行 IJO 操 作 ， 每 次 JO 系 统 调用 都 会 阻塞 直到 完成 
数据 传输 。 比 如 ， 当 从 一 个 管道 中 读 取 数据 时 ， 如 果 管 道中 恰好 没有 数 
据 ， 那 么 通 音 read0 会 阻塞 。 而 如 末 管 道中 没有 足够 的 空间 保存 待 写 入 
的 数据 时 ，write0) 也 会 阻塞 。 当 在 其 他 类 型 的 文件 如 FIFO 和 套 接 字 上 执 
行 IO 操 作 时 ， 也 会 出 现 相 似 的 行为 。 








磁盘 文件 是 个 特例 。 如 第 13 章 中 所 描述 的 ， 内 核 采 用 
缓冲 区 cache 来 加 速 磁盘 IO 请 求 。 因 而 一 旦 请 求 的 数据 传输 
到 内 核 的 缓冲 区 cache， 对 人 厂 盘 的 write0 操 作 将 立刻 返回 ， 
而 不 用 等 到 将 数据 实际 写 入 磁盘 后 才 返 回 〈 除 非 在 打开 文 
件 时 指定 了 O_SYNC 标 志 ) 。 与 之 对 应 的 是 ，read0O 调 用 将 
数据 从 内 核 缓 冲 区 cache 移动 到 用 户 的 缓冲 区 中 ， 如 果 请 
求 的 数据 不 在 内 核 缓冲 区 cache， 那 么 内 核 就 会 让 进程 休 
眼 ， 同 时 执行 对 磁盘 的 读 操作 。 





对 于 许多 应 用 来 说 ， 传 统 的 阻 赛 式 MO 模型 已 经 足够 了 ， 但 这 不 代 
表 所 有 的 应 用 都 能 得 到 满足 。 特 别 的 ， 有 些 应 用 需要 处 理 以 下 茶 项 任 
务 ， 或 者 两 者 都 需要 兼顾 。 

。 如 果 可 能 的 话 ， 以 非 阻 塞 的 方式 检查 文件 描述 符 上 是 人 否 可 进行 IO 


操作 。 
。 人 ， 看 它们 中 的 任何 一 个 是 人 否 可 以 执行 VO 








我 们 已 经 过 到 了 两 种 可 以 部 分 满足 这 些 需 求 的 技术 : 非 阻 窜 式 1/O 
和 多 进程 或 多 线程 技术 。 


我 们 在 5.9 节 和 44.9 节 中 对 非 阻 塞 式 IO 做 了 详细 的 说 明 。 如 果 在 打 
开 文 件 时 设 定 了 O_NONBLOCK 标 志 ， 会 以 非 阻塞 方式 打开 文件 。 如 果 
IO 系统 调用 不 能 立刻 完成 ， 则 会 返回 错误 而 不 是 阻塞 进程 。 非 阻塞 式 
IO 可 以 运用 到 管道 、FIFO、 套 接 字 、 终 端 、 伪 终端 以 及 其 他 一 些 类 型 
的 设备 上 。 


非 阻 塞 式 MO 可 以 让 我 们 周期 性 地 检查 〈“ 轮 询 ”) 茶 个 文件 描述 符 
上 有 是否 可 执行 IO 操作 。 比 如 ， 我 们 可 以 让 一 个 输入 文件 描述 符 成 为 非 
阻 竖 式 的 ， 然 后 周期 性 地 执行 非 阻 奢 式 的 读 操 作 。 如 采 我 们 需要 同时 检 
碍 多 个 文件 描述 符 ， 那 么 就 需要 将 它们 都 设 为 非 阻 蹇 ， 然 后 依次 对 它们 
轮 询 。 但 是 ， 这 种 轮 询 通 常 是 我 们 不 希望 看 到 的 。 如 果 轮 询 的 频率 不 
高 ， 那 么 应 用 程序 啊 应 MO 事件 的 延 时 可 能 会 达到 无 法 接受 的 程度 。 换 
句 话 说 ， 在 一 个 紧 竣 的 循环 中 做 轮 询 残 是 在 浪费 CPU。 











本 章 中 我 们 以 两 种 截然 不 同 的 方式 来 使 用 轮 询 (poll) 
这 个 词 。 其 中 一 种 代表 IO 多 路 复 用 的 系统 调用 poll0。 另 一 
种 则 表示 “以 非 阻 塞 的 方式 检查 文件 描述 符 的 状态 ”。 





如 果 不 希 望 进程 在 对 文件 描述 符 执行 VO 操作 时 被 阻塞 ， 我 们 可 以 
创建 一 个 新 的 进程 来 执行 IJO。 此 时 父 进程 就 可 以 去 处 理 其 他 的 任务 
了 ， 而 子 进程 将 阻塞 直到 LO 操作 完成 。 如 果 我 们 需要 处 理 多 个 文件 描 
述 符 上 的 WO， 此 时 可 以 为 每 个 文件 描述 符 创建 一 个 子 进 程 。 这 种 方法 
的 问题 在 于 开销 昂贵 且 复 杂 。 创 建 及 维护 进程 对 系统 来 说 都 有 开销 ， 而 
人 


使 用 多 线程 而 不 是 多 进程 ， 这 将 占用 较 少 的 资源 。 但 线程 之 间 仍 然 
需要 通信 ， 以 告知 其 他 线程 有 关 1/O 操 作 的 状态 ， 这 将 使 编程 工作 变 得 
复杂 。 尤 其 是 如 果 我 们 使 用 线程 池 技 术 来 最 小 化 需要 处 理 大 量 并 发 客户 
的 线程 数量 时 。 (多 线程 特别 有 用 的 一 个 地 方 是 如 果 应 用 程序 需要 调用 
ARRIT EEN IO 操作 的 第 三 方 库 ， 那 么 可 以 通过 在 分 离 的 线程 中 
调用 这 个 库 从 而 避免 应 用 被 阻 墅 。) 

















HS 4FBAZES VOM 2 BE CAO 程 都 有 各 目的 局 限 性 ， 下 列 备 选 方 


案 往往 更 可 取 。 


目标 的 技术 


1/O 多 路 复 用 允许 进程 同时 检查 多 个 文件 描述 符 以 找 出 它们 中 的 任 
Dg ee Oe eae rere OP ee ey 
j R 

信号 驱动 VO 是 指 当 有 输入 或 者 数据 可 以 写 到 指定 的 文件 描述 符 上 
时 ， 内 核 回 请 求 数据 的 进程 发 送 一 个 信号 。 进 程 可 以 处 理 其 他 的 任 
务 ， 当 VO 操作 可 执行 时 通过 接收 信号 来 获得 通知 。 当 同时 检查 大 
a a a 
JE o 

epoll API 是 Linux 专 有 的 特性 ， 首 次 出 现 是 在 Linux 2.6 版 中 。 同 IO 
多 路 复 用 API 一 样 ，epoll API 人 允许 进程 同时 检查 多 个 文件 描述 符 ， 

看 其 中 任意 一 个 是 否 能 执行 WO 操作 。 同 信号 驱动 /O 一 样 ， 当 同时 
检查 大 量 文件 描述 符 时 ，epoll 能 提供 更 好 的 性 能 。 





本 章 余下 的 部 分 我 们 将 主要 对 上 述 技术 进行 讨论 。 但 
是 ， 这 些 技术 也 可 以 应 用 到 多 线程 应 用 中 。 





实际 上 IO 多 路 复 用 、 信 号 驱动 TO 以 及 epoll 都 是 用 来 实现 同一 个 
同时 检查 多 个 文件 描述 符 ， 看 它们 是 否 准 备 好 了 执行 








IO 操作 《准确 地 说 ， 是 看 IO 系统 调用 是 否 可 以 非 阻 竖 地 执行 ) 。 文 件 


描述 


达 ， 


符 就 绪 状 态 的 转化 是 通过 一 些 VO 事 件 来 触发 的 ， 比 如 输入 数据 到 
套 接 字 连 接 建 立 完成 ， 或 者 是 之 前 满载 的 套 接 字 发 送 缓冲 区 在 TCP 





将 队列 中 的 数据 传送 到 对 端 之 后 有 了 剩余 空间 。 同 时 检查 多 个 文件 描述 
符 在 类 似 网 络 服务 器 的 应 用 中 很 有 用 处 ， 或 者 是 那些 必须 同时 检查 终端 
以 及 管道 或 套 接 字 和 输入 的 应 用 程序 。 








需要 注意 的 是 这 些 技术 都 不 会 执行 实际 的 IO 操作 。 它 们 只 是 告诉 


我 们 某 个 文件 描述 符 已 经 处 于 就 绪 状 态 了 。 这 时 需要 调用 其 他 的 系统 调 
用 来 完成 实际 的 MO 操作 。 


本 章 我 们 没有 介绍 的 一 种 W/O 模型 是 POSIX 异 步 

I/O (AIO) 。POSIX AIO 人 允许 进程 将 MO 操作 排列 到 一 个 文 
件 中 ， 当 操作 完成 后 得 到 通知 。POSIX AIO 的 优点 在 于 最 
初 的 MO 调用 将 立刻 返回 ， 因 此 进程 不 会 一 直 等 待 数据 传输 
到 内 核 或 者 等 待 操作 完成 。 这 使 得 进程 可 以 同 IO 操作 一 起 
并 行 处 理 其 他 的 任务 〈 可 能 会 包含 将 未 来 的 TO 操作 入 队 
列 ) 。 对 于 特定 类 型 的 应 用 ，POSIX AIO 能 提供 有 用 的 性 
能 优势 。 目 前 ，Linux 在 glibc 中 提供 有 基于 线程 的 POSIX 
AIO 实 现 。 写 作 本 书 时 ， 人 们 正在 朝 着 内 核 化 的 POSIX AIO 
实现 而 努力 ， 这 应 该 能 提供 更 好 的 伸缩 性 能 。POSIX AIO 
的 描述 可 在 [Gallmeister, 1995] 和 [Robbins & Robbins, 2003] 
中 找到 。 











选择 哪 种 技术 


FEA TEP, RKE BAe een ane 为 什么 其 他 技 
术 不 适用 ， 其 理由 是 什么 。 同 时 我 们 会 总 结 出 一 


。 系统 调用 select0 和 pollO 在 UNIX 系 统 中 已 经 存在 了 很 长 的 时 间 。 同 
其 他 技术 相 比 ， 它 们 主要 的 优势 在 于 可 移植 性 ， 主 要 缺点 在 于 当 同 
时 检查 大 量 的 〈《 数 上 百 或 数 生 个) 文件 描述 符 时 性 能 延展 性 不 佳 。 

e epoll APIECE DL CE T E ELECT RE FF i 效 地 检查 大 量 的 文件 摘 
述 符 。 其 主要 缺点 在 于 它 是 专属 于 Linux 系 统 的 API。 











一 些 其 他 的 UNIX 实 现 提 供 了 “ 非 标准 的 ) 类似 于 epoll 
的 机 制 。 比 如 ，Solaris 提 供 了 特殊 的 /dev/poll 文 件 (在 
Solaris poll(7d) 手 册页 中 描述 ) ， 而 其 他 一 些 BSD 变 种 提供 


Skqueue API《〈 相 比 epoll， 这 是 一 种 更 为 通用 的 检查 机 
ill) 。[Stevens et al,. 2004] 中 简要 介绍 了 这 两 种 机 制 。 关 于 
kqueue 的 更 多 讨论 可 以 在 [Lemon, 2001] 中 找到 。 





e 同 epoll 一 样 ， 信 和 号 驱动 IO 可 以 让 应 用 程序 高 效 地 检查 大 量 的 文件 

描述 符 。 但 是 epoll 有 一 些 信 号 驱动 O 所 没有 的 优点 。 

o 避免 了 处 理 信号 的 复杂 性 。 

人 te oar eye rt enn geeel ee 
ZA) 。 

o 我 们 可 以 选择 以 水 平 触 发 或 边缘 触发 的 形式 来 通知 进程 〈 在 
63.1.1 节 中 详 述 ) 。 

另外 ， 要 完全 利用 信号 VO 的 优点 需要 用 到 不 可 移植 的 Linux 专 有 


的 特性 ， 而 如 果 我 们 这 么 做 了 ， 那 么 信号 驱动 VO 的 可 移植 性 也 不 会 比 
epoll 更 好 。 











因为 从 另 一 方面 来 说 select0 和 poll0 的 可 移植 性 更 好 ， 
而 信号 驱动 WO 和 epoll 有 着 更 好 的 性 能 表现 。 对 于 某 些 应 用 
来 说 ， 编 写 一 个 软件 抽象 层 来 检查 文件 描述 符 事 件 是 非常 
值得 做 的 。 有 了 这 样 一 个 抽象 层 ， 可 移植 的 程序 就 能 在 提 
供 有 epoll 机 制 的 系统 上 应 用 epoll (或 类 似 的 API) ， 而 在 其 
他 系统 上 继续 使 用 select() 和 poll()。 





Libevent 库 就 是 这 样 一 个 软件 层 ， 它 提供 了 检查 文件 描述 符 IO 事 
件 的 抽象 ， 已 经 移植 到 了 多 个 UNIX 系 统 中 。Libevent 的 底层 机 制 能 够 
《以 透明 的 方式 ) 应 用 本 章 所 摘 述 的 任意 一 种 技术 : select polo, fa 
写 驱 动 /O 或 者 epoll。 同 样 ， 也 支持 Solaris 专 有 的 /dev/poll 接 口 和 BSD 系 
统 的 kqueue 接 口 。( 因 此 ，libevent 也 可 以 作为 如 何 使 用 这 些 技术 的 绝 佳 


示例 。) libevent 的 作者 是 Niels Provos， 该 项 目 可 
在 http://monkey.org/~provos/libevent/ 上 找到 。 


63.1.1 水 平 触发 和 边缘 触发 


在 深入 讨论 多 种 可 选 的 O 机 制 之 前 ， 我 们 需要 先 区 分 两 种 文件 摘 
符 准 备 就 绪 的 通知 模式 。 


。 水 平 触发 通知 : 如 果 文 件 描述 符 上 可 以 非 阻 竖 地 执行 VO 系统 调 
用 ， 此 时 认为 它 已 经 就 绪 。 

。 边缘 触及 通知 : 如 果 文 件 描述 符 目 上 次 状态 检查 以 来 有 了 新 的 IO 
活动 《比如 新 的 输入 ) ， 此 时 需要 触发 通知 。 


表 63-1 总 结 了 VO 多 路 复 用 、 信 号 驱动 O 以 及 epol 所 采用 的 通知 模 
型 。epoll API 同 其 他 两 种 IO 模型 的 区 别 在 于 它 对 水 平 触 发 〈 默 认 ) 和 边 
缘 触 发 都 文 持 。 








表 63-1: 使 用 水 平 触 发 和 边缘 触发 通知 模型 











有 关 这 两 种 通知 模型 区 别 的 细节 将 在 本 章 的 学 习 中 逐渐 清晰 。 现 在 
我 们 讨论 一 下 通知 模型 的 选择 是 如 何 影 啊 我 们 设计 程序 的 方式 的 。 


当 采 用 水 平 触及 通知 时 ， 我 们 可 以 在 任意 时 刻 检查 文件 插 述 符 的 就 
绪 状 态 。 这 表示 当 我 们 确定 了 文件 搬 述 符 处 于 就 绕 态 时 (比如 存在 有 和 输 
入 数据 ) ， 就 可 以 对 其 执行 一 些 VO 操 作 ， 然 后 重复 检查 文件 描述 符 ， 
看 看 是 否 仍 然 处 于 就 绕 态 (比如 还 有 更 多 的 输入 数据 〉， 此 时 我 们 就 能 
执行 更 多 的 WO， 以 此 类 准 。 换 句 话 说 ， 由 于 水 平 触发 模式 允许 我 们 在 








任意 时 刻 重复 检查 IO 状态 ， 没 有 必要 每 次 当 文 件 描述 符 融 绪 后 需要 尽 


可 能 








多 地 执行 VO 〈 也 就 是 尽 可 能 多 地 读 取 字 节 ， 亦 或 是 根本 不 去 执行 


任何 IO) 。 


与 之 相反 的 是 ， 当 我 们 采用 边缘 触 用 时， 只 有 当 IO 事 件 发 生 时 我 


们 才 会 收 到 通知 。 在 另 一 个 IO 事件 到 来 前 我 们 不 会 收 到 任何 新 的 通 


Fl 


另外 ， 当 文件 描述 符 收 到 IO 事件 通知 时 ， 通 常 我 们 并 不 知道 要 处 


理 多 少 WO【 例 如 有 和 多少 字 节 可 读 ) 。 因 此 ， 采 用 边缘 触发 通知 的 程序 


通常 


要 按照 如 下 规则 来 设计 。 


在 接收 到 一 个 WO 事件 通知 后 ， 程 序 在 某 个 时 刻 应 该 在 相应 的 文件 
描述 符 上 尽 可 能 多 地 执行 JO〈 比 如 尽 可 能 多 地 读 取 字 节 ) 。 如 果 
程序 没 这 么 做 ， 那 么 就 可 能 失去 执行 IO 的 机 会 。 因 为 直到 产生 另 
一 个 VO 事件 为 止 ， 在 此 之 前 程序 都 不 会 再 接收 到 通知 了 ， 因 此 也 
就 不 知道 此 时 应 该 执行 WO 操作 。 这 将 导致 数据 丢失 或 者 程序 中 出 
现 阻 塞 。 前 面 我 们 说 “在 某 个 时 刻 ”， 是 因为 有 时 候 当 我 们 确定 了 文 
件 描 述 符 是 就 绪 态 时 ， 此 时 可 能 并 不 适合 马上 执行 所 有 的 IO 操 
作 。 问 题 的 原因 在 于 如 果 我 们 仅 对 一 个 文件 描述 符 执行 大 量 的 IO 
操作 ， 可 能 会 让 其 他 文件 描述 符 处 于 饥饿 状态 。 在 63.4.6 节 中 ， 我 
们 对 epoll API 的 边缘 触发 通知 做 介绍 时 再 深入 讨论 这 个 问题 。 

如 果 程 序 采用 循环 来 对 文件 描述 符 执 行 尽 可 能 多 的 TO， 而 文件 描 
述 符 又 被 置 为 可 阻塞 的 ， 那 么 最 终 当 没有 更 多 的 IO 可 执行 时 ，LIO 
系统 调用 就 会 阻塞 。 基 于 这 个 原因 ， 每 个 被 检查 的 文件 描述 符 通 各 
都 应 该 置 为 非 阻 塞 模式 ， 在 得 到 VO 事 件 通知 后 重复 执行 1O 操 作 ， 
直到 相应 的 系统 调用 《〈 比 如 read0，write0 ) 以 错误 码 EAGAIN 或 
EWOULDBLOCK 的 形式 失败 。 














63.1.2 ”在 备 选 的 IO 模型 中 采用 非 阻 塞 IVO 





非 阻 塞 JO (CO_NONBLOCK 标 志 ) 常 和 本 章 中 所 描述 的 MO 模型 一 


起 使 用 。 下 面 列 出 了 一 些 例子 ， 以 说 明 为 什么 这 么 做 会 很 有 用 。 
。 如 同上 一 节 所 述 ， 非 阻塞 IJO 通 党 和 提供 有 边缘 触发 通知 机 制 的 IO 


模型 一 起 使 用 。 


。 如 果 多 个 进程 (或 线程 ) 在 同一 个 打开 的 文件 描述 符 上 执行 IO 操 


作 ， 那 么 从 东 个 特定 进程 的 角度 来 看 ， 文 件 描述 符 的 就 绪 状 态 可 能 
会 在 通知 就 绪 和 执行 后 续 MO 调 用 之 间 发 生 改 变 。 线 果 就 是 一 个 阻 


塞 式 的 MO 调用 将 阻塞 ， 从 而 防止 进程 检查 其 他 的 文件 描述 符 。 
《这 种 情况 会 发 生 在 本 章 所 描述 的 所 有 IO 模型 上 ， 无 论 它们 采用 
的 是 水 平 触发 还 是 边缘 触发 。) 

尽管 水 平 触发 模式 的 API 比 如 select() 或 poll0 通 知 我 们 流 式 套 接 字 的 
文件 描述 符 已 经 写 就 络 了 ， 如 果 我 们 在 单个 write0) 或 sandO 调 用 中 
写 入 足够 大 块 的 数据 ， 那 么 该 调用 将 阻塞 。 

在 非常 罕见 的 情况 下 ， 水 平 触 发 型 的 API 比如 select0 和 poll0， 会 
返回 虚假 的 就 绪 通 知 一 它们 会 错误 地 通知 我 们 文件 描述 符 已 经 就 
人 由 内 核 bug 造 成 的 ， 或 非 普 通 情 况 下 的 设计 方案 所 
期 望 的 行为 。 











[Stevens et al., 2004] 中 16.6 节 介绍 了 一 个 BSD 系 统 上 的 
监 昕 套 接 字 的 虚假 就 绪 通 知 例子 。 如 果 客 户 端 先 连接 到 服 
务 器 端的 监听 套 接 字 上 ， 然 后 再 重 置 连接 ， 服 务 堪 端的 
select(O 调 用 在 这 两 个 事件 之 间 将 提示 监听 套 接 字 为 可 读 就 
绪 ， 但 随后 当 客 户 端 重 置 连接 后 ， 服 务 器 端的 acceptO 调 用 
会 阻塞 。 





63.2 IO 多 路 复 用 


VO 多 路 复 用 人 允许 我 们 同时 检查 多 个 文件 摘 述 符 ， 看 其 中 任意 一 个 
是 否 可 执行 IO 操作 。 我 们 可 以 采用 两 个 功能 几乎 相同 的 系统 调用 来 执 
ÍT WO 多 路 复 用 操作 。 第 一 个 是 select0)， 它 首次 出 现在 BSD 系 统 的 套 接 
字 API 中 。 在 这 两 个 系统 调用 中 ， 历 史上 select() 的 应 用 更 广泛 。 男 一 个 
系统 调用 是 poll()， 它 出 现在 System V 中 。select0 和 poll0 现 在 都 是 SUSv3 
中 规定 的 标准 接口 。 

我 们 可 以 在 普通 文件 、 终 端 、 伪 终端 、 管 道 、FIFO、 套 接 字 以 及 一 
些 其 他 类 型 的 字符 型 设备 上 使 用 select0 和 poll0) 来 检查 文件 描述 符 。 这 
个 系统 调用 都 允许 进程 要 么 一 直 等 待 文件 揪 述 符 成 为 就 绪 态 ， 要 么 在 调 
用 中 指定 一 个 超时 时 间 。 


63.2.1 select() A y H 


系统 调用 select0 会 一 直 阻 竖 ， 直 到 一 个 或 多 个 文件 描述 符 集合 成 为 








finclude <sys/time.h> /* For portability */ 
ftinclude <sys/select.h> 


int select(int nfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, 
struct timeval *limeout); 


Returns number of ready file descriptors, 0 on timeout, or -1 on error 











参数 nfds、readfds、writefds 和 exceptfds 指 定 了 select() 要 检查 的 文件 
描述 符 集 合 。 参 数 timeout 可 用 来 设 定 selectO0 阻 塞 的 时 间 上 限 。 我 们 接 下 
来 详细 摘 述 这 些 参数 的 意义 。 


上 文 给 出 的 selectO 函 数 原 型 中 我 们 包含 了 头 文件 
<Ssys/time.h>， 因 为 这 是 SUSv2 中 指定 的 头 文 件 ， 而 且 其 他 
一 些 UNIX 实 现 中 需要 这 个 头 文件 。〈Linux 中 也 提供 有 头 





文件 <sys/time.h>， 包 含 它 没什么 坏处 。) 


文件 描述 符 集 合 


参数 readfds、writefds 以 及 exceptfds 都 是 指向 文件 描述 符 集合 的 指 
所 指向 的 数据 类 型 是 fd_set。 这 些 参 数 按照 如 下 方式 使 用 。 


readfds 是 用 来 检测 得 入 是 否 束 绪 的 文件 描述 符 集 合 。 
writefds 是 用 来 检测 输出 是 否 就 绪 的 文件 描述 符 集 合 。 
e exceptfds 是 用 来 检测 异常 情况 是 否 发 生 的 文件 摘 述 符 集 合 。 


术语 “异常 情况 * 常 弟 被 误解 为 在 文件 描述 符 上 出 现 了 一 些 错 误 ， 这 
并 不 正确 。 在 Linux 上 ， 一 个 异常 情况 只 会 在 下 面 两 种 情况 下 发 生 ( 其 
他 的 UNIX 实 现 也 类 似 ) 。 


。 连接 到 处 于 信人 包 模 式 下 的 伪 终 端 主 设备 上 的 从 设备 状态 发 生 了 改变 
( 见 64.5 节 ) 。 
。 流 式 套 接 字 上 接收 到 了 带 外 数据 《〈 见 61.13.1 节 ) 。 


通常 ， 数 据 类 型 fd_set 以 位 捧 码 的 形式 来 实现 。 但 是 ， 我 们 并 不 需 
要 知道 这 些 细节 ， 因 为 所 有 关于 文件 描述 符 集 合 的 操作 都 是 通过 四 个 安 
来 完成 的 : FD_ZEROO，EFD_SETO，FD_CLRO 以 及 FD_ISSETO。 


针 


-> 








#include <sys/select.h> 

void FD ZERO(fd set *fdset); 

void FD_SET(int fd, fd_set *fdset); 
void FD_CLR(int fd, fd_set *fdset); 


int FD_ISSET(int fd, fd set *fdset); 








Returns true (1) if fd is in faset, or false (0) otherwise 








这 些 宏 按 如 下 方式 工作 。 


。FD_ZERO() 将 fdset 所 指 同 的 集合 初始 化 为 空 。 
。 FD_SET() 将 文件 描述 符 fd 添 加 到 由 fdset 所 指向 的 集合 中 。 
。FD_CLR0O 将 文件 描述 符 fd 从 fdset 所 指向 的 集合 中 移 除 。 


。 如 果 文 件 描述 符 fd 是 fdset 所 指向 的 集合 中 的 成 员 ，FD_ISSETO 返 回 
true. 
ME FEIA TEA A PK AS eB Hl], H  EFD_SETSIZEXR IR 
定 。 在 Linux 上 ， 该 常量 的 值 为 1024。 (其 他 UNIX 实 现 对 于 该 限制 也 有 
类 似 的 常量 值 来 限定 。) 








尽管 FD_* 宏 操作 的 是 用 户 空间 数据 结构 ，selectO 的 内 
核实 现 却 能 处 理 更 大 的 文件 描述 符 集 合 。 在 glibc 中 没有 什 
么 简单 的 方法 可 以 修改 FD_SETSIZE 的 定义 。 如 果 我 们 想 修 
改 这 个 限制 ， 必 须 修 改 glibc 头 文件 中 的 定义 。 但 是 ， 基 于 
本 章 稍 后 提 到 的 原因 ， 如 果 我 们 需要 检查 大 量 的 文件 描述 
符 ， 那 么 使 用 epoll 可 能 比 select() 更 加 可 取 。 


参数 readfds、writefds 和 exceptfds 所 指 回 的 结构 体 都 是 保存 结果 值 
的 地 方 。 在 调用 select0 之 前 ， 这 些 参 数 指 回 的 结构 体 必须 初始 化 (通过 
FD_ZERO(#IFD_SET()) ， 以 包含 我 们 感 兴趣 的 文件 描述 符 集 合 。 之 
后 select(O) 调 用 会 修改 这 些 结构 体 ， 当 select0) 返 回 时 ， 它 们 包含 的 束 是 已 
处 于 就 绪 态 的 文件 描述 符 集 合 了 。 (由 于 这 些 结构 体会 在 调用 中 被 修 
改 ， 如 果 要 在 循环 中 重复 调用 select0)， 我 们 必须 保证 每 次 都 要 重新 初始 
化 它们 。) 之 后 这 些 结构 体 可 以 通过 FD_ISSET() 来 检查 。 


如 果 我 们 对 某 一 类 型 的 事件 不 感 兴趣 ， 那 么 相应 的 fd_set 参 数 可 以 
站 定 为 NULL。 我 们 将 在 63.2.3 节 中 对 这 三 种 事件 类 型 做 更 准确 的 解释 。 


参数 nfds 必 须 设 为 比 3 个 文件 描述 符 集 合 中 所 包含 的 最 大 文件 描述 
和 从 号 还 要 大 1。 该 参数 让 select() 变 得 更 有 效率 ， 因 为 此 时 内 核 束 不 用 去 
检查 大 于 这 个 值 的 文件 描述 符号 是 否 属于 这 些 文件 描述 符 集 合 。 








timeout 人 参数 


参数 timeonut 控 制 着 selectO 的 阻塞 行为 。 该 参数 可 指定 为 NULL， 此 


时 selectO 会 一 直 阻 塞 。 又 或 者 指 同 一 个 timeval 结 构 体 。 


struct timeval { 
time_t tv_sec; /* Seconds */ 
suseconds t tv_usec; /* Microseconds (long int) */ 


J 


Fy 


如 果 结 构 体 timeval 的 两 个 域 都 为 0 的 话 ， 此 时 selectO 不 会 阻塞 ， 它 
只 是 简单 地 轮 询 指 定 的 文件 描述 符 集合 ， 看 看 其 中 是 否 有 就 绪 的 文件 描 
porn 。 人 否则 ，timeout 将 为 select0 指 定 一 个 等 待 时 间 的 上 限 
值 。 


尽管 结构 体 timeval 能 文 持 微 秒 级 的 精度 ， 该 调用 的 准确 度 仍 受 软件 
时 钟 粒 度 的 限制 〈 见 10.6 节 ) 。SUSv3 规 定 ， 当 timeout 不 是 该 粒度 的 整 
数 倍 时 将 同上 取 整 。 








SUSv3 要 求 最 大 允许 的 超时 间隔 至 少 为 31 天 。 大 多 数 
UNIX 实 现 允 许 一 个 相当 高 的 限制 值 。 由 于 Linux/x86-32 使 
用 32 位 整数 作为 time t 的 类 型 ， 因 此 上 限 值 高 达 数 年 。 








当 timeout 设 为 NULL， 或 其 指向 的 结构 体 字段 非 零 时 ，select() 将 阻 
ZESA FIFRE: 


e readfds、writefds 或 exceptfds 中 指定 的 文件 描述 符 中 至 少 有 一 个 成 为 
MA; 

。 该 调用 被 信号 处 理 例 程 中 断 ; 

e timeout 中 指定 的 时 间 上 限 已 超时 。 





在 缺少 亚 秒 级 sleep 调 用 《例如 nanosleepO) 的 老式 
UNIX 实 现 中 ，select() 被 用 来 模拟 这 个 功能 。 这 可 以 通过 指 
定 nfds 为 0，readfds、writefds 以 及 exceptfds 全 设 为 NULL， 





而 期 望 的 休眠 时 间 在 timeout 中 指定 来 完成 。 


在 Linux 上， 如 果 select() 因 为 有 一 个 或 多 个 文件 描述 符 成 为 就 绪 态 
而 返回 ， 且 如 果 参 数 timeout 非 空 ， 那 么 selectO 会 更 新 timeout 所 指 同 的 结 
构 体 以 此 来 表示 剩余 的 超时 时 间 。 但 是 ， 这 种 行为 是 与 具体 实现 相关 
的 。SUSvV3 中 还 允许 系统 不 去 修改 timeout 所 指向 的 结构 体 ， 且 大 多 数 
UNIX 实 现 都 不 会 修改 这 个 结构 体 。 在 循环 中 使 用 了 selectO 的 可 移植 的 
应 用 程序 应 该 总 是 确保 timeout 所 指 同 的 结构 体 在 每 次 调用 select0 之 前 都 
要 得 到 初始 化 ， 而 且 在 调用 完成 后 应 该 忽略 该 结构 体 中 返回 的 信息 。 


SUSv3 中 规定 由 timeout 所 指 同 的 结构 体 只 有 在 selectO 调 用 成 功 返 回 
后 才 有 可 能 被 修改 。 但 是 ， 在 Linux 上 如 果 select0 被 一 个 信号 处 理 例 程 
中 断 的 话 〈 因 此 select0) 会 产生 EINTR 错 误 码 ) ， 那 么 该 结构 体 也 会 被 修 
改 以 表示 剩余 的 超时 时 间 (其 作用 相当 于 select0) 成 功 返 回 ) 。 


如 果 我 们 使 用 Linux 专 有 的 personality() 系 统 调用 来 设 定 
包含 了 STICKY_TIMEOUTS 位 的 进程 运行 域 ， 那 么 select() 
将 不 会 修改 由 timeout 所 指向 的 结构 体 。 


select() 的 返回 值 
作为 函数 的 返回 值 ，selectO 会 返回 如 下 几 种 情况 中 的 一 种 。 


。 返回 -1 表示 有 错误 发 生 。 可 能 的 错误 码 包括 EBADF 和 EINTR. 
EBADF 表示 readfds、writefds 或 者 exceptfds 中 有 一 个 文件 摘 述 符 是 
非法 的 《例如 当前 并 没有 打开 ) 。EINTR 表 示 该 调用 被 信号 处 理 例 
程 中 断 了 。“《 如 21.5 节 所 述 ， 如 果 被 信号 处 理 例 程 中 断 ，selectO 是 
不 会 自动 恢复 的 。) 

© 返回 0 表示 在 任何 文件 描述 符 成 为 就 绪 态 之 前 select() 调 用 已 经 超 
时 。 在 这 种 情况 下 ， 每 个 返回 的 文件 摘 述 符 集 合 将 被 清空 。 














e 返回 一 个 正 整数 表示 有 1 个 或 多 个 文件 描述 符 已 达到 束 绪 态 。 返 回 
值 表示 处 于 就 绪 态 的 文件 描述 符 个 数 。 在 这 种 情况 下 ， 每 个 返回 的 
文件 描述 符 集合 都 需要 检查 〈 通 过 FD_ISSETO) ， 以 此 找 出 发 生 
的 IO 事件 是 什么 。 如 果 同 一 个 文件 描述 符 在 readfds、writefds 和 
exceptfds 中 同时 被 指定 ， 且 它 对 于 多 个 MO 事件 都 处 于 就 绪 态 的 话 ， 
那么 就 会 被 统计 多 次 。 换 名 话说 ，select(0 返 回 所 有 在 3 个 集合 中 被 
标记 为 就 绪 态 的 文件 描述 符 总 数 。 


示例 程序 


程序 清单 63-1 中 的 程序 说 明了 select() 的 用 法 。 通 过 命令 行 参数 ， 我 
们 可 以 指定 超时 时 间 以 及 我 们 希望 检查 的 文件 描述 符 。 第 一 个 命令 行 参 
数 指定 了 select0 中 的 timneout 参 数 ， 以 秒 为 单位 。 如 果 这 里 指定 了 连 字 符 

C) ， 那 么 select() 的 timeout 参 数 就 设 为 NULL， 表 示 会 一 直 阻 罕 。 剩 下 
的 命令 行 参数 用 来 指定 需要 检查 的 文件 摘 述 符 个 数 ， 跟 着 的 字符 表示 需 
ia 的 事件 类 型 。 我 们 这 里 可 以 指定 的 是 rz〈 读 就 绪 ) Mw CE 
ZG) 。 









































程序 清单 63-1: 使 用 select() 来 检查 多 个 文件 描述 符 




















altio/t_select.c 
#include <sys/time.h> 
#include <sys/select.h> 
#include "tlpi hdr.h" 


static void 
usageError(const char *progName) 


{ 
fprintf(stderr, "Usage: %s {timeout|-} fd-num[rw]...\n", progName); 
fprintf(stderr, " - means infinite timeout; \n"); 
fprintf(stderr, " r = monitor for read\n"); 
fprintf(stderr, " w = monitor for write\n\n"); 
fprintf(stderr, " e.g.: 4S - Orw 1w\n", progName); 


exit(EXIT FAILURE); 


Int 
main(int argc, char *argv[]) 


fd_set readfds, writefds; 

int ready, nfds, fd, numRead, j; 

struct timeval timeout; 

struct timeval *pto; 

char buf[10]; /* Large enough to hold "rw\o" */ 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageError(argv[0]); 


/* Timeout for select() is specified in argv[1] */ 


if (strcmp(argv[1], "-") == 0) { 
pto = NULL; /* Infinite timeout */ 
} else { 
pto = &timeout; 
timeout.tv_sec = getLong(argv[1], 0, "timeout"); 
timeout.tv_usec = 0; /* No microseconds */ 


} 
/* Process remaining arguments to build file descriptor sets */ 


nfds = 0; 
FD ZERO(&readfds) ; 
FD_ZERO(8&writefds) ; 


for (j = 2; j < argc; j++) { 
numRead = sscanf(argv[j], "%d%2[rw]", &fd, buf); 
if (numRead != 2) 
usageError(argv[0]); 
if (fd >= FD SETSIZE) 
cmdLineErr("file descriptor exceeds limit (%d)\n", FD _SETSIZE); 


if (fd >= nfds) 
nfds = fd + 1; /* Record maximum fd + 1 */ 
if (strchr(buf, 'r') != NULL) 
FD SET(fd, &readfds); 
if (strchr(buf, 'w') != NULL) 
FD SET(fd, &writefds); 
} 


/* We've built all of the arguments; now call select() */ 
ready = select(nfds, &readfds, &writefds, NULL, pto); 
/* Ignore exceptional events */ 
if (ready == -1) 
errExit("select"); 


/* Display results of select() */ 


printf("ready = %d\n", ready); 


for (fd = 0; fd < nfds; fd++) 
printf("%d: %s%s\n", fd, FD ISSET(fd, &readfds) ? "r" : "", 
FD_ISSET(fd, &writefds) ? "w" : ""); 


if (pto != NULL) 
printf("timeout after select(): %1d.%031d\n", 
(long) timeout.tv_sec, (long) timeout.tv_usec / 10000); 
exit(EXIT SUCCESS); 


altio/t_select.c 


在 下 面 的 shell 会 话 日 志 中 ， 我 们 说 明了 程序 清单 63-1 的 用 法 。 在 第 
一 个 例子 中 ， 我 们 请 求 检 查 文件 描述 符 0 上 的 输入 ， 超 时 时 间 定 为 10 


$ ./t_select 10 Or 
Press Enter, so that a line of input is available on file descriptor O 


ready = 1 

0: © 

timeout after select(): 8.003 

$ Next shell prompt is displayed 


上 面 的 输出 告诉 我 们 selectO 确 定 了 有 一 个 文件 描述 符 已 处 于 就 绪 
态 。 文 件 描述 符 0 已 经 准备 好 读 取 数据 了 。 我 们 也 可 以 看 到 timeout 已 经 
被 修改 了 。 最 后 一 行 输出 只 有 shell 提 示 符 $， 这 是 因为 t_select 程 序 并 没 
有 读 取 让 文件 描述 符 0 处 于 读 就 绪 态 的 换行 符 ， 因 此 这 个 字符 由 shell 读 
取 ， 结 果 就 是 打印 出 了 为 一 个 shell 提 示 符 。 

在 下 一 个 示例 中 ， 我 们 再 次 检查 文件 描述 符 0 的 输入 状态 ， 但 这 一 
次 将 超时 时 间 设 为 0 秒 。 
$ ./t_select 0 Or 


ready = 0 
timeout after select(): 0.000 


selectO 调 用 立刻 返回 ， 且 发 现 没 有 文件 描述 符 处 于 就 绪 态 。 
下 一 个 示例 中 ， 我 们 检查 文件 描述 符 0 上 和 是否 有 输入 ， 以 及 文件 描 


述 符 1 上 是 售 有 输出 。 在 这 种 情况 下 ， 我 们 将 参数 timeout 议 为 
NULL (第 一 个 命令 行 参数 为 连 字 符 -) ， 表 示 一 直 阻 寨 下 去 。 











$ 。/t select - Or 1w 
Teady = 1 

0: 

1: w 


select0 调 用 立刻 返回 ， 并 告诉 我 们 文件 描述 符 1 上 有 输出 。 
63.2.2 ”poll0 系 统 调用 


系统 调用 poll0 执 行 的 任务 同 selectO 很 相似 。 两 者 间 主 要 的 区 别 在 于 
我 们 要 如 何 指定 符 检 查 的 文件 描述 符 。 在 select0 中 ， 我 们 提供 三 个 集 
合 ， 在 每 个 集合 中 标明 我 们 感 兴趣 的 文件 描述 符 。 而 在 poll0 中 我 们 提 
供 一 列 文 件 描 述 符 ， 并 在 每 个 文件 描述 符 上 标明 我 们 感 兴趣 的 事件 。 








#include <poll.h> 


int poll(struct pollfd fds[], nfds_t nfds, int lemeout); 


Returns number of ready file descriptors, 0 on timeout, or -1 on error 











参数 fds 列 出 了 我 们 需要 poll0 来 检查 的 文件 描述 符 。 该 参数 为 pollfd 
结构 体 数 组 ， 其 定义 如 下 。 


struct pollfd { 


int fd; /* File descriptor */ 
short events; /* Requested events bit mask */ 
short revents; /* Returned events bit mask */ 


}; 
参数 nfds 指 定 了 数组 fds 中 元 素 的 个 数 。 数 据 类 型 nfds_t 实 际 为 无 符 


号 整形 。 


pollfd 结 构 体 中 的 events 和 revents 字 上 段 都 是 位 掩 码 。 调 用 者 初始 化 
events 来 指定 需要 为 摘 述 符 fd 做 检查 的 事件 。 当 poll0 返 回 时 ，revents 被 
设 定 以 此 来 表示 该 文件 描述 符 上 实际 发 生 的 事件 。 


表 63-2 列 出 了 可 能 会 出 现在 events 和 revents 字 段 中 的 位 掩 码 。 该 表 
中 第 一 组 位 掩 码 (POLLIN、POLLRDNORM、POLLRDBAND、 
POLLPRI 以 及 POLLRDHUP) 同 输入 事件 相关 。 下 一 组 位 掩 码 
(POLLOUT、POLLWRNORM 以 及 POLLWRBAND) 同 输 出 事件 相 
关 。 第 三 组 位 掩 码 (POLLERR、POLLHUP 以 及 POLLNVAL) ERE 


在 revents 字 段 中 用 来 返回 有 关 文 件 描述 符 的 附加 信息 。 如 果 在 events 字 
段 中 指定 了 这 些 位 掩 码 ， 则 这 三 位 将 被 忽略 。 在 Linux 系 统 中 ，pollO 不 
会 用 到 最 后 一 个 位 掩 码 POLLMSG。 


表 63-2: pollfd 结 构 体 中 events 和 revents 字 上段 中 出 现 的 位 掩 码 值 
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Linux 中 不 使 用 〈SUSv3 中 未 指定 ) 


在 提供 有 STREAMS 设 备 的 UNIX 实 现 中 ，POLLMSG 
表示 包含 有 SIGPOLEL 信 号 的 消息 已 经 到 达 stream 头 部 。 
Linux 中 没有 使 用 到 POLLMSG， 因 为 Linux 并 没有 实现 
STREAMS 。 


如 果 我 们 对 某 个 特定 的 文件 描述 符 上 的 事件 不 感 兴 趣 ， 可 以 将 
events 设 为 0。 男 外 ， 给 fd 字段 指定 一 个 负 值 (例如 ， 如 果 值 为 非 零 ， 取 
它 的 相反 数 ) 将 导致 对 应 的 events 字 段 被 忽略 ， 且 revents 字 段 将 总 是 返 
回 0。 这 两 种 方法 都 可 以 用 来 〈 也 许 只 是 暂时 的 ) 关闭 对 单个 文件 描述 
符 的 检查 ， 而 不 需要 重新 建立 整个 frds 列 表 。 


注意 ， 下 面 进一步 列 出 的 要 点 主要 是 天 于 poll0 的 Linux 实 现 。 


尽管 被 定义 为 不 同 的 位 掩 码 ，POLLIN 和 POLLRDNORM 是 同 义 
{Al fe) 

尽管 被 定义 为 不 同 的 位 掩 码 ，POLLOUT 和 POLLWRNORM 是 同 
义 词 。 

一 般 来 说 POLLRDBAND 是 不 被 使 用 的 ， 也 束 是 说 它 在 events 字 段 
中 被 忽略 ， 也 不 会 设 定 到 revents 中 去 。 


唯一 用 到 POLLRDBAND 的 地 方 是 在 实现 DECnet 网 络 
协议 的 代码 中 (已 过 时 ) 。 


。 尺 管 在 特定 情形 下 可 用 于 对 套 接 字 的 设 定 ，POLLWRBAND 并 不 会 
传达 任何 有 用 的 信息 。 (不 会 出 现 当 POLLOUT 和 POLLWRNORM 





没有 设 定 ， 而 设 定 了 POLLWRBAND 的 情况 。) 


POLLRDBAND 和 POLLWRBAND 对 于 提供 有 System V 
STREAMS 实 现 的 系统 来 说 是 有 意义 的 《Linux 没 有 实现 
STREAMS) 。 在 STREAMS 下 ， 消 息 可 以 附 上 一 个 非 零 的 
优先 级 ， 这 样 的 消 恩 在 接收 问 排 队 时 按照 优先 级 递减 的 方 
式 排 列 ， 会 排 在 普通 消息 (优先 级 为 0 的 前 面 。 


。 必须 定义 _XOPEN_SOURCE 测试 安 ， 这 样 才能 在 头 文 件 <pollL.h> 中 
得 到 常量 POLLRDNORM、POLLRDBAND、POLLWRNORM 以 及 
POLLWRBAND 的 定义 。 

e POLLRDHUP 是 Linux 专 有 的 标志 位 ， 从 2.6.17 版 内 核 以 来 就 一 直 存 
在 。 要 在 头 文件 <poll.h> 中 得 到 和 它 的 定义 ， 必 须 定义 
_GNU_SOURCE 测 试 宏 。 

。 如 果 指 定 的 文件 描述 符 在 调用 polO 时 关闭 了 ， 则 返回 
POLLNVAL. 


总 结 以 上 要 点 ，poll0 真 正 关 心 的 标志 位 就 是 POLLIN、 
POLLOUT、POLLPRI、POLLRDHUP、POLLHUP 以 及 POLLERR。 我 
们 在 63.2.3 节 中 以 更 详尽 的 方式 讨论 这 些 标志 位 的 意义 。 








timeout & žr 
参数 timeout 决 定 了 poll0 的 阻塞 行为 ， 具 体 如 下 。 


e 如 果 timeout 等 于 -1，poll0 会 一 直 阻 塞 直 到 fds 数组 中 列 出 的 文件 摘 
述 符 有 一 个 达到 就 绪 态 〈 定 义 在 对 应 的 events 字 段 中 ) 或 者 捕获 到 


一 个 信和 号。 
e 如 果 timeout 等 于 0，poll0 不 会 阻塞 只 是 执行 一 次 检查 看 看 哪个 
文件 描述 符 处 于 就 绪 态 。 
e 如 果 timeout 大 于 0，poll0 至 多 阻塞 timeout 坚 秒 ， 直 到 fds 列 出 的 文件 
描述 符 中 有 一 个 达到 就 绪 态 ， 或 者 直到 捕获 到 一 个 信号 为 止 。 














同 select0 一 样 ，timeout 的 精度 受 软件 时 钟 粒 度 的 限制 〈 见 10.6 
) ， 而 SUSv3 中 规定 ， 如 果 timeout 的 值 不 是 时 钟 粒 度 的 整数 倍 ， 将 总 
是 向 上 取 整 。 


poll0 的 返回 值 
作为 函数 的 返回 值 ，poll0 会 返回 如 下 几 种 情况 中 的 一 种 。 


返回 -1 表示 有 错误 发 生 。 一 种 可 能 的 错误 是 EINTR， 表 示 该 调用 被 
一 个 信号 处 理 例 程 中 断 。 如 21.5 节 中 所 注 明 的 ， 如 果 被 信号 处 理 
例 程 中 断 ，pollO 绝 不 会 自动 恢复 。) 
| 
返回 正 整 数 表 示 有 1 个 或 多 个 文件 描述 符 处 于 就 绪 态 了 。 返 回 值 表 
示 数 组 fds 中 拥有 非 零 revents 字 段 的 pollfd 结 构 体 数量 。 

















注意 select() 同 poll0) 返 回 正 整 数值 时 的 细小 差别 。 如 果 
一 个 文件 描述 符 在 返回 的 描述 符 集合 中 出 现 了 不 止 一 次 ， 
系统 调用 select() 会 将 同一 个 文件 描述 符 计数 多 次 。 而 系统 
调用 poll0 返 回 的 是 就 绪 态 的 文件 描述 符 个 数 ， 且 一 个 文件 
描述 符 只 会 统计 一 次 ， 就 算 在 相应 的 revents 字 段 中 设 定 了 
多 个 位 掩 码 也 是 如 此 。 








E 序 演 时 63-2 给 出 了 一 个 使 用 poll0 的 简 丰 演示 。 这 个 程序 创建 了 一 
(每 个 管道 使 用 一 对 连续 的 文件 描述 符 ) ， 将 字 节 写 到 随机 选择 
首 写 > 
面 








Sd» 然后 通 是 过 poll0 来 检查 看 哪个 管 道中 有 数据 可 进行 读 取 ， 


的 shell 会 话 展示 了 当 我 们 运行 该 程序 时 会 看 到 什么 结果 。 程 
HU a 各 定 了 应 该 创建 10 个 管道 ， 而 写 操作 应 该 随机 选择 其 中 
3 个 管道 。 


$ ./poll_pipes 10 3 


Writing to fd: 4 (read fd: 3) 
Writing to fd: 14 (read fd: 13) 
Writing to fd: 14 (read fd: 13) 


poll() returned: 2 
Readable: 3 
Readable: 13 


从 上 面 的 输出 我 们 可 知 poll0 发 现 两 个 管道 上 有 数据 可 读 取 。 








程序 清单 63-2: 使 用 poll0 来 检查 多 个 文 伯 





#include <time.h> 
#include <poll.h> 
#include "tlpi_hdr.h" 


int 
main(int argc, char *argv[]) 


int numPipes, j, ready, randPipe, numWrites; 
int (*pfds)[2]; /* File descriptors for 
struct pollfd *pollFd; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s num-pipes [num-writes]\n", argv[0]); 


/* Allocate the arrays that we use. The arrays are sized acc 
to the number of pipes specified on command line */ 
numPipes = getInt(argv[1], GN GT 0, “num-pipes"); 
pfds = calloc(numPipes, sizeof(int [2])); 
if (pfds == NULL) 
errExit ("malloc"); 
pollFd = calloc(numPipes, sizeof(struct pollfd)); 
if (pollFd == NULL) 
errExit("malloc"); 


/* Create the number of pipes specified on command line */ 
for (j = 0; j < numPipes; j++) 


if (pipe(pfds[j] =i) 
errExit("pipe %d", j); 


/* Perform specified number of writes to random pipes */ 





altio/poll_pipes.c 


all pipes */ 


ording 


numWrites = (argc > 2) ? getInt(argv[2], GN_GT_0, "num-writes") : 1; 


srandom( (int) time{NULL)); 
for (j = 0; j < numWrites; j++) { 
randPipe = random() % numPipes; 
printf("Writing to fd: %3d (read fd: %3d)\n", 
pfds[randPipe][1], pfds[randPipe][0]); 
if (write(pfds[randPipe][1], "a", 1) == -1) 
errExit("write %d", pfds[randPipe][1]); 
} 


/* Build the file descriptor list to be supplied to poll(). This list 
is set to contain the file descriptors for the read ends of all of 
the pipes. */ 


for (j = 0; j < numPipes; j++) { 
pollFd[j].fd = pfds[j][0]; 
pollFd[j].events = POLLIN; 

} 


ready = poll(pollFd, numPipes, -1); /* Nonblocking */ 
if (ready == -1) 
errExit("poll"); 


printf("poll() returned: %d\n", ready); 
/* Check which pipes have data available for reading */ 


for (j = 0; j < numPipes; j++) 
if (pollFd[j].revents & POLLIN) 
printf("Readable: %d %3d\n", j, pollFd[j].fd); 


exit (EXIT_SUCCESS); 


altio/poll pipes.c 
63.2.3 ”文件 描述 符 何 时 就 绪 


正确 使 用 select0 和 pollO0 需 要 理解 在 什么 情况 下 文件 描述 符 会 表示 为 
就 绪 态 。SUSv3 中 说 : 如 果 对 LO 函数 的 调用 不 会 阻塞 ， 而 不 论 该 函数 是 
否 能 够 实际 传输 数据 ， 此 时 文件 摘 述 符 “〈 未 指定 O _ NONBLOCK 标 志 ) 
被 认为 是 就 绪 的 。select0 和 pollO 只 会 告诉 我 们 MO 操作 是 否 会 阻塞 ， 而 
不 是 告诉 我 们 到 底 能 否 成 功 传输 数据 。 按 照 这 个 思路 ， 让 我 们 考虑 一 下 
这 些 系统 调用 在 不 同类 型 的 文件 描述 符 上 所 做 的 操作 。 我 们 将 这 些 信 息 
在 表格 中 以 两 列 来 显示 。 


。 select() 这 一 列表 示 文 件 描述 符 是 否 被 标记 为 可 读 (r) ， 可 写 〈w) 
还 是 有 异常 情况 (x) o 





。 poll0 这 一 列表 示 在 revents 字 段 中 返回 的 位 掩 码 。 在 这 些 表 格 中 ， 我 
们 忽略 POLLRDNORM、POLLWRNORM、POLLRDBAND 以 及 
POLLWRBAND。 尽 管 在 很 多 情况 下 这 些 标志 会 在 revents 中 返回 
(如 果 在 events 字 段 中 指定 过 这 些 标 志 ) ， 但 它们 相对 于 
POLLIN、POLLOUT、POLLHUP 以 及 POLLERR 来 说 ， 并 没有 提 
供 更 多 有 用 的 信息 。 


普通 文件 


代表 普通 文件 的 文件 描述 符 总 是 被 select() 标 记 为 可 读 和 可 写 。 对 于 
poll0 来 说 ， 则 会 在 revents 字 段 中 返回 POLLIN 和 POLLOUT 标 志 。 原 因 
uF 


。 Iead(0) 总 是 会 立刻 返回 数据 、 文 件 结尾 符 或 者 错误 《〈 例 如 ， 文 件 并 
没有 因为 读 操 作 而 打开 ) 。 
。 wriite(0) 总 是 会 立刻 传输 数据 或 者 因 出 现 茶 些 错误 而 失败 。 





SUSv3 中 说 select0 应 该 也 为 代表 普通 文件 的 文件 描述 
符 标 记 异 常情 况 ( 尽 管 这 么 做 对 普通 文件 来 说 没有 明显 的 
mM) 。 只 有 一 些 UNIX 实 现 才 会 这 么 做 ， 而 Linux 是 其 中 
一 种 不 会 这 样 处 理 的 实现 之 一 。 





终 闪 和 伪 终 端 


表 63-3 总 结 了 在 终端 和 伪 终 端 上 《 见 第 64 章 ) select0 和 poll0 的 行为 
表现 。 


当 伪 终端 对 的 其 中 一 端 处 于 关闭 状态 时 ， 另 一 端 由 poll0 返 回 的 
revents 将 取决 于 具体 实现 。 在 Linux 上 至 少 会 设置 POLLHUP 标志 。 但 
是 ， 在 其 他 实现 上 将 返回 各 种 不 同 的 标志 来 表示 这 个 事件 一 一 比如 ， 
POLLHUP、POLLERR 或 者 POLLIN。 此 外 ， 在 一 些 实现 中 ， 设 定 什么 
样 的 标志 取决 于 被 检查 的 是 伪 终 端 主 设备 还 是 从 设备 。 








表 63-3: 在 终端 和 伪 终 端 上 select0 和 pol0O 所 表示 的 意义 


有 输入 














可 输出 
伪 终 端 对 端 调 用 close0) 后 
处 于 信和 模式 下 的 伪 终 端 主 设备 检测 到 从 设备 端 状态 改变 














jts 


管道 和 FIFO 








_ 表 63-4 中 总 结 了 管 站 或 FIFO 的 读 端 细节 。“ 管 站 中 有 数据 ? ”这 一 列 
表示 管道 中 是 否 至 少 有 1 字 节 数据 可 读 。 在 这 个 表格 中 ， 我 们 假设 已 经 
在 events 字 段 中 指定 了 POLLIN 标 志 。 








表 63-4: select() 和 poll(0) 在 管道 或 FIFO 读 端 上 的 通知 


条 件 或 事件 


ae 5 =n select() poll() 
管道 中 有 数据 ? E mt] FF T B? 






































POLLIN | POLLHUP 


在 其 他 一 些 UNIX 实现 中 ， 如 果 管 道 的 写 端 是 关闭 状态 ， 那 么 
poll0 不 会 返回 POLLHUP， 而 会 返回 POLLIN 标 志 《〈 因 为 readO 遇 到 文件 
结尾 符 会 立刻 返回 ) 。 可 移植 性 高 的 程序 应 该 检查 这 两 个 标志 从 而 得 知 


read0 是 否 会 阻塞 。 











表 63-5 总 结 了 管道 写 端的 细节 。 在 这 个 表格 中 ， 我 们 假设 已 经 在 
events 字段 中 指定 了 POLLOUT 标 志 。“ 有 PIPE_BUF 个 字 节 的 空间 
吗 ? ”这 一 列表 示 管 道中 是 否 有 足够 剩余 空间 能 够 以 原子 方式 写 入 
PIPE_BUF 个 字 节 而 不 会 阻塞 。 这 是 Linux 判定 管道 是 否 写 就 绪 的 标准 
方法 。 其 他 一 些 UNIX 实 现 也 采用 相同 的 标准 ; 还 有 一 些 实现 中 认为 只 
要 可 以 写 入 1 个 字 节 ， 那 么 管道 就 是 写 就 绪 的 。 〈 在 Linux 2.6.10 版 之 
前 ， 管 道 的 负载 能 力 就 是 PIPE_BUF 个 字 节 。 这 表示 如 果 管 道 只 包含 1 字 
节 数 据 ， 那 么 就 认为 它 是 不 可 写 的 。) 











在 其 他 一 些 UNIX 实 现 中 ， 如 果 管 道 的 读 端 关闭 ， 那 么 pollO 并 不 会 
返回 POLLERR 标 志 ， 相 反 ， 要 么 会 返回 POLLOUT， 要 么 返回 
POLLHUP。 可 移植 的 程序 需要 检查 这 些 标志 ， 以 此 来 判断 write0 是 否 
会 阻塞 。 








表 63-5: select() 和 poll0 在 管道 或 FIFO 写 端 上 














上 的 通 
select() poll 


POLLERR 
POLLOUT 


条 件 或 事件 


A PIPE_BUF 个 字 节 的 空间 吗 ? | 读 端 打开 了 吗 ? 









POLLOUT | POLLERR 


ERT 


表 63-6 总 结 了 select0 和 poll0 在 套 接 字 上 的 行为 表现 。 对 于 poll0 这 
一 列 ， 我 们 假设 events 字 段 忆 经 指定 了 (POLLIN | POLLOUT | 
POLLPRI) 标志 位 。 对 于 select0 这 一 列 ， 我 们 假设 需要 检查 文件 描述 符 
的 输入 、 输 出 以 及 异 名 情况 是 否 发 生 。 〈 即 ， 文 件 描 述 符 在 所 有 传递 给 
select0 的 3 个 集合 中 都 有 指定 ) 。 该 表 只 涵盖 了 和 常见 的 情况 ， 并 不 包 合 
所 有 可 能 出 现 的 情况 。 


表 63-6: select() 和 poll0) 在 套 接 字 上 通知 的 事件 





























接收 到 带 外 数据 (只 限 TCP) 


流 套 接 字 的 对 端 关闭 连接 或 ”| rw POLLIN | POLLOUT | 








执行 了 shutdown(SHUT_WR) | POLLRDHUP 


Linux 下 ，UNIX 域 套 接 字 对 端 调 用 close0 后 ，poll0 表 
现 的 行为 同 表 63-6 中 所 展示 的 不 一 样 。 除 了 其 他 标志 外 ， 
poll0 还 会 在 revents 中 额外 返回 POLLHUP。 





Linux 专 有 的 POLLRDHUP 标 志 ( 从 Linux 2.6.17 以 来 就 一 直 存 在 ) 
需要 做 进一步 的 解释 。 其 实 ， 这 个 标志 的 实际 形式 是 EPOLLRDHUP 
一 一 主要 被 设计 用 于 epoll API 的 边缘 触发 模式 下 〈 见 63.4 节 ) 。 当 流 式 
套 接 字 连 接 的 远 端 关闭 了 写 连接 时 会 返回 该 标志 。 使 用 这 个 标志 能 让 采 
用 了 epoll 边缘 触发 模式 的 应 用 程序 使 用 更 简洁 的 代码 来 判断 远 端 是 否 
已 经 关闭 。“ 另 一 种 可 选 的 方法 是 ， 在 应 用 程序 中 设 定 POLLIN 标 志 ， 
然后 执行 一 次 read0， 如 果 返 回 0 则 表示 远 端 已 经 关闭 了 。 ) 














63.2.4 ”比较 select0 和 poll0) 
本 节 中 ， 我 们 讨论 一 些 select0 和 poll0 之 间 的 异同 点 。 
实现 细节 


在 Linux 内 核 层面，select() 和 poll() 都 使 用 了 相同 的 内 核 poll 例 程 集 
合 。 这 些 poll 例 程 有 别 于 系统 调用 polO 本 号。 每 个 例 程 都 返回 有 天 单 个 
文件 描述 符 就 绪 的 信息 。 这 个 就 绪 信 息 以 位 手 码 的 形式 返回 ， 其 值 同 
poll0 系 统 调用 中 返回 的 revents 字 段 中 的 比特 值 相关 《〈 见 表 63-2) 。poll0) 
系统 调用 的 实现 包括 为 每 个 文件 描述 符 调 用 内 核 poll 例 程 ， 并 将 结果 信 
恩 填 到 对 应 的 revents 字 上 段 中 去 。 


为 了 实现 select()， 我 们 使 用 一 组 宏 将 内 核 poll 例 程 返 回 的 信息 转化 
为 由 select0 返 回 的 与 之 对 应 的 事件 类 型 。 





#define POLLIN SET (POLLRDNORM | POLLRDBAND | POLLIN | POLLHUP | POLLERR) 
/* Ready for reading */ 

#define POLLOUT SET (POLLWRBAND | POLLWRNORM | POLLOUT | POLLERR) 
/* Ready for writing */ 

#define POLLEX SET (POLLPRI) /* Exceptional condition */ 


这 些 宏 定 义 展现 了 select0 和 poll0 所 返回 的 信息 之 间 的 语义 关系 。 
(观察 63.2.3 节 的 表格 中 select() 和 poll0 这 两 列 ， 可 以 发 现 每 个 系统 调用 
提供 的 信息 都 同上 述 宏 保持 一 致 。) 唯一 一 点 我 们 需要 额外 增加 的 是 ， 
如 果 被 检查 的 文件 描述 符 当 中 有 一 个 关闭 了 ，poll0 会 在 revents 字段 中 
返回 POLLNVAL， 而 select0 会 返回 -1 且 将 错误 码 设 为 EBADF。 





API 之 间 的 区 别 
以 下 是 系统 调用 select() 和 poll0) 之 间 的 一 些 区 别 。 


select0 所 使 用 的 数据 类 型 fd_set 对 于 被 检查 的 文件 描述 符 数 量 有 一 
个 上 限 限 制 (FED_SETSIZE) 。 在 Linux 下 ， 这 个 上 限 值 默认 为 
1024， 修 改 这 个 上 限 需 要 重新 编译 应 用 程序 。 与 之 相反 ，poll0 对 
于 被 检查 的 文件 描述 符 数 量 本 质 上 是 没有 限制 的 。 

由 于 select() 的 参数 fd_set 同 时 也 是 保存 调用 结果 的 地 方 ， 如 果 要 在 
循环 中 重复 调用 selectO0 的 话 ， 我 们 必须 每 次 都 要 重新 初始 化 
fd_set。 而 pollO 通 过 独立 的 两 个 字段 events〈 针 对 输入 ) 和 

revents 〈 针 对 输出 ) 来 处 理 ， 从 而 避免 每 次 都 要 重新 初始 化 参数 。 
select0 提 供 的 超时 精度 〈 微 秒 ) 比 poll0O 提 供 的 超时 精度 《〈 坚 秒 ) 
高 。 (这 两 个 系统 调用 的 超时 精度 都 受 软件 时 钟 粒 度 的 限制 。) 
如 果 其 中 一 个 被 检查 的 文件 描述 符 关 闭 了 ， 通 过 在 对 应 的 revents 
字段 中 设 定 POLLNVAL 标 记 ，poll0 会 准确 告诉 我 们 是 哪 一 个 文件 
描述 符 关 闭 了 。 与 之 相反 ，select0 只 会 返回 -1， 并 设 错误 码 为 
EBADF。 通 过 在 描述 符 上 执行 IO 系统 调用 并 检查 错误 码 ， 让 我 们 
自己 来 判断 哪个 文件 描述 符 关 闭 了 。 通 常 这 些 区 别 都 不 重要 ， 因 为 
应 用 程序 一 般 都 会 自己 跟踪 已 经 关闭 的 文件 描述 符 。 


可 移植 性 
历史 上 ，select() 比 poll0 使 用 得 更 加 广泛 。 如 今 这 两 个 接口 都 在 


SUSv3 中 标准 化 了 ， 且 都 广泛 存在 于 现代 的 UNIX 实 现 中 。 但 是 如 63.2.3 
节 中 提 到 的 ，poll0 在 不 同 的 实现 中 行为 上 会 有 一 些 差 别 。 











性 能 


= 当 如 满足 如 下 两 条 中 任意 一 条 时 ，poll0 和 selectO 将 具有 相似 的 性 能 
现 。 


。 待 检查 的 文件 描述 符 范围 较 小 〈 即 ， 最 大 的 文件 描述 符号 较 低 〉。 
© 有 大 量 的 文件 描述 符 竺 检查， 但 是 它们 分 布 得 很 密集 。《〈 即 ， 大 部 
分 或 所 有 的 文件 撕 述 符号 都 在 0 到 茶 个 上 限 之 间 ) 。 


然而 ， 如 果 被 检查 的 文件 描述 符 集 合 很 稀 玻 的 话 ，select0 和 poll0 
的 性 能 差异 将 变 得 非常 明显 。 比 如 ， 最 大 文件 描述 符号 N 是 个 很 大 的 
整数 ， 但 在 0 到 N 之 间 只 有 1 个 或 几 个 文件 描述 符 要 被 检查 。 在 这 种 
情况 下 ，poll0 的 性 能 表现 将 优 于 select()。 我 们 可 以 通过 传递 给 这 两 个 系 
统 调 用 的 参数 来 理解 这 其 中 的 原因 。 在 select0 中 ， 我 们 传递 一 个 或 多 个 
文件 描述 符 集 合 ， 以 及 比 待 检查 的 集合 中 最 大 的 文件 描述 符号 还 要 大 1 
的 nfds。 不 管 我 们 是 否 要 检查 范围 0 到 nfds-1 之 间 的 所 有 文件 描述 符 ， 
nfds 的 值 都 不 变 。 无 论 哪 种 情况 ， 内 核 都 必须 在 每 个 集合 中 检查 nfds 个 
元 素 ， 以 此 来 查 明 到 底 需要 检查 哪个 文件 描述 符 。 与 之 相反 ， 当 使 用 
polO 时 ， 只 需要 指定 我 们 感 兴趣 的 文件 描述 符 即 可 ， 内 核 只 会 去 检查 
这 些 指定 的 文件 描述 符 。 











Linux 2.4 版 中 poll() 和 select() 在 稀疏 的 描述 符 集合 中 性 
能 表现 差异 很 大 。 在 2.6 版 内 核 中 通过 一 些 优化 手段 ， 这 个 
性 能 差异 已 经 被 极 大 地 缩小 了 。 





我 们 将 在 63.4.5 节 中 进一步 讨论 select0 和 poll0 的 性 能 ， 在 那 一 节 中 
我 们 将 比较 这 两 个 系统 调用 同 epoll 之 间 的 性 能 差异 。 


63.2.5 ” select 和 poll0) 存 在 的 问题 


系统 调用 select0 和 poll0 是 用 来 同时 检查 多 个 文件 描述 符 就 绪 状 态 的 
方法 ， 它 们 是 可 移植 的 、 长 期 存在 且 被 广泛 使 用 的 。 但 是 当 检 查 大 量 的 








文件 描述 符 时 ， 这 两 个 API 都 会 遇 到 一 些 问 题 。 


每 次 调用 select0 或 pollO0， 内 核 都 必须 检查 所 有 被 指定 的 文件 描述 
符 ， 看 它们 是 否 处 于 就 绪 态 。 当 检查 大 量 处 于 密集 范围 内 的 文件 擂 
述 符 时 ， 该 操作 耗费 的 时 间 将 大 大 超过 接 下 来 的 操作 。 

每 次 调用 select0 或 polO0 时 ， 程 序 都 必须 传递 一 个 表示 所 有 需要 被 检 
查 的 文件 描述 符 的 数据 结构 到 内 核 ， 内 核 检 查 过 描述 符 后 ， 修 改 这 
个 数据 结构 并 返回 给 程序 。 此外， 对 于 select0 来 说 ， 我 们 还 必须 
在 每 次 调用 前 初始 化 这 个 数据 结构 。) 对 于 poll0 来 说 ， 随 着 待 检 
查 的 文件 描述 符 数 量 的 增加 ， 传 递 给 内 核 的 数据 结构 大 小 也 会 随 之 
增加 。 当 检查 大 量 文件 描述 符 时 ， 从 用 户 空 间 到 内 核 空间 来 回 找 贝 
这 个 数据 结构 将 占用 大 量 的 CPU 时 间 。 对 于 select0 来 说 ， 这 个 数 
Se 


select0) 或 pol0 调 用 完成 后 ， 程 序 必须 检查 返回 的 数据 结构 中 的 每 个 
元 素 ， 以 此 查 明 哪 个 文件 描述 符 处 于 就 绪 态 了 。 


上 述 要 点 产生 的 结 末 就 是 随 着 竺 检查 的 文件 描述 符 数 量 的 增加 ， 
select0 和 poll0 所 占用 的 CPU 时 间 也 会 随 之 增加 (更 多 细 市 请 参见 63.4.5 
T) 。 对 于 需要 检查 大 量 文 件 描述 符 的 程序 来 说 ， 这 就 产生 了 问题 。 


select0 和 pollO 糟 糕 的 性 能 延展 性 源 目 这 些 API 的 局 限 性 : 通常 ， 
程序 重复 调用 这 些 系统 调用 所 检查 的 文件 描述 符 集 合 都 是 相同 的 ， 可 是 
内 核 并 不 会 在 每 次 调用 成 功 后 残 记 录 下 它们 。 


我 们 接 下 来 要 讨论 的 信号 驱动 VO 以 及 epoll 都 可 以 使 内 核 记 录 下 进 
程 中 感 兴 趣 的 文件 描述 符 ， 通 过 这 种 机 制 消 除了 select0 和 poll0 的 性 能 延 
展 问 题 。 这 种 解决 方案 可 根据 发 生 的 VO 事件 来 延展 ， 而 与 被 检查 的 文 
件 描述 符 个 数 无 关 。 结 果 就 是 ， 当 需要 检查 大 量 的 文件 描述 符 时 ， 信 和 号 
驱动 WO 和 epoll 能 提供 更 好 的 性 能 表现 。 


























63.3 ”信号 驱动 IO 


在 IO 多 路 复 用 中 ， 进 程 是 通过 系统 调用 〈select0 或 poll0) 来 检查 
文件 描述 符 上 是 人 否 可 以 执行 IO 操作 。 而 在 信号 驱动 JO 中 ， 当 文件 描述 
符 上 可 执行 WO 操作 时 ， 进 程 请 求 内 核 为 自己 发 送 一 个 信 写 。 之 后 进程 
就 可 以 执行 任何 其 他 的 任务 直到 IO 就 绪 为 上 上， 此 时 内 核 会 发 送信 号 给 
进程 。 要 使 用 信号 驱动 WO， 程 序 需 要 按照 如 下 步 又 来 执行 。 


1. 为 内 核发 送 的 通知 信号 安装 一 个 信号 处 理 例 程 。 默 认 情 况 下 ， 
这 个 通知 信号 为 SIGIO 。 

2. 设 定 文件 描述 符 的 属 主 ， 也 就 是 当 文件 描述 符 上 可 执行 JO 时 会 
接收 到 通知 信号 的 进程 或 进程 组 。 通 常 我 们 让 调用 进程 成 为 属 主 。 设 定 
属 主 可 通过 fcntO0 的 FE_SETOWN 操 作 来 完成 : 


fcntl(fd, F_SETOWN, pid); 














3. 通过 设 定 O NONBLOCK 标 志 使 能 非 阻 塞 VO。 


4. 通过 打开 O_ASYNC 标 志 使 能 信号 驱动 JO。 这 可 以 和 上 一 步 合 
并 为 一 个 操作 ， 因 为 它们 都 需要 用 到 fcntlO0 的 FE_SETFL 操 作 〈 见 5.3 
a a 


flags = fcntl(fd, F_GETFL); /* Get current flags */ 
fentl(fd, F_SETFL, flags | O_ASYNC | O_NONBLOCK); 


5. al EREBLZE FY DAT ARIES So SV/OPRTE RAIN, WI% 
为 进程 友 送 一 个 信号 ， 然 后 调用 在 第 1 步 中 安装 好 的 信号 处 理 例 程 。 


6. 信号 驱动 IO 提供 的 是 边缘 触发 通知 〈 见 63.1.1 节 ) 。 这 表示 一 
旦 进程 被 通知 W/O 束 绕 ， 它 就 应 该 尽 可 能 多 地 执行 WO 例如 尽 可 能 多 地 
读 取 字 节 ) 。 假 设 文 件 描述 符 是 非 阻塞 式 的 ， 这 表示 需要 在 循环 中 执行 
IO 系统 调用 直到 失败 为 止 ， 此 时 错误 码 为 EAGAIN 或 
EWOULDBLOCK。 


在 Linux 2.4 版 及 更 早 的 时 候 ， 信 号 驱动 /O 能 应 用 于 套 接 字 、 终 
端 、 伪 终端 以 及 其 他 特定 类 型 的 设备 上 。Linux 2.6 版 上 信号 驱动 /O 还 
可 以 应 用 到 管道 和 FIFO 上 。 自 Linux 2.6.25 版 以 来 ，inotify 文 件 描述 符 上 





也 可 以 使 用 信号 驱动 /OT 了。 


在 下 面 几 页 中 ， 我 们 先 给 出 一 个 使 用 信号 驱动 IO 的 例子 ， 然 后 详 
细 解 释 上 述 这 些 步 又 。 


历史 上 ， 信 和 号 驱动 VO 有 时 也 被 称 为 异步 /JO， 这 一 点 
从 相关 的 打开 文件 标志 (O_ASYNC) 中 就 能 看 出 来 。 但 
是 ， 如 今 术语 异步 WO 是 用 来 表示 由 POSIX AION IU AT HEHE 
的 功能 。 使 用 POSIX AIO 时 ， 进 程 请 求 内 核 执 行 一 次 W/O 操 
作 ， 内 核 启动 该 操作 之 后 立刻 将 控制 权 还 给 调用 进程 ， 稍 
后 当 LO 操 作 完 成 或 有 错误 发 生 时 ， 该 进程 会 得 到 通知 。 





O_ASYNC 在 POSIX.1g 中 指定 ， 但 并 不 包含 在 SUSv3 
中 ， 因 为 对 这 个 标志 所 要 求 的 行为 规范 并 不 足 。 





其 他 一 些 UNIX 实 现 ， 尤 其 是 比较 老 的 实现 中 并 没有 在 
fcnt0 中 定义 O_ASYNC 常 量 。 相 反 ， 这 个 常量 被 命名 为 
FASYNC， 而 glibc 将 这 个 名 字 定 义 为 O_ASYNC 的 别名 。 





示例 程序 


程序 清单 63-3 提 供 了 一 个 使 用 信号 驱动 O 的 简单 例子 。 访 程序 执行 
前 文 描述 的 步骤 ， 在 标准 输入 上 使 能 信号 驱动 TO， 之 后 将 终端 置 为 
cbreak 模 式 〈 见 62.6.3 节 ) ， 这 样 每 次 输入 只 会 有 一 个 字符 。 之 后 程序 进 
入 无 限 循环 ， 所 做 的 工作 就 是 递增 变量 cnt， 同 时 等 待 输入 束 绪 。 当 有 
输入 存在 时 ，SIGIO 信号 处 理 例 程 束 设 定 一 个 标志 gotSigio， 该 标志 由 
主 程序 监控 。 当 主 程序 看 到 该 标志 被 设 定 后 ， 束 读 取 所 有 存在 的 输入 字 
符 并 将 它们 连同 变量 cent 的 当前 值 一 起 打印 出 来 。 如 果 输 入 中 读 取 到 了 
井 字 符 CH) ， 程 序 就 退出 。 





下 面 是 当 我 们 运行 该 程序 时 会 看 到 的 输出 ， 我 们 输入 字符 x 多 次 ， 
最 后 跟着 一 个 井 字 符 (#) 。 


$ ./demo sigio 

cnt=37; read x 

cnt=100; read x 
cnt=159; read x 
cnt=223; read x 
cnt=288; read x 
cnt=333; read # 


程序 清单 63-3: 在 终端 上 使 用 信号 驱动 IO 








altio/demo_sigio.c 


#include <signal.h> 

#include <ctype.h> 

#include <fcntl.h> 

#include <termios.h> 

#include "tty_functions.h" /* Declaration of ttySetCbreak() */ 
#include "tlpi_hdr.h" 


static volatile sig atomic_t gotSigio = 0; 
/* Set nonzero on receipt of SIGIO */ 


static void 
sigioHandler(int sig) 
{ 


} 


gotSigio = 1; 


int 
main(int argc, char *argv[]) 


int flags, j, cnt; 

struct termios origTermios; 
char ch; 

struct sigaction sa; 
Boolean done; 


/* Establish handler for "I/O possible” signal */ 


sigemptyset(&sa.sa_mask) ; 

sa.sa_ flags = SA RESTART; 

sa.sa_handler = sigioHandler; 

if (sigaction(SIGIO, &sa, NULL) == -1) 
errExit("sigaction") ; 


/* Set owner process that is to receive "I/O possible" signal */ 


if (fcnt1(STDIN FILENO, F_SETOWN, getpid()) == -1) 
errExit("fcnt1(F_SETOWN)"); 


/* Enable "I/O possible" signaling and make I/0 nonblocking 
for file descriptor */ 


flags = fcnt1(STDIN FILENO, F _GETFL); 
if (fcnt1(STDIN FILENO, F_SETFL, flags | O ASYNC | O NONBLOCK) == -1) 
errExit("fcnt1(F_SETFL)"); 


/* Place terminal in cbreak mode */ 


if (ttySetCbreak(STDIN FILENO, SorigTermios) == -1) 
errExit("ttySetCbreak"); 


for (done = FALSE, cnt = 0; !done ; cnt++) { 
for (j = 0; j < 100000000; j++) 
continue; /* Slow main loop down a little */ 


if (gotSigio) { /* Is input available? */ 
/* Read all available input until error (probably EAGAIN) 


or EOF (not actually possible in cbreak mode) or a 
hash (#) character is read */ 


while (read(STDIN FILENO, &ch, 1) > 0 && !done) { 
printf("cnt=%d; read %c\n", cnt, ch); 
done = ch == '#'; 


} 
gotSigio = 0; 
} 
/* Restore original terminal settings */ 
if (tcsetattr(STDIN FILENO, TCSAFLUSH, &origTermios) == -1) 


errExit("tcsetattr"); 
exit(EXIT_SUCCESS); 


altio/demo_sigio.c 








在 局 动 信号 驱动 O 前 安装 信和 号 处 理 例 程 


由 于 接收 到 SIGIO 信 号 的 默认 行为 是 终止 进程 运行 ， 因 此 我 们 应 该 
在 启动 信号 驱动 VO 前 先 为 SIGIO 信 号 安装 处 理 例 程 。 如 果 我 们 在 安装 
SIGIO 信 号 处 理 例 程 之 前 先 局 动 了 信号 驱动 WO， 那 么 会 存在 一 个 时 间 间 
险 ， 此 时 如 果 IO 就 绪 的 话 内 核发 送 过 来 的 SIGIO 信 号 就 会 使 进程 终止 运 
行 。 











在 其 他 一 些 UNIX 实 现 上 ， 信 号 SIGIO 的 默认 行为 是 被 


设 定 文 件 摘 述 符 属 主 
我 们 使 用 fcntl0 来 设 定 文件 描述 符 的 属 主 ， 方 式 如 下 。 
fcntl(fd, F_SETOWN, pid); 
我 们 可 以 指定 一 个 单独 的 进程 或 者 是 进程 组 中 的 所 有 进程 在 文件 摘 


述 符 IJO 融 绪 时 收 到 信号 通知 。 如 有 果 参 数 pid 为 正 整 数 ， 就 解释 为 进程 ID 
号 。 如 果 参 数 pid 是 负数 ， 它 的 绝对 值 就 指定 了 进程 组 ID 号 。 








在 老式 的 UNIX 实 现 中 ， 我 们 使 用 ioctlO 的 
FIOSETOWN 或 SIOCSPGRP 操 作 来 实现 同 F_SETOWN 相 同 
的 功能 。 基 于 可 移植 性 考虑 ，Linux 也 支持 这 些 ioctl() 操 
作 。 


通常 会 在 pid 中 指定 调用 进程 的 进程 ID 号 〈 这 样 信号 就 会 发 送 给 打 
开 这 个 文件 描述 符 的 进程 》。 但 是 ， 也 可 以 将 其 指定 为 男 一 个 进程 或 进 


程 组 〈 例 如 ， 调 用 者 进程 组 ) ， 而 信号 会 发 送 给 这 个 目标 ， 取 决 于 如 
20.5 节 中 所 述 的 权限 检查 ， 这 里 发 送 进程 会 作为 完成 F_SETOWN 操 作 的 
进程 。 

当 指 定 的 文件 描述 符 上 可 执行 WO 时 ，fcnt10 的 F_GETOWN 操 作 会 
返回 接收 到 信号 的 进程 或 进程 组 ID 号 。 
id = fcntl(fd, F_GETOWN); 


if Gd == -1) 
errExit("fent1"); 


进程 组 ID 号 以 负数 的 形式 由 该 调用 返回 。 


在 老式 的 UNIX 实 现 中 ， 与 ioctl0 的 F_GETOWN 操 作 相 
对 应 的 操作 是 FIOGETOWN 或 SIOCGPGRP。Linux 也 支持 
这 两 种 ioctl() 操 作 。 





系统 调用 约定 在 某 些 Linux 所 文 持 的 架构 上 【值得 注意 的 是 x86 架 
构 ) 有 一 些 限制 。 这 意味 着 如 果 文 件 描述 符 由 一 个 进程 组 ID 小 于 4096 
的 进程 所 持 有 ， 那 么 fcntl0 的 G_GETOWN 操作 不 会 以 负数 形式 返回 这 
个 ID 号 ，glibc 会 错误 地 认为 这 是 一 个 系统 调用 错误 。 结 果 就 是 ， 
fcntl() 的 包装 函数 会 返回 -1， 同 时 ermo 中 会 包含 该 进程 组 ID〈 正 数 形 
式 ) 。 这 是 因为 内 核 系统 调用 接口 返回 负数 形式 的 ermo 值 作为 函数 返 
回 值 ， 以 此 来 表示 出 现 了 错误 。 而 在 一 些 情况 下 ， 有 必要 将 这 样 的 结果 
同 成 功 调用 后 返回 的 合法 的 负数 值 区 分 开 来 。 要 做 到 区 分 ，glibc KA 
统 调用 返回 的 -1 到 -4095 之 间 的 负数 解释 为 出 现 错误 ， 将 它们 的 值 〈 以 
绝对 值 的 形式 ) 拷贝 到 errno 中 ， 然 后 返回 -1 作为 函数 结果 。 这 种 技术 足 
以 应 对 那些 可 以 合法 返回 负数 值 的 系统 调用 服务 了 。fcntg0 的 
F_GETOWN 操 作 是 唯一 会 出 现 这 种 失败 情况 的 例子 。 这 个 限制 意味 着 
使 用 进程 组 来 接收 “IO 就 绪 ? 信 号 (并 ”不 常见 ) 的 应 用 程序 无 法 可 
靠 地 通过 F_GETOWN 来 获知 该 进程 组 是 否 拥有 一 个 文件 描述 符 。 








自 glibc 2.11 版 之 后 ，fcntl0 包 装 函 数 解决 了 进程 组 ID 号 
小 于 4096 时 的 F_GETOWN 问 题 。 这 是 通过 在 用 户 空 间 使 用 
F_GETOWN_EX〈 见 63.3.2 节 ) 操作 实现 F_GETOWN 来 解 
GRAY. Linux 2.6.32 版 之 后 开始 文 持 F_GETOWN_EX。 


63.3.1 何 时 发 送 “U7O 就 绪 > 信 号 

现在 我 们 针对 多 种 文件 类 型 考虑 何 时 会 发 送 “IO 就 绪 ” 信 号 
终端 和 伪 终 端 

对 于 终端 和 伪 终 端 ， 当 产生 新 的 输入 时 会 生成 一 个 信号 ， 即 使 之 前 
的 输入 还 没有 被 读 取 也 是 如 此 。 如 果 终 端 上 出 现 文件 结尾 的 情况 ， 此 时 
也 会 发 送 “ 输 入 束 绪 ”的 信号 (但 伪 终 端 上 不 会 )。 


po 肖 来 说 没有 “输出 珊 绪 ?的 信号 。 当 终端 断 开 连 接 时 也 不 会 发 


从 2.4.19 版 内 核 开始 ，Linux 对 伪 终 端的 从 设备 端 提 供 了 “输出 束 
绪 " 的 信和 号。 当 伪 终 端 主 设备 侧 读 取 了 输入 后 就 会 产生 这 个 信号 


管道 和 FIFO 
对 于 管道 或 FIFO 的 读 端 ， 信 号 会 在 下 列 情况 中 产生 。 


。 数据 写 入 到 管道 中 (即使 已 经 有 未 读 取 的 输入 存在 〉。 

。 管道 的 写 端 关闭 。 
对 于 管道 或 FIFO 的 写 端 ， 信 号 会 在 下 列 情况 中 产生 。 

。 对 管道 的 读 操作 增加 了 管道 中 的 空余 空间 大 小 ， 因 此 现在 可 以 写 入 
PIPE _BUF 个 字 节 而 不 被 阻塞 。 

。 管道 的 读 端 关闭 。 


ERF 











言 号 驱动 /0O 可 适用 于 UNIX 和 Intermet 域 下 的 数据 报 套 接 字 。 信 号 会 
在 下 列 情 况 中 产生 。 


。 一 个 输入 数据 报到 达 套 接 字 【即使 已 经 有 未 读 取 的 数据 报 正 等 待 读 
取 ) 。 
。 套 接 字 上 发 生 了 异步 错误 。 


信号 驱动 /1O 可 适用 于 UNIX 和 Internet 域 下 的 流 式 套 接 字 。 信 号 会 在 
下 列 情 况 中 产生 。 


。 监听 套 接 字 上 接收 到 了 新 的 连接 。 

e TCP connectO 请 求 完成 ， 也 就 是 TCP 连 接 的 主动 端 进 入 
ESTABLISHED 状 态 ， 如 图 61-5 所 示 。 对 于 UNIX 域 套 接 字 ， 类 似 情 
况 下 是 不 会 发 出 信号 的 。 

。 套 接 字 上 接收 到 了 新 的 输入 (即使 已 经 有 未 读 取 的 输入 存在 〉。 

。 Eik TX mE H shutdown) XA T SER CERA) ， 或 者 通过 
close() 完 全 关闭 。 

。 套 接 字 上 输出 就 绪 ( 例 如 套 接 字 发 送 缓冲 区 中 有 了 空间 〉。 

。 套 接 字 上 友 生 了 异步 错误 。 


inotify 文 件 描述 符 

当 inotify 文 件 描述 符 成 为 可 读 状 态 时 会 产生 一 个 信号 一 也 就 是 由 
inotify 文 件 描 述 符 监视 的 其 中 一 个 文件 上 有 事件 发 生 时 。 
63.3.2 ”优化 信号 驱动 IO 的 使 用 


在 需要 同时 检查 大 量 文件 描述 符 《〈 比 如 数 千 个 ) 的 应 用 程序 中 
例如 茶 种 类 型 的 网 络 服务 端 程 序 一 一 同 select0 和 poll0 相 比 ， 信 号 驱动 
IO 能 提供 显著 的 性 能 优势 。 信 号 驱动 O 能 达到 这 么 高 的 性 能 是 因为 内 
核 可 以 “ 记 住 ?要 检查 的 文件 描述 符 ， 且 仅 当 IO 事件 实际 发 生 在 这 些 文 
件 描述 符 上 时 才 会 向 程序 发 送信 号 。 结 果 就 是 采用 信和 号 驱动 TO 的 程序 
展 ， 而 与 被 检 查 的 文件 描述 符 

和 数量 无 关 。 


要 想 全 部 利用 信号 驱动 O 的 优点 ， 我 们 必须 执行 下 面 两 个 步骤 。 
。 通过 专属 于 Linux 的 fentl() F_SETSIG 操 作 来 指定 一 个 实时 信号 ， 当 









































文件 描述 符 上 的 MO 就 绪 时 ， 这 个 实时 信号 应 该 取代 SIGIO 被 发 送 。 
e 使 用 sigaction0 安 装 信号 处 理 例 程 时 ， 为 前 一 步 中 使 用 的 实时 信和 号 
指定 SA_SIGINEFO 标 记 〈 见 21.4 节 ) 。 


fcntlO0 的 FE_SETSIG 操 作 指 定 了 一 个 可 选 的 信号 ， 当 文件 描述 符 上 的 
IO 就 绪 时 会 取代 SIGIO 信 和 号 被 发 送 。 


if (fcntl(fd, F_SETSIG, sig) == -1) 
errExit("fentl"); 


F_GETSIG 操 作 完 成 的 任务 同 F_SETSIG 相 反 ， 它 取 回 当前 为 文件 描 
述 符 指定 的 信号。 


sig = fentl(fd, F_GETSIG); 
if (sig == -1) 
errExit("fentl"); 





(为 了 在 头 文件 <fcntlh> 中 得 到 F_SETSIG 和 F_GETSIG 的 定义 ， 
我 们 必须 定义 测试 宏 _GNU_SOURCE。) 





使 用 F_SETSIG 来 改变 用 于 通知 “LO 就 绕 ” 的 信号 有 两 个 理由 ， 如 果 
a ea eee Cray 这 两 个 理由 都 是 必 
ANDY o 


。 默认 的 “IO 就 绪 ” 信 号 SIGIO 是 标准 的 非 排 队 信号 之 一 。 如 果 有 多 个 
VO 事件 发 送 了 信和 号， 而 SIGIO 被 阻塞 了 一 一 也 许 是 因为 SIGIO 信 号 
的 处 理 例 程 已 经 被 调用 了 除了 第 一 个 通知 外 ， 其 他 后 序 的 通知 
都 会 丢失 。 如 果 我 们 通过 F_SETSIG 来 指定 一 个 实时 信和 号 作为 “IO 
就 绪 ” 的 通知 信号 ， 那 么 多 个 通知 就 能 排队 处 理 。 
如 果 信 号 处 理 例 程 是 通过 sigaction() 来 安装 ， 且 在 sa.sa_flags 字段 
中 指定 了 SA_SIGINFO 标志 ， 那 么 结构 体 siginfo_t 会 作为 第 二 个 参 
数 传递 给 信号 处 理 例 程 〈 见 21.4 节 ) 。 这 个 结构 体 包 含 的 字段 标识 
出 了 在 哪个 文件 描述 符 上 发 生 了 事件 ， 以 及 事件 的 类 型 。 





注意 ， 需 要 同时 使 用 F_SETSIG 以 及 SA_SIGINFO 才 能 将 一 个 合法 的 
siginfo_t 结 构 体 传递 到 信号 处 理 例 程 中 去 。 


如 果 我 们 做 FE_SETSIG 操 作 时 将 参数 sig 指 定 为 0， 那 么 将 导致 退回 到 
默认 的 行为 :发 送 的 信号 仍然 是 SIGIO， 而 且 结构 体 siginfo_t 将 不 会 传 
递 给 信号 处 理 例 程 。 


对 于 “IO 就 绪 " 事 件 ， 传 递 给 信号 处 理 例 程 的 结构 体 siginfo_t 中 与 之 
相关 的 字段 如 下 。 


e si signo: 引发 信号 处 理 例 程 得 到 调用 的 信号 值 。 这 个 值 同 信号 处 
理 例 程 的 第 一 个 参数 一 致 。 

e si fd: 发 生 IMO 事 件 的 文件 描述 符 。 

e si_code: 表示 发 生 事 件 类 型 的 代码 。 该 字段 中 可 出 现 的 值 以 及 它们 
的 描述 参见 表 63-7。 

e si band: 一 个 位 掩 码 。 其 中 包含 的 位 和 系统 调用 poll0 中 返回 的 
revents 字段 中 的 位 相同 。 如 表 63-7 所 示 ，si_code 中 可 出 现 的 值 同 
si_band 中 的 位 掩 码 有 着 一 一 对 应 的 关系 。 


表 63-7: 结构 体 siginfo_t 中 si_code 和 si_band 字 上 段 的 可 能 值 


si_band 掩 码 值 
AA. Tr E jE 
POLL IN |POLLIN | POLLRDNORM oa SNP 
POLLOUT | POLLWRNORM rer 
有 JAA H 









































P 
POLL_ERR |POLLERR IO 错误 
POLL_PRI |POLLPRI | POLLRDNORM 存在 高 优先 级 输入 


POLL_HUP |POLLHUP | POLLERR 出 现 宕 机 


在 一 个 纯 输 入 驱动 的 应 用 程序 中 ， 我 们 可 以 进一步 优化 使 用 





-AN VE 自 
OLL_MSG |POLLIN | POLLRDNORM | POLLMSG lies (ME 








F_SETSIG. RIY ARFER H VOmtzG aS, Ala 
sigwaitinfo()2Ksigtimedwait() (122.1077) 来 接收 排队 中 的 信号 。 这 些 


系统 调用 返回 的 siginfo_t 结 构 体 所 包含 的 信息 同 传递 给 信号 处 理 例 程 的 
siginfo_t 结 构 体 一 样 。 以 这 种 方式 接收 信号 ， 我 们 实际 是 以 同步 的 方式 
在 处 理事 件 ， 但 同 select0 和 pol0O 相 比 ， 这 种 方法 能 够 高 效 地 获知 文件 摘 
述 符 上 发 生 的 IO 事件 。 


言 号 队列 溢出 的 处 理 


我 们 在 22.8 节 中 已 经 知道 ， 可 以 排队 的 实时 信和 号 的 数量 是 有 限 的 。 
如 果 达 到 这 个 上 限 ， 内 核对 于 “IO 就 绪 ” 的 通知 将 恢复 为 默认 的 SIGIO 信 
号 。 出 现 这 种 现象 表示 信号 队列 溢出 了 。 当 出 现 这 种 情况 时 ， 我 们 将 失 
去 有 关 文 件 描 述 符 上 发 生 IMO 事 件 的 信息 ， 因 为 SIGIO 信 和 号 是 不 会 排队 
的 。《〈 此 外 ，SIGIO 的 信号 处 理 例 程 不 接受 siginfo_t 结 构 体 参数 ， 这 意 
味 着 信号 处 理 例 程 不 能 确定 是 哪 一 个 文件 描述 符 上 产生 了 信号 。) 


根据 22.8 节 中 所 述 ， 我 们 可 以 通过 增加 可 排队 的 实时 信和 号 数量 的 
限制 来 减 小 信号 队列 溢出 的 可 能 性 。 但 是 这 并 不 能 完全 消除 溢出 的 可 
能 。 一 个 设计 和 良好 的 采用 F_SETSIG 来 建立 实时 信号 作为 “IO 就 绪 ? 通 知 
的 程序 必须 也 要 为 信号 SIGIO 安 装 处 理 例 程 。 如 果 发 送 了 SIGIO 信 号 ， 
那么 应 用 程序 可 以 先 通 过 sigwaitinfo() 将 队列 中 的 实时 信号 全 部 获取 ， 然 
后 临时 切换 到 select0 或 polO0， 通 过 它们 获取 剩余 的 发 生 IO 事 件 的 文件 
描述 符 列 表 。 

在 多 线程 程序 中 使 用 信号 驱动 /O 
从 2.6.32 版 内 核 开 始 ，Linux 提 供 了 两 个 新 的 非 标 准 的 fcnt10) 操 作 ， 


可 用 于 设 定 接收 “LO 就 绪 ” 信 号 的 目标 ， 它 们 是 F_SETOWN_EX 和 
F GETOWN EX. 











F_SETOWN_EX 操 作 类 似 于 F_SETOWN， 但 除了 人 允许 指定 进程 或 
进程 组 作为 接收 信号 的 目标 外 ， 它 还 可 以 指定 一 个 线程 作为 “1/O 就 
sale ‘y 的 目标 。 对 于 这 个 操作 ，fcnt10 的 第 三 个 参数 为 指向 如 下 结构 体 

‘ 3 : 


struct f_owner_ex { 
int type; 
pid t pid; 

}; 








结构 体 中 type 字 上 段 定义 了 pid 的 类 型 ， 它 可 以 有 如 下 儿 种 值 。 


F_OWNER_PGRP 
字段 pid 指 定 了 作为 接收 “IO 就 绪 ? 信 号 的 进程 组 ID。 与 F_SETOWN 
不 同 的 是 ， 这 里 进程 组 ID 指定 为 一 个 正 整数 。 
F_OWNER_PID 
字段 pid 指 定 了 作为 接收 “IO 就 绪 ? 信 和 号 的 进程 ID。 
F_OWNER_TID 


字段 bid 指定 了 作为 接收 “VO 就 绪 ? 信 号 的 线程 ID。 这 里 pid 的 值 为 
clone() 或 getpid() 的 返回 值 。 


F_GETOWN_EX 为 F_SETOWN_EX 的 道 操 作 。 它 使 用 fcntl0 的 第 三 


个 参数 所 指 癌 的 结构 体 f_owner_ex 来 返回 之 前 由 F_SETOWN_EX 操 作 所 
定义 的 设置 。 


为 F_SETOWN_EX 和 F_GETOWN_EX 操 作 以 正 整 数 
来 代表 进程 组 ID， 所 以 FE_GETOWN_EX 将 不 会 遇 到 之 前 在 
描述 FE_GETOWN 操 作 时 说 到 的 进程 组 ID 小 于 4096 时 会 出 现 
的 问题 。 


63.4 epoll 编 程 接口 


同 MO 多 路 复 用 和 信和 号 驱动 IO 一 样 ，Linux 的 epoll (event poll) API 
可 以 检查 多 个 文件 描述 符 上 的 MO 就 绪 状 态 。epoll API 的 主要 优点 如 下 。 


。 当 检 的 文件 描述 符 时 ，epoll 的 性 能 延展 性 比 select0 和 pollO 高 
很 


e epoll API 既 文 持 水 平 触发 也 支持 边缘 触发 。 与 之 相反 ，select() 和 
poll0 只 文 持 水 平 触发 ， 而 信号 驱动 1O 只 支持 边缘 触发 。 


性 能 表现 上 ，epoll 同 信号 驱动 WO 相似 。 但 是 ，epoll 有 一 些 胜 过 信 
号 驱动 IO 的 优点 。 


。 可 以 避免 复杂 的 信号 处 理 流 程 〈 比 如 信号 队列 溢出 时 的 处 理 ) 。 
。 灵活 性 高 ， 可 以 指定 我 们 希望 检查 的 事件 类 型 (例如 ， 检 查 套 接 字 
文件 描述 符 的 读 就 绪 、 写 就 绪 或 者 两 者 同时 指定 ) 。 
epoll API 是 Linux 系统 专 有 的 ， 在 2.6 版 中 新 增 。 
epoll API 的 核心 数据 结构 称 作 epoll 实例 ， 它 和 一 个 打开 的 文件 描 
述 符 相 关联 。 这 个 文件 描述 符 不 是 用 来 做 IO 操作 的 ， 相 反 ， 它 是 内 核 
数据 寺 构 的 句柄 ， 这 些 内 核 数 据 结构 实现 了 两 个 目的 。 
。 记 录 了 在 进程 中 声明 过 才 的 感 兴趣 的 文件 描述 符 列 表 


list〈 兴 趣 列表 ) 。 
e AEP T IE FORA st CPR RRR ready list〈 就 绪 列 
yg 











interest 








ready list 中 的 成 员 是 interest list 的 子 集 。 


对 于 由 epoll 检查 的 每 一 个 文件 描述 符 ， 我 们 可 以 指定 一 个 位 掩 码 
来 表示 我 们 感 兴 直 的 事件。 这 些 位 闪 码 同 pou0 所 全 用 的 位 得 有 着 紧 
密 的 关联 。 


epoll API 由 以 下 3 个 系统 调用 组 成 。 
。 系统 调用 epoll_create() 创 建 一 个 epoll 实 例 ， 返 回 代 表 该 实例 的 文件 





描述 符 。 

。 系统 调用 epoll_ctl0 操 作 同 epoll 实 例 相 关联 的 兴趣 列表 。 通 过 
epoll_cttO， 我 们 可 以 增加 新 的 描述 符 到 列表 中 ， 将 已 有 的 文件 描述 
符 从 该 列表 中 移 除 ， 以 及 修改 代表 文件 描述 符 上 事件 类 型 的 位 掩 
码 


。 系 统 调用 epoll_wait0 返 回 与 epoll 实 例 相 关联 的 就 绪 列 表 中 的 成 员 。 
63.4.1 创建 epoll 实 例 : epoll_create() 


系统 调用 epoll_create() 创 建 了 一 个 新 的 epoll 实 例 ， 其 对 应 的 兴趣 列 
表 初 始 化 为 空 。 





#include <sys/epoll.h> 


int epoll create(int size); 








Returns file descriptor on success, or -1 on error 





参数 size 指 定 了 我 们 想 要 通过 epoll 实 例 来 检查 的 文件 描述 符 个 数 。 
该 参数 并 不 是 一 个 上 限 ， 而 是 告诉 内 核 应 该 如 何 为 内 部 数据 结构 划分 初 
始 大 小 。〔 从 Linux 2.6.8 版 以 来 ，size 参 数 被 忽略 不 用 ， 因 为 内 核实 现 做 
了 修改 意味 着 该 参数 之 前 提供 的 信息 已 经 不 再 需要 了 。 ) 


作为 函数 返回 值 ，epoll_create0 返 回 了 代表 新 创建 的 epol 实 例 的 文 
件 描述 符 。 这 个 文件 摘 述 符 在 其 他 几 个 epol] 系 统 调 用 中 用 来 表示 epol 实 
例 。 当 这 个 文件 描述 符 不 再 需要 时 ， 应 该 通过 close(0) 来 关闭 。 当 所 有 与 
epol 实例 相 关 的 文件 描述 符 都 被 关闭 时 ， 实 例 被 销毁 ， 相 关 的 资源 都 返 
还 给 系统 。《【 多 个 文件 摘 述 符 可 能 引用 到 相同 的 epoll 实 例 ， 这 是 由 于 调 
用 了 fork0 或 者 dupO0 这 样 类 似 的 函数 所 致 。) 








从 2.6.27 版 内 核 以 来 ，Linux 支 持 了 一 个 新 的 系统 调用 
epoll_create1()。 该 系统 调用 执行 的 任务 同 epoll_create() 一 
样 ， 但 是 去 掉 了 无 用 的 参数 size， 并 增加 了 一 个 可 用 来 修改 
系统 调用 行为 的 flags 参 数 。 目 前 只 支持 一 个 flag 标 志 : 
EPOLL_CLOEXEC， 它 使 得 内 核 在 新 的 文件 描述 符 上 局 动 


了 执行 即 关 闭 (close-on-exec) 标志 (FD_CLOEXEC) 。 
出 于 同样 的 原因 ， 这 个 标志 同 4.3.1 节 中 描述 的 open() 的 
O_CLOEXEC 标 志 一 样 有 用 。 


63.4.2 ”修改 epoll 的 兴趣 列表 : epoll_ctl() 


系统 调用 epoll_ctlO0 能 够 修改 由 文件 描述 符 epfd 所 代表 的 epol 实 例 中 
的 兴趣 列表 。 





#include <sys/epoll.h> 


int epoll_ctl(int epfd, int op, int fd, struct epoll_event *ev); 


Returns 0 on success, or -1 on error 











参数 fd 指明 了 要 修改 兴趣 列表 中 的 哪 一 个 文件 描述 符 的 设 定 。 该 参 
数 可 以 是 代表 管道 、FIFO、 套 接 字 、POSIX 消 息 队 列 、inotify 实 例 、 终 
端 、 设 备 ， 甚 至 是 另 一 个 epol 实 例 的 文件 描述 符 〈 例 如 ， 我 们 可 以 为 受 
检查 的 描述 符 建 立 起 一 种 层次 关系 ) 。 但 是 ， 这 里 fd 不 能 作为 普通 文件 
或 目录 的 文件 描述 符 ( 会 出 现 EPERM 错 误 ) 。 


参数 op 用 来 指定 需要 执行 的 操作 ， 它 可 以 是 如 下 几 种 值 。 
EPOLL_CTL_ADD 


将 描述 符 fd 添加 到 epoll 实 例 epfd 中 的 兴趣 列表 中 去 。 对 于 fd 上 我 们 
感 兴趣 的 事件 ， 都 指定 在 ev 所 指向 的 结构 体 中 ， 下 面 会 详细 介绍 。 如 果 
我 们 试图 同 兴 趣 列表 中 添加 一 个 已 存在 的 文件 摘 述 符 ，epoll_ctl0 将 出 现 
EEXIST 错 误 。 





EPOLL_CTL_MOD 


修改 摘 述 符 fdQ 上 设 定 的 事件 ， 需 要 用 到 由 ev 所 指向 的 结构 体 中 的 信 
上 县。 如 果 我 们 试图 修改 不 在 兴趣 列表 中 的 文件 描述 符 ，epoll_ctlO 将 出 现 
ENOENT 错 误 。 


EPOLL_CTL_DEL 


将 文件 摘 述 符 fd 从 epfd 的 兴趣 列表 中 移 除 。 该 操作 忽略 参数 ev。 如 
果 我 们 试图 移 除 一 个 不 在 epfd 的 兴趣 列表 中 的 文件 摘 述 符 ，epoll_ct10 将 
出 现 ENOENT 错 误 。 关 闭 一 个 文件 描述 符 会 自动 将 其 从 所 有 的 epoll 实 例 
的 兴趣 列表 中 移 除 。 
参数 ev 是 指向 结构 体 epoll_event 的 指针 ， 结 构 体 的 定义 如 下 。 
struct epoll event { 
uint32 t events; /* epoll events (bit mask) */ 
epoll data t data; /* User data */ 
}; 
结构 体 epoll_event 中 的 data 字 段 的 类 型 为 : 


typedef union epoll data { 


void *ptr; /* Pointer to user-defined data */ 
int fd; /* File descriptor */ 
uint32_t u32; /* 32-bit integer */ 
uint64_t u64; /* 64-bit integer */ 


} epoll data t; 
参数 ev 为 文件 描述 符 fd 所 做 的 设置 如 下 。 


e 结构 体 epoll_event 中 的 events 字段 是 一 个 位 掩 码 ， 它 指定 了 我 们 
为 竺 检查 的 描述 符 fd 上 所 感 兴趣 的 事件 集合 。 我 们 将 在 下 一 节 中 
说 明 该 字段 可 使 用 的 掩 码 值 。 

e data 字 上 段 是 一 个 联合 体 ， 当 插 述 符 fd 稍 后 成 为 束 绪 态 时 ， 联 合体 的 
成 员 可 用 来 指定 传 回 给 调用 进程 的 信息 。 


程序 清单 63-4 展 示 了 一 个 使 用 epoll_create0 和 epoll_ctO 的 例子 。 


程序 清单 63-4: 使 用 epoll_create0 和 epoll_ctl0) 











int epfd; 
struct epoll event ev; 


epfd = epoll_create(5); 
if (epfd == -1) 
errExit("epoll create"); 


ev.data.fd = fd; 

ev.events = EPOLLIN; 

if (epoll_ctl({epfd, EPOLL_CTL_ADD, fd, ev) == -1) 
errExit("epoll ctl"); 





max_user_watches | BE 


因为 每 个 注册 到 epoll 实例 上 的 文件 描述 符 需 要 占用 一 小 段 不 能 被 
交换 的 内 核 内 存 空 间 ， 因 此 内 核 提 供 了 一 个 接口 用 来 定义 每 个 用 户 可 以 
注册 到 epoll 实例 上 的 文件 描述 符 总 数 。 这 个 上 限 值 可 以 通过 
max_user_watches 来 查看 和 修改 。max_user_ watches 是 专属 于 Linux 系 统 
的 /proc/sys/fd/epoll 目 录 下 的 一 个 文件 。 默 认 的 上 限 值 根据 可 用 的 系统 内 
存 来 计算 得 出 (参见 epoll(7) 的 用 户 手册 页 〉。 





63.4.3 ”事件 等 待 : epoll_wait() 


系统 调用 epoll_wait() 返 回 epoll 实 例 中 处 于 整 绪 态 的 文件 换 述 符 信 
晨 。 单 个 epoll_wait0) 调 用 能 返回 多 个 就 绪 态 文件 描述 符 的 信息 。 








#include <sys/epoll.h> 


int epoll_wait(int epfd, struct epoll event *eviist, int maxevenis, int timeout); 


Returns number of ready file descriptors, 0 on timeout, or -1 on error 














参数 evlist 所 指 问 的 结构 体 数组 中 返回 的 是 有 关 就 绪 态 文件 描述 符 的 
ae. 《结构 体 epoll_event 已 经 在 上 一 节 中 描述 。) 数组 evlist 的 空间 由 
调用 者 负 贡 申请 ， 所 包含 的 元 素 个 数 在 参数 maxevents 中 指定 。 


在 数组 evlist 中 ， 每 个 元 素 返 回 的 都 是 单个 就 绪 态 文件 描述 符 的 信 
A 。events 字 段 返 回 了 在 该 描述 符 上 已 经 发 生 的 事件 手 码 。Data 字段 返 
回 的 是 我 们 在 描述 符 上 使 用 cpoll_ct10 注 册 感 兴趣 的 事件 时 在 ev.data 中 
所 指定 的 值 。 注 意 ，data 字 段 是 唯一 可 获知 同 这 个 事件 相关 的 文件 描述 





符号 的 途径 。 因 此 ， 当 我 们 调用 epoll_ctl0 将 文件 描述 符 添 加 到 兴趣 列表 
中 时 ， 应 该 要 人 么 将 ev data.fd 设 为 文件 描述 符号 《如 程序 清单 63- 4 中 所 
AX) ， 要 么 将 ev.data.ptr 设 为 指 疝 包含 文件 搬 述 符号 的 结构 体 。 


参数 timeout 用 来 确定 epoll_waitO 的 阻塞 行为 ， 有 如 下 几 种 。 


e 如 果 timeout 等 于 -1， 调 用 将 一 直 阻 塞 ， 直 到 兴趣 列表 中 的 文件 描述 
符 上 有 事件 产生 ， 或 者 直到 捕获 到 一 个 信号 为 止 。 

e 如 果 timeout 等 于 0， 执 行 一 次 非 阻 塞 式 的 检查 ， 看 兴趣 列表 中 的 文 
件 描述 符 上 产生 了 哪个 事件 。 

e 如 果 timeout 大 于 0， 调 用 将 阻塞 至 多 timeout 蝇 秒 ， 直 到 文件 摘 述 符 
上 有 事件 发 生 ， 或 者 直到 捕获 到 一 个 信号 为 止 。 


调用 成 功 后 ，epoll_wait() 返 回 数组 evlist 中 的 元 素 个 数 。 如 果 在 
timeout 超 时 间隔 内 没有 任何 文件 摘 述 符 处 于 就 绪 态 的 话 ， 返 回 0。 出 错 
时 返回 -1， 并 在 ermno 中 设 定 错误 码 以 表示 错误 原因 。 


在 多 线程 程序 中 ， 可 以 在 一 个 线程 中 使 用 epoll_ cu0 将 文件 描述 Fe US 
加 到 男 一 个 线程 中 由 epoll_wait0 所 监视 的 epoll 实 例 的 兴趣 列表 中 去 。 这 
些 对 兴趣 列表 的 修改 将 立刻 得 到 处 理 ， 而 epoll_waitO 调 用 将 返回 有 关 新 
添加 的 文件 描述 符 的 就 绪 信 息 。 


epoll 事 件 


当 我 们 调用 epoll_ctl0 时 可 以 在 ev.events 中 指定 的 位 掩 码 以 及 由 
epoll_wait() 返 回 的 evlist[].events 中 的 值 在 表 63-8 中 给 出 。 除 了 有 一 个 额 
外 的 前 组 E 外 ， 大 多 数 这 些 位 撼 码 的 名 条 称 同 pollo 中 对 应 的 事件 掩 码 名 称 
相同 。〔 例 外 情况 是 EPOLLET 和 EPOLLONESHOT， 下 面 我 们 会 给 出 
更 详细 的 说 明 。) 这 种 名 称 上 有 着 对 应 关系 的 原因 是 当 我 们 在 
epoll_ctl0) 中 指定 输入 ， 或 通过 epoll_wait0) 得 到 输出 时 ， 这 些 比 特 位 表达 
的 意思 同 对 应 的 poll0 的 事件 掩 码 所 表达 的 意思 一 样 。 


表 63-8: epoll 中 events 字 段 上 的 位 掩 码 值 

















EPOLLIN 可 读 取 非 高 优先 级 的 数据 


套 接 字 对 端 关闭 ( 始 于 Linux 
ra 


























EPOLLONESHOT E 


EPOLLONESHOT 标 志 








默认 情况 下 ， 一 旦 通过 epoll_ ctl0 的 EPOLL_CTL_ADD 操 作 将 文件 
描述 符 添 加 到 epol 实 例 的 兴趣 列表 中 后 ， 它 会 保持 激活 状态 〈 即 ， 之 后 
对 epoll_wait0 的 调用 会 在 摘 述 符 处 于 就 绪 态 时 通知 我 们 ) 直到 我 们 显 式 
地 通过 epoll_ctl(0) 的 EPOLL_CTL_DEL 操作 将 其 从 列表 中 移 除 。 如 果 我 
们 希望 在 某 个 特定 的 文件 描述 符 上 只 得 到 一 次 通知 ， 那 么 可 以 在 传 给 
epoll_ctlO#) ev.events 中 指 定 EPOLLONESHOT (MM Linux 2.6.2 版 开始 支 
持 ) 标记。 如 果 指 定 了 这 个 标志 ， 那 么 在 下 一 个 epoll_wait0 调 用 通知 我 
们 对 应 的 文件 描述 符 处 于 就 绪 态 之 后 ， 这 个 描述 符 就 会 在 兴趣 列表 中 被 
标记 为 非 激 活 态 ， 之 后 的 epoll_waitO 调 用 都 不 会 再 通知 我 们 有 关 这 个 描 
述 符 的 状态 了 。 如 果 需 要 ， 我 们 可 以 稍 后 通过 epoll_ctl0 的 
EPOLL_CTL_MOD 操 作 重 新 激活 对 这 个 文件 描述 符 的 检查 。 〈 这 种 情 
况 下 不 能 用 EPOLL_CTL We 因为 非 激活 态 的 文件 描述 符 仍然 还 
在 epoll 实 例 的 兴趣 列表 中 。 


程序 示例 











程序 清单 63-5 展 示 了 应 该 如 何 使 用 epoll API。 命 令 行 参数 表示 该 程 
序 期 望 得 到 一 个 或 多 个 终端 或 者 FIFO 的 路 径 名 。 该 程序 执行 如 下 步骤 。 


。 创建 一 个 epol 实 例 GD。 

。 打开 由 命令 行 参数 指定 的 每 个 文件 ， 以 此 作为 输入 凶 ， 并 将 得 到 的 
文件 描述 符 添 加 到 epoll 实 例 的 兴趣 列表 中 人 的。 将 需要 检查 的 事件 集 
合 设 定 为 EPOLLIN。 

。 执行 一 个 循环 4)， 在 循环 中 调用 epoll_wait0)@@ 来 检查 epoll 实 例 的 兴 
趣 列表 中 的 文件 描述 符 ， 并 处 理 每 个 调用 返回 的 事件 。 对 于 这 个 循 


环 ， 











请 注意 以 下 几 点 。 


o 在 epoll_waitO 调 用 之 后 ， 程 序 检 碍 是 否 返 回 了 EINTR 错误 码 


O 〇 


O 〇 





©. WFE epoll_wait0 调 用 执行 期 间 程序 被 一 个 信号 打 断 ， 之 
后 义 通 过 SIGCONT 信 与 恢复 执行 ， 此 时 就 可 能 出 现 这 个 错误 
〈 见 21.5 节 ) 。 如 果 出 现 这 种 情况 ， 程 序 会 重新 调用 
epoll_wait(). 

如 果 epoll_wait0 调 用 成 功 ， 程 序 就 再 执行 一 个 内 层 循环 检查 
evlist 中 每 个 已 就 绪 的 元 素 。 对 于 evlist 中 的 每 个 元 系 ， 程 序 不 
只 是 检查 events 字段 中 的 EPOLLIN 标记 (@，EPOLLHUP 和 和 
EPOLLERRG) 标 记 也 要 检查 。 后 两 种 事件 会 在 FIFO 的 对 端 关 
闭 ， 或 者 当 终端 挂 起 时 出 现 。 如 果 返 回 的 是 EPOLLIN， 程 序 从 
对 应 的 文件 描述 符 中 读 取 一 些 输入 并 在 标准 输出 上 打印 出 来 。 
否则 ， 如 果 返 回 的 是 EPOLLHUP 或 EPOLLERR， 程 序 就 关闭 对 
应 的 文件 描述 符 (0 并 递减 打开 文件 数 的 统计 量 
(numOpenFds) 。 

当 所 有 打开 的 文件 描述 符 都 被 关闭 后 ， 循 环 终止 〈 当 
numOpenFds 等 于 0 时 ) 。 











下 面 的 shell 会 话 演示 了 程序 清单 63-5 中 所 示 程 序 的 使 用 。 我 们 用 
到 了 两 个 终端 窗口 ， 在 其 中 一 个 窗口 上 用 该 程序 来 检查 两 个 FIFO 文 件 的 


输入 。 





《如 44.7 节 中 描述 的 ， 程 序 打开 的 每 个 FIFO 文 件 ， 其 读 操 作 只 会 


在 另 一 个 进程 打开 FIFO 文 件 做 写 操作 后 才能 完成 ) 在 另外 一 个 窗口 上 ， 
我 们 运行 cat(1) 程 序 将 数据 写 到 这 些 FIFO 中 去 。 


Terminal window 1 Terminal window 2 

$ mkfifo p q 

$ ./epoll_input p q 
$ cat > p 

Opened "p" on fd 4 
Type Control-Z to suspend cat 
[1]+ Stopped cat >p 
$ cat > q 

Opened "q" on fd 5 

About to epoll wait() 

Type Control-Z to suspend the epoll_input program 

[1]+ Stopped -/epoll input p q 


在 上 述 步 又 中 ， 我 们 暂停 了 监测 程序 ， 这 样 我 们 可 以 在 两 个 FIFO 上 
产生 输入 ， 然后 关闭 其 中 一 个 FIFO 的 写 端 。 


qqq 

Type ControLD to terminate “cat > q” 
$ fg %1 

cat >p 

PPP 


ne 旺 序 带 入 前 台 恢 复 其 运行 ， 此 时 epollL_wait0 将 返 
回 两 i 


$ fg 
-/epoll_ input p q 
About to epoll_wait() 
Ready: 2 
fd=4; events: EPOLLIN 
read 4 bytes: ppp 


fd=5; events: EPOLLIN EPOLLHUP 
read 4 bytes: qqq 


closing fd 5 
About to epoll wait() 


上 面 输出 结果 中 的 两 个 空 行 是 cat 程 序 实例 读 取 的 换行 符 ， 写 入 
FIFO 中 之 后 由 监测 程序 读 取 并 回 显 在 终端 输出 上 。 


现在 我 们 在 第 二 个 终端 窗口 输入 Ctrl-D 来 终止 剩 下 的 cat 程序 实 
例 ， 这 将 导致 epoll_wait() 再 次 返回 ， 这 次 只 有 一 个 事件 。 








Type Control-D to terminate “cat >p” 
Ready: 1 
fd=4; events: EPOLLHUP 
closing fd 4 
All file descriptors closed; bye 








程序 清单 63-5: 使 用 epoll API 





© 


altio/epoll_ input.c 
#include <sys/epoll.h> 


#include <fcntl.h> 
#include "tlpi_hdr.h" 


#tdefine MAX_BUF 1000 /* Maximum bytes fetched by a single read() */ 
#define MAX_EVENTS 5 /* Maximum number of events to be returned from 
a single epoll wait() call */ 


int 
main(int argc, char *argv[]) 


int epfd, ready, fd, s, j, numOpenFds; 
struct epoll event ev; 

struct epoll event evlist[MAX EVENTS]; 
char buf[MAX BUF]; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s file...\n", argv[0]); 


epfd = epoll create(arge - 1); 
if (epfd == -1) 
errExit("epoll create"); 


/* Open each file on command line, and add it to the “interest 
list" for the epoll instance */ 


for (j = 1; j < argc; j++) { 
fd = open(argv[j], 0 RDONLY); 
if (fd = -1) 
errExit("open"); 
printf("Opened \"%s\" on fd %d\n", argv[j], fd); 


ev.events = EPOLLIN; /* Only interested in input events */ 
ev.data.fd = fd; 
if (epoll_ctl(epfd, EPOLL_CTL_ADD, fd, &ev) == -1) 
errExit("epoll ctl"); 
} 


numOpenFds = argc - 1; 
while (numOpenFds > 0) { 
/* Fetch up to MAX_EVENTS items from the ready list */ 


printf("About to epoll wait()\n"); 
ready = epoll wait(epfd, evlist, MAX EVENTS, -1); 
if (ready == -1) { 
if (errno == EINTR) 
continue; /* Restart if interrupted by signal */ 
else 
errExit("epoll wait"); 


printf("Ready: %d\n", ready); 
/* Deal with returned list of events */ 
D for (j = 0; j < ready; j++) { 


printf(" fd=%d; events: %s%s%s\n", evlist[j Ja data. fd, 
(evlist[j].events & EPOLLIN) ? "EPOLLIN” :"" 


` 


(evlist[j].events & EPOLLHUP) ? "EPOLLHUP " : "", 
(evlist[j].events & EPOLLERR) ? "EPOLLERR " : ""); 
if (evlist[j] .events & EPOLLIN) { 
s = read(evlist[j].data.fd, buf, MAX_BUF); 
if (s == -1) 


errExit("read"); 
printf(" read %d bytes: %.*s\n", s, s, but); 


© } else if (evlist[j].events & (EPOLLHUP | EPOLLERR)) { 


/* If EPOLLIN and EPOLLHUP were both set, then there might 
be more than MAX BUF bytes to read. Therefore, we close 
the file descriptor only if EPOLLIN was not set. 

We'll read further bytes after the next epoll wait(). * 


printf(" closing fd %d\n", evlist[j].data. fd); 
W if (close(evlist[j].data.fd) == -1) 
errExit("close"); 
numOpenFds - - ; 


} 
} 


printf("All file descriptors closed; bye\n"); 
exit(EXIT SUCCESS); 


altio/epoll_input.c 
63.4.4 深入 探 完 epol 的 语义 


现在 我 们 来 看 看 打开 的 文件 同文 件 摘 述 符 以 及 epoll 之 间 交 互 的 一 
些 细 微 之 处 。 基 于 本 次 讨论 的 目的 ， 回 顾 一 下 图 5-2 中 展示 的 文件 摘 述 
符 ， 打 开 的 文件 描述 (file description) ， 以 及 整个 系统 的 文件 i-node 表 
之 间 的 关系 。 


当 我 们 通过 epoll_createO 创 建 一 个 epol 实 例 时 ， 内 核 在 内 存 中 创建 
了 一 个 新 的 i- node 并 打开 文件 持 述 ， 随后 在 调用 进程 中 为 打开 的 这 个 文 
件 描述 分 配 一 个 新 的 文件 描述 符 。 同 epoll 实例 的 兴趣 列表 相关 联 的 是 


打开 的 文件 描述 ， 而 不 是 epoll 文件 描述 符 。 这 将 产生 下 列 结 


。 如 果 我 们 使 用 dupO0 《或 类 似 的 函数 ) 复制 一 个 epoll 文 件 描述 符 ， 那 
么 被 复制 的 描述 符 所 指 代 的 epoll 兴 趣 列表 和 束 绪 列表 同 原 始 的 epoll 
文件 摘 述 符 相 同 。 知 要 修改 兴趣 列表 ， 在 epoll_ctl0 的 参数 epfd 上 设 
定 文 件 描述 符 可 以 是 原始 的 也 可 以 是 复制 的 。 

上 一 条 观点 同样 也 适用 于 forkO 调 用 之 后 的 情况 。 此 时 子 进程 通过 
继承 复制 了 父 进 程 的 epoll 文 件 描述 符 ， 而 这 个 复制 的 文件 描述 符 所 
指向 的 epoll 数 据 结 构 同 原始 的 描述 符 相 同 。 


当 我 们 执行 epoll_ctO0 的 EPOLL_CTL_ADD 操作 时 ， 内 核 在 epoll 兴 
趣 列 表 中 添加 了 一 个 元 素 ， 这 个 元 素 同时 记录 了 需要 检查 的 文件 描述 符 
数量 以 及 对 应 的 打开 文件 描述 的 引用 。epoll_wait0 调 用 的 目的 就 是 让 内 
核 负责 监视 打开 的 文件 描述 。 这 表示 我 们 必须 对 之 前 的 观点 做 改进 如 
果 一 个 文件 描述 符 是 epoll 兴 趣 列表 中 的 成 员 ， 当 关闭 它 后 会 自动 从 列表 
中 移 除 。 改 进 版 应 该 是 这 样 的 : 一 旦 所 有 指向 打开 的 文件 描述 的 文件 描 
述 符 都 被 关闭 后 ， 这 个 打开 的 文件 描述 将 从 epoll 的 兴趣 列表 中 移 除 。 这 
表示 如 果 我 们 通过 dup()( 或 类 似 的 函数 ) 或 者 fork0 为 打开 的 文件 创建 
了 描述 符 副 本 ， 那 么 这 个 打开 的 文件 只 会 在 原始 的 描述 符 以 及 所 有 其 他 
的 副本 都 被 关闭 时 才 会 移 除 中 。 


这 些 语义 可 导致 出 现 某 些 令 人 居 讶 的 行为 。 假 设 我 们 执行 程序 清单 
63-6 中 所 示 的 代码 。 即 使 文件 描述 符 fd1 已 经 被 关闭 了 ， 这 段 代 码 中 的 
epoll_waitO 调 用 也 会 告诉 我 们 fdl 已 就 绪 《〈 换 名 话说 ，evlist[0].data.fd 的 
值 等 于 fd1) 。 这 是 因为 还 有 一 个 打开 的 文件 描述 符 fd2 存 在 ， 它 所 指 回 
的 文件 描述 信息 仍 包含 在 epoll 的 兴趣 列表 中 。 当 两 个 进程 持 有 对 同一 个 
打开 文件 的 文件 描述 符 副 本 时 一般 是 由 于 forkO 调 用 ) ， 也 会 出 现 相 
似 的 场景 。 执 行 epoll_waitO 操 作 的 进程 已 经 关闭 了 文件 摘 述 符 ， 但 另 一 
个 进程 仍然 持 有 打开 的 文件 描述 符 副 本 。 


程序 清单 63-6， epoll 在 文件 描述 符 副本 下 的 语义 



































int epfd, fd1, fd2; 
struct epoll event ev; 
struct epoll event evlist[MAX_EVENTS]; 


/* Omitted: code to open 'fd1' and create epoll file descriptor ‘epfd' ... */ 


ev.data.fd = fd1 

ev.events = EPOLLIN; 

if (epoll ctl(epfd, EPOLL CTL ADD, fd1, ev) == -1) 
errExit("epoll ctl"); 


/* Suppose that 'fd1' now happens to become ready for input */ 


fd2 = dup(fd1); 
close(fd1); 
ready = epoll wait(epfd, evlist, MAX_EVENTS, -1); 
if (ready == -1) 
errExit("epoll_ wait"); 





63.4.5 epoll 同 MO 多 路 复 用 的 性 能 对 比 


表 63-9 展 示 了 当 我 们 使 用 pollO0、selectO 以 及 epol 监视 0 到 N-1 的 N 
个 连续 文件 描述 符 时 的 结果 (在 2.6.25 版 内 核 上 )〉 。 “该 测试 设 定 为 在 
每 次 监视 中 ， 只 有 一 个 随机 选择 的 文件 描述 符 处 于 就 绪 态 。) 从 这 个 表 
格 中 ， 我 们 发 现 随 痢 被 监视 的 文件 描述 符 数 量 的 上 升 ，poll0 和 selectO 的 
性 能 表现 越 来 越 甜 。 与 之 相反 ， 当 N 增 长 到 很 大 的 值 时 ，epol 的 性 能 
现 几 乎 不 会 降低 。“〈 当 N 值 上 升 时 ， 微 小 的 性 能 下 降 可 能 是 由 于 测试 系 
统 上 的 CPU cache 达 到 了 上 限 。) 


表 63-9: poll()、select() 以 及 epoll 进 行 00000 次 监视 操作 所 花费 的 时 间 



































被 监视 的 文件 描述 |poll0 所 占用 的 CPU | select0) 所 占用 的 ”| epoll 所 占用 的 CPU 
符 数量 (N) 时 间 ( 秒 》 CPUT] (Æ) IN Ta] E) 











基于 本 测试 的 目的 ， 我 们 在 glibc 的 头 文件 中 将 
FD_SETSIZE 修 改 为 16384， 以 此 允许 测试 程序 在 使 用 
select(O 时 能 监视 大 量 的 文件 描述 符 。 


在 63.2.5 节 中 我 们 知道 了 为 什么 select0 和 poll0 在 监视 大 量 的 文件 
描述 符 时 性 能 表现 很 差 。 现 在 我 们 看 看 为 什么 epoll 的 性 能 表现 会 更 好 。 


每 次 调用 select() 和 poll0O 时 ， 内 核 必须 检查 所 有 在 调用 中 指定 的 文件 
描述 符 。 与 之 相反 ， 当 通过 epoll_ctl0 指 定 了 需要 监视 的 文件 描述 符 
时 ， 内 核 会 在 与 打开 的 文件 摘 述 上 下 文 相关 联 的 列表 中 记录 该 描述 
符 。 之 后 每 当 执 行 VO 操作 使 得 文件 捅 述 符 成 为 束 绪 态 时 ， 内 核 束 
在 epoll 描 述 符 的 束 绪 列表 中 添加 一 个 元 素 。“〈 单 个 打开 的 文件 描述 
上 下 文中 的 一 次 VO 事 件 可 能 导致 与 之 相关 的 多 个 文件 摘 述 符 成 为 

MAAS. ) 之 后 的 epoll_waitO 调 用 从 就 绪 列 表 中 简单 地 取出 这 些 元 


每 次 调用 select0 或 pol0 时 ， 我 们 传递 一 个 标记 了 所 有 待 监视 的 文 
件 描 述 符 的 数据 结构 给 内 核 ， 调 用 返回 时 ， 内 核 将 所 有 标记 为 就 绪 
态 的 文件 描述 符 的 数据 结构 再 传 回 给 我 们 。 与 之 相反 ， 在 epoll 中 
我 们 使 用 epoll_ctl0 在 内 核 空间 中 建立 一 个 数据 结构 ， 该 数据 结构 
会 将 待 监视 的 文件 描述 符 都 记录 下 来 。 一 旦 这 个 数据 结构 建立 完 

成 ， 稍 后 每 次 调用 epoll_wait() 时 就 不 需要 再 传递 任何 与 文件 描述 符 
有 关 的 信息 给 内 核 了 ， 而 调用 返回 的 信息 中 只 包含 那些 已 经 处 于 就 
绪 态 的 描述 符 。 














除了 以 上 几 点 外 ， 对 于 select0 来 说 ， 我 们 必须 在 每 次 
调用 之 前 先 初始 化 输入 数据 。 而 无 论 是 select0 还 是 poll0)， 
我 们 必须 对 返回 的 数据 结构 做 检查 ， 以 此 找 出 N 个 文件 摘 
述 符 中 有 哪些 是 处 于 就 绪 态 的 。 但 是 ， 通 过 一 些 测试 得 出 
的 结果 表明 ， 这 些 额 外 的 步骤 所 花 弗 的 时 间 同 系统 调用 监 








视 N 个 文件 描述 符 所 花费 的 时 间 相 比 就 显得 微不足道 了 。 
表 63-9 并 没有 包含 这 些 检 查 步 又 所 用 的 时 间 。 


粗略 来 看 ， 我 们 可 以 认为 当 N (被 监视 的 文件 描述 符 数 量 ) 取 值 很 
大 时 ，select() 和 poll0 的 性 能 会 随 着 N 的 增 大 而 线性 下 降 。 这 可 以 从 表 
63-9 中 N=100 和 N=1000 时 的 情况 得 到 。 而 当 N=10000 时 ， 性 能 伸缩 性 实 
际 上 比 线性 还 要 差 。 


与 之 相反 的 是 ，epoll 的 性 能 会 根据 发 生 L/O 事 件 的 数量 而 扩展 〈( 呈 
线性 ) 。 因 此 常见 的 能 够 高 效 使 用 epoll API 的 应 用 场景 就 是 需要 同时 处 
理 许 多 客户 端的 服务 器 : 需要 监视 大 量 的 文件 描述 符 ， 但 大 部 分 处 于 空 
内 状态 ， 只 有 少数 文件 描述 符 处 于 就 绪 态 。 


63.4.6 ”边缘 触发 通知 


默认 情况 下 epoll 提 供 的 是 水 平 触 发 通知 。 这 表示 epoll 会 告诉 我 们 何 
时 能 在 文件 描述 符 上 以 非 阻 窄 的 方式 执行 WO 操作 。 这 同 pollO 和 select() 
所 提供 的 通知 类 型 相同 。 


epoll API 还 能 以 边缘 触发 方式 进行 通知 也 就 是 说 ， 会 告诉 我 们 
自从 上 一 次 调用 epoll_waitO0 以 来 文件 摘 述 符 上 是 否 已 经 有 1/O 活 动 了 
(或 者 由 于 描述 符 被 打开 了 ， 如 果 之 前 没有 调用 的 话 ) 。 使 用 epoll 的 边 
缘 触发 通知 在 语义 上 类 似 于 信和 号 驱动 JO， 只 是 如 果 有 多 个 IO 事件 发 生 
的 话 ，epoll 会 将 它们 合并 成 一 次 单独 的 通知 ， 通 过 epoll_waitO 返 回 ， 而 
在 信号 驱动 /O 中 则 可 能 会 产生 多 个 信号 。 


要 使 用 边缘 触 发 通知 ， 我 们 在 调用 epoll_ctl0 时 在 ev.events 字 段 中 指 
定 EPOLLET 标 志 。 























struct epoll event ev; 


ev.data.fd = fd 

ev.events = EPOLLIN | EPOLLET; 

if (epoll_ctl(epfd, EPOLL_CTL_ADD, fd, ev) == -1) 
errExit("epoll ctl"); 


我 们 通过 一 个 例子 来 说 明 epoll 的 水 平 触发 和 边缘 触发 通知 之 间 的 区 


别 。 假 设 我 们 使 用 epol 来 监视 一 个 套 接 字 上 的 输入 CEPOLLIN) ， 接 下 
来 会 发 生 如 下 的 事件 。 


1， 套 接 字 上 有 输入 到 来 。 


2. 我 们 调用 一 次 epoll_wait()。 无 论 我 们 采用 的 是 水 平 触发 还 是 边 
缘 触 发 通知 ， 该 调用 都 会 告诉 我 们 套 接 字 已 经 处 于 就 绪 态 了 。 


3. 再 次 调用 epoll_wait()。 


如 果 我 们 采用 的 是 水 平 触 发 通知 ， 那 么 第 二 个 epollL_waitO 调 用 将 告 
诉 我 们 套 接 字 处 于 就 绪 态 。 而 如 果 我 们 采用 边缘 触发 通知 ， 那 么 第 二 个 
epoll_waitO) 调 用 将 阻塞 ， 因 为 目 从 上 一 次 调用 epoll_waitO 以 来 并 没有 新 
的 输入 到 来 。 


正如 我 们 在 63.1.1 节 中 提 到 的 ， 边 缘 触 发 通知 通常 和 非 阻 塞 的 文件 
描述 符 结 合 使 用 。 因 而 ， 采 用 epoll 的 边缘 触发 通知 机 制 的 程序 基本 框架 
0 








1. 让 所 有 待 监视 的 文件 描述 符 都 成 为 非 阻塞 的 。 

2. 通过 epoll_ctl() 构 建 epoll 的 兴趣 列表 。 

3. 通过 如 下 的 循环 处 理 MO 事 件 。 

Ca) 通过 epoll_wait() 取 得 处 于 就 绪 态 的 描述 符 列表 。 


Cb) 针对 每 一 个 处 于 就 绪 态 的 文件 描述 符 ， 不 断 进 行 JO 处 理 直 到 
相关 的 系统 调用 (例如 read()、write()、recv()、send() 或 accept()) 返回 
EAGAIN 或 EWOULDBLOCK 错 误 。 


当 采 用 边缘 触发 通知 时 避免 出 现 文 件 描述 符 饥 饿 现象 


假设 我 们 采用 边缘 触发 通知 监视 多 个 文件 描述 符 ， 其 中 一 个 处 于 就 
绪 态 的 文件 描述 符 上 有 着 大 量 的 输入 存在 (可 能 是 一 个 不 间断 的 输入 
流 ) 。 如 果 在 检测 到 该 文件 描述 符 处 于 就 绪 态 后 ， 我 们 将 尝试 通过 非 阻 
塞 式 的 读 操作 将 所 有 的 输入 都 读 取 ， 那 么 此 时 就 会 有 使 其 他 的 文件 描述 
符 处 于 饥 猴 状态 的 风险 存在 〈 即 ， 在 我 们 再 次 检查 这 些 文 件 描述 符 是 否 
处 于 束 绪 态 并 执行 IO 操作 前 会 有 很 长 的 一 段 处 理 时 间 ) 。 该 问题 的 一 








种 解决 方案 是 让 应 用 程序 维护 一 个 列表 ， 列 表 中 存放 着 已 经 被 通知 为 束 
绪 态 的 文件 描述 符 。 通 过 一 个 循环 按照 如 下 方式 不 断 处 理 。 


1， 调 用 epoll_wait() 监 视 文件 描述 符 ， 并 将 处 于 就 绪 态 的 描述 符 汪 
加 到 应 用 程序 维护 的 列表 中 。 如 果 这 个 文件 描述 符 已 经 注册 到 应 用 程序 
维护 的 列表 中 了 ， 那 么 这 次 监视 操作 的 超时 时 间 应 该 设 为 较 小 的 值 或 者 
是 0。 这 样 如 果 没 有 新 的 文件 描述 符 成 为 就 绪 态 ， 应 用 程序 就 可 以 迅速 
进行 到 下 一 步 ， 去 处 理 那些 已 经 处 于 就 绪 态 的 文件 描述 符 了 。 


2. 在 应 用 程序 维护 的 列表 中 ， 只 在 那些 已 经 注册 为 就 绪 态 的 文件 
描述 符 上 进行 一 定 限 度 的 IO 操作 (可 能 是 以 轮转 调度 (round-robin) 
方式 循环 处 理 ， 而 不 是 每 次 epoll_waitO 调 用 后 都 从 列表 头 开 始 处 理 ) 。 
当 相 关 的 非 阻塞 VO 系统 调用 出 现 EAGAIN 或 EWOULDBLOCK 错误 
时 ， 文 件 描述 符 就 可 以 从 应 用 程序 维护 的 列表 中 移 除了 。 


尽管 采用 这 种 方法 需要 做 些 额外 的 编程 工作 ， 但 是 除了 能 避免 出 现 
文件 描述 符 饥 猴 现 象 外 ， 我 们 还 能 获得 其 他 益处 。 比 如 ， 我 们 可 以 在 上 
述 循环 中 加 入 其 他 的 步 又， 比如 处 理 定 时 器 以 及 用 sigwaitinfo0 (或 其 他 
类 似 的 机 制 ) 来 接收 信号。 


因为 信号 驱动 VO 也 是 采用 的 边缘 触发 通知 机 制 ， 因 此 也 需要 考虑 
文件 描述 符 饥 猴 的 情况 。 与 之 相反 ， 在 采用 水 平 触发 通知 机 制 的 应 用 程 
序 中 ， 考 虑 文件 描述 符 饥 饿 的 情况 并 不 是 必须 的 。 这 是 因为 我 们 可 以 采 
用 水 平 触发 通知 在 非 阻 塞 式 的 文件 描述 符 上 通过 循环 连续 地 检查 描述 符 
的 就 绪 状 态 ， 然 后 在 下 一 次 检查 文件 描述 符 的 状态 前 在 处 于 就 绪 态 的 描 
述 符 上 做 一 些 VO 处 理 就 可 以 了 。 




















63.5 ”在 信号 和 文件 摘 述 符 上 等 符 


有 时 候 ， 进 程 既 要 在 一 组 文件 描述 符 上 等 待 O 就 绪 ， 也 要 等 待 待 
发 送 的 信号 。 我 们 可 以 尝试 通 过 select0 来 执行 这 样 的 操作 ， 如 程序 清单 
63-7 所 示 。 


























程序 清单 63-7: 非 阻 塞 信 号 和 selectO 调 用 的 错误 用 法 











sig atomic_t gotSig = 0; 


void 
handler({int sig) 


gotSig = 1; 
} 


int 
main(int argc, char *argv[]) 


struct sigaction sa; 


sa.sa sigaction = handler; 

sigemptyset(&sa.sa_mask); 

sa.sa_ flags = 0; 

if (sigaction(SIGUSR1, &sa, NULL) == -1) 
errExit("sigaction"); 


/* What if the signal is delivered now? */ 


ready = select(nfds, &readfds, NULL, NULL, NULL); 
if (ready > 0) { 

printf("%d file descriptors ready\n", ready); 
} else if (ready == -1 && errno == EINTR) { 

if (gotSig) 

printf("Got signal\n"); 

} else { 

/* Some other error */ 
} 








这 段 代 人 码 的 问题 在 于 ， 如 果 信 号 (本 例 中 是 SIGUSR1) 到 来 的 时 机 





刚好 是 在 安装 信号 处 理 例 程 之 后 且 在 selectO0 调 用 之 前 ， 那 么 selectO 依 然 
ZHE.. (这 是 竞 态 条 件 的 一 种 形式 。) 现在 我 们 来 看 看 对 于 这 个 问题 
有 什么 解决 方案 。 


从 2.6.27 版 内 核 之 后 ，Linux 提 供 了 一 种 新 的 技术 可 同 
时 等 待 信号 和 文件 描述 符 状态 ， 这 就 是 本 书 22.11 节 中 介绍 
的 signalfd。 采 用 这 种 机 制 ， 我 们 可 以 通过 由 select0)、Ppoll0 
或 者 epoll_wait0 所 监视 的 文件 描述 符 ( 同 其 他 的 文件 描述 
符 一 起 ) 来 接收 信号 。 





63.5.1 pselect() 系 统 调用 


系统 调用 pselect0 执 行 的 任务 同 select0 相 似 。 它 们 语义 上 的 主要 区 
别 在 于 一 个 附加 的 参数 sigmask。 该 参数 指定 了 当 调 用 被 阻塞 时 有 
哪些 信号 可 以 不 被 过 滤 挥 。 











#define XOPEN SOURCE 600 
#include <sys/select.h> 


int pselect(int nfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, 
struct timespec *tzmeout, const sigset_t *sigmask); 








Returns number of ready file descriptors, 0 on timeout, or -1 on error 





更 准确 地 说 ， 假 设 我 们 这 样 调用 pselect(): 
ready = pselect(nfds, &readfds, &writefds, &exceptfds, timeout, &sigmask); 


这 个 调用 等 同 于 以 原子 方式 执行 下 列 步 又 : 


sigset_t origmask; 





sigprocmask(SIG SETMASK, &sigmask, &origmask) ; 
ready = select(nfds, &readfds, &writefds, &exceptfds, timeout); 
sigprocmask(SIG SETMASK, &origmask, NULL); /* Restore signal mask */ 


使 用 pselect()， 我 们 可 以 将 程序 清单 63-7 中 main() 函 数 的 第 一 部 分 蔡 
换 为 程序 清单 63-8 中 的 代码 。 


除了 参数 sigmask 外 ，select() 和 pselect0 还 有 如 下 区 别 。 


。 pselectO 中 的 timeout 参 数 是 一 个 timespec 结 构 体 〈 见 23.4.2 节 ) ， 允 
许 将 超时 时 间 精 度 指 定 为 纳 秒 级 (select) HEPR) 。 
e SUSv3 中 明确 说 明 pselectO 在 返回 时 不 会 修 改 tmeout 参 数 。 


如 果 我 们 将 pselect() 的 sigmask 参 数 指定 为 NULL， 那 么 除了 上 述 区 
别 外 pselect() 就 等 同 于 select()( 即 pselect() 不 会 操作 进程 的 信号 掩 码 〉。 


pselect() 接 口 定义 在 POSIX.1g 中 ， 现 在 已 经 加 入 到 SUSv3 规 范 。 并 
人 Linux 中 也 只 是 在 2.6.16 版 内 核 
HA 





之 前 ，glibc 提 供 有 一 个 pselect0 的 库 函 数 实现 ， 但 它 并 
不 能 保证 正确 调用 该 接口 所 需要 的 原子 性 。 这 种 原子 性 保 
证 只 有 pselectO 的 内 核实 现 才能 做 到 。 


























程序 清单 63-8: 使 用 pselect() 





Sigset_t emptyset, blockset; 
struct sigaction sa; 


sigemptyset (&blockset) ; 
sigaddset (&blockset, SIGUSR1); 


if (sigprocmask(SIG BLOCK, &blockset, NULL) == -1) 
errExit("sigprocmask") ; 


sq.sa sigaction = handler; 

sigemptyset(&sa.sa_mask); 

sa.sa_flags = SA_RESTART; 

if (sigaction(SIGUSR1, &sa, NULL) == -1) 
errExit("sigaction"); 


sigemptyset (&emptyset) ; 
ready = pselect(nfds, &readfds, NULL, NULL, NULL, &emptyset); 
if (ready == -1) 

errExit("pselect"); 





ppoll() 和 epoll_pwait() 系 统 调用 


在 Linux 2.6.16 版 中 还 新 增 了 一 个 非 标 准 的 系统 调用 ppoll()， 它 同 
poll0 之 间 的 关系 类 似 于 pselect() 同 select()。 同 样 的 ， 从 2.6.19 版 内 核 开 
始 ，Linux 也 新 增 了 epoll_pwait()， 这 是 对 epoll_wait() 的 扩展 。 对 于 这 些 
新 增 系 统 调用 的 细节 可 以 参见 ppoll(2) 和 epoll_pwait() 的 用 户 手 册页 。 


63.5.2 ”self-pipe 技 巧 


由 于 pselectO 并 没有 被 广泛 实现 ， 可 移植 的 应 用 程序 必须 采用 其 他 
手段 来 避免 当 等 待 信号 并 同时 调用 selectO0 时 出 现 的 竞 态 条 件 。 通 常会 用 
到 如 下 方法 。 


1. 创建 一 个 管道 ， 将 访问 和 写 端 都 设 为 非 阻 塞 的 。 


2. 在 监视 感 兴趣 的 文件 描述 符 时 ， 将 管道 的 读 端 也 包含 在 参数 
readfds 中 传 给 select()。 


3. 为 感 兴趣 的 信号 安装 一 个 信号 处 理 例 程 。 当 这 个 信号 处 理 例 程 
被 调用 时 ， 写 一 个 字 市 的 数据 到 省 道中 。 关 于 这 个 信号 处 理 例 程 ， 有 以 


下 儿 扣 需要 注意 。 




















。 在 第 一 步 中 已 经 将 管道 的 写 端 设 为 了 非 阻塞 态 ， 这 是 为 了 防止 出 现 
由 于 信和 号 到 来 的 太 快 ， 重 复 调用 信和 号 处 理 例 程 会 填 满 管道 空间 ， 结 
果 造 成 信号 处 理 例 程 的 write0) 操 作 阻 竖 《〈《 因 而 进程 本 喘 也 惑 阻塞 
了 ) 。《 对 于 空间 已 满 的 管道 ， 写 操作 失败 并 没有 关系 ， 因 为 上 一 
次 写 操作 已 经 表明 了 信号 的 传递 。) 

信号 处 理 例 程 是 在 创建 管道 之 后 安装 的 ， 这 是 为 了 防止 在 管道 创建 
前 束 发 送 了 信号 从 而 产生 竞 态 条 件 。 

在 信号 处 理 例 程 中 使 用 write0 是 安全 的 ， 因 为 write0 是 异步 信号 安 
全 函数 之 一 ， 参 见 表 21-1。 


4. 在 循环 中 调用 select0， 这 样 如 果 被 信号 处 理 例 程 中 断 的 话 ， 
select(0 还 可 以 重新 得 到 调用 。 “严格 来 说 在 这 种 方式 下 重新 调用 select() 
并 不 是 必须 的 。 这 只 是 表示 我 们 可 以 通过 监视 readfds 来 检查 是 否 有 信和 号 
到 来 ， 而 不 是 通过 检查 返回 的 EINTR 错 误 码 。) 

5. selectO 调 用 成 功 后 ， 我 们 可 以 通过 检查 代表 管道 读 端的 文件 描 
述 符 是 否 被 置 于 readfds 中 来 判断 信号 是 否 到 来 。 

6. 当 信号 到 来 时 ， 读 取 管 道中 的 所 有 字 节 。 由 于 可 能 会 有 多 个 信 
号 到 来 ， 我 们 需要 用 一 个 循环 来 读 取 字 节 直 到 read0 〈 非 阻塞 式 ) 返回 
EAGAIN 错误 码 。 将 管道 中 的 数据 全 部 读 取 完 毕 后 ， 接 下 来 就 执行 必要 
的 操作 以 作为 对 发 送 的 信号 的 回应 。 

这 项 技术 通常 被 称 为 是 self-pipe， 程 序 清单 63-9 中 的 代码 展示 了 这 
种 技术 的 用 法 。 

同样 可 以 采用 pol0 和 epoll_wait0 来 作为 这 种 技术 的 变种 。 


程序 清单 63-9: 采用 self-pipe 技 巧 




























































































from altio/self_pipe.c 
static int pfd[2]; /* File descriptors for pipe */ 


static void 
handler(int sig) 


{ 
int savedErrno; /* In case we change ‘errno’ */ 
savedErrno = errno; 
if (write(pfd[1], "x", 1) == -1 && errno != EAGAIN) 
errExit("write"); 
errno = savedErrno; 
} 
int 


main(int argc, char *argv[]) 


fd_set readfds; 

int ready, nfds, flags; 
struct timeval timeout; 
struct timeval *pto; 
struct sigaction sa; 
char ch; 


/* ... Initialize 'timeout', ‘readfds', and 'nfds' for select() */ 


if (pipe(pfd) == -1) 
errExit("pipe"); 


FD_SET(pfd[0], &readfds); /* Add read end of pipe to ‘readfds' */ 
nfds = max(nfds, pfd[o] + 1); /* And adjust 'nfds' if required */ 


flags = fcntl(pfd[o], F_GETFL); 
if (flags == -1) 
errExit("fcntl-F_GETFL"); 
flags |= O_NONBLOCK; /* Make read end nonblocking */ 
if (fentl(pfd[o], F_SETFL, flags) == -1) 
errExit("fcntl-F_SETFL"); 


flags = fcntl(pfd[1], F_GETFL); 
if (flags == -1) 
errExit("fcntl-F_GETFL"); 
flags |= 0 NONBLOCK; /* Make write end nonblocking */ 
if (fcntl(pfd[1], F_SETFL, flags) == -1) 
errExit("fcnt1l-F_SETFL"); 


sigemptyset(&sa.sa_mask); 
sa.sa_ flags = SA RESTART; /* Restart interrupted read()s */ 
sa.sa_ handler = handler; 
if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction"); 


while (({ready = select(nfds, &readfds, NULL, NULL, pto)) == -1 && 
errno == EINTR) 
continue; /* Restart if interrupted by signal */ 
if (ready == -1) /* Unexpected error */ 
errExit("select"); 


if (FD_ISSET(pfd[0], &readfds)) { /* Handler was called */ 
printf("A signal was caught\n"); 


for (3:3) { /* Consume bytes from pipe */ 
if (read(pfd[0], &ch, 1) == -1) { 
if (errno == EAGAIN) 
break; /* No more bytes */ 
else 
errExit("read"); /* Some other error */ 


} 


/* Perform any actions that should be taken in response to signal */ 


} 


/* Examine file descriptor sets returned by select() to see 
which other file descriptors are ready */ 


from altio/self_pipe.c 


63.6 总 结 


本 章 我 们 探究 了 针对 标准 IO 模型 之 外 的 其 他 几 种 可 选 的 MO 模型 。 
它们 是 : IO 多 路 复 用 〈select0 和 poll0) 、 信 号 驱动 VO 以 及 Linux 专 有 
的 epoll API。 所 有 这 些 机 制 都 允许 我 们 监视 多 个 文件 描述 符 ， 以 查看 哪 
个 文件 描述 符 上 可 执行 VO 操作 。 需 要 注意 的 是 ， 所 有 这 些 机 制 并 不 实 
际 执 行 JO 操 作 。 相 反 ， 一 旦 发 现 某 个 文件 描述 符 处 于 就 绪 态 ， 我 们 仍 
然 采 用 传统 的 IO 系统 调用 来 完成 实际 的 IO 操作 。 


VO 多 路 复 用 机 制 中 的 select0 和 poll0 能 够 同时 监视 多 个 文件 描述 
符 ， 以 查看 哪个 文件 描述 符 上 可 执行 VO 操作 。 在 这 两 个 系统 调用 中 ， 
我 们 传递 一 个 待 监视 的 文件 描述 符 列表 给 内 核 ， 之 后 内 核 返回 一 个 修改 
过 的 列表 以 表明 哪些 文件 描述 符 处 于 就 绪 态 了 。 在 每 一 次 调用 中 都 要 传 
递 完 整 的 文件 描述 符 列 表 ， 并 且 在 调用 返回 后 还 要 检查 它们 ， 这 个 事实 
表明 需要 监视 大 量 的 文件 描述 符 时 ，select0 和 poll0 的 性 能 表现 将 变 
{HERE 


信号 驱动 TO 允许 一 个 进程 在 文件 描述 符 处 于 MO 束 绪 态 时 接收 到 一 
个 信号 。 要 使 用 信号 驱动 WO， 我 们 必须 为 SIGIO 信 号 安装 一 个 信号 处 理 
例 程 ， 设 定 接收 信号 的 属 主 进程 ， 并 在 打开 文件 时 设 定 O_ASYNC 标 志 
使 得 信号 可 以 生成 。 相 比 IO 多 路 复 用 ， 当 监视 大 量 的 文件 描述 符 时 信 
号 驱动 JO 有 着 显著 的 性 能 优势 。Linux 人 允许 我 们 修改 用 来 通知 的 信号， 
而 如 果 我 们 采用 实时 信号 的 话 ， 那 么 多 个 信号 通知 就 可 以 排队 处 理 。 信 
号 处 理 例 程 可 以 使 用 siginfo_t 参 数 来 确定 产生 信号 的 文件 描述 符 以 及 发 
生 事件 的 类 型 。 


同 信号 驱动 IO 一 样 ， 当 监视 大 量 的 文件 描述 符 时 epoll 也 能 提供 高 
效 的 性 能 。epol《〈 以 及 信和 号 驱动 O) 的 性 能 优势 源 自 内 核能 够 “ 记 
住 ” 进 程 正在 监视 的 文件 描述 符 列 表 这 一 事实 (与 之 相反 的 是 ，select() 
和 poll() 都 必须 反复 告诉 内 核 哪 些 文件 描述 符 需 要 监视 ) 。 相 比 于 信号 
驱动 WO，epoll API 还 有 些 值得 一 提 的 优点 : 我 们 可 以 避免 处 理 信 号 时 的 
E 
) 6 


本 章 中 我 们 在 水 平 触发 通知 和 边缘 触发 通知 之 间 做 了 严格 区 分 。 在 
水 平 触发 通知 模型 下 ， 只 要 当前 文件 描述 符 上 可 以 进行 IO 操作 ， 我 们 



































就 能 得 到 通知 。 与 之 相反 ， 在 边缘 触发 通知 模型 下 ， 只 有 自 上 一 次 监视 
以 来 ， 文 件 描述 符 上 有 发 生 MO 事 件 时 才 会 通知 我 们 。LIO 多 路 复 用 采用 
的 是 水 平 触 发 通知 模型 ， 信 和 号 驱动 O 基 本 上 是 边缘 触发 通知 模型 ;而 
epoll 能够 以 任意 一 种 方式 工作 “〈 默 认 情 况 下 是 水 平 触 发 ) 。 边 缘 触 发 通 
知 通常 都 和 非 阻 塞 式 IO 结合 起 来 使 用 。 


本 章 结 尾部 分 我 们 探讨 了 一 个 经 常会 遇 到 的 问题 。 那 就 是 如 何在 监 
视 多 个 文件 描述 符 的 同时 等 待 信号 的 发 送 ? 对 于 这 个 问题 ， 通 常 的 解决 
方案 是 采用 一 种 称 为 self-pipe 的 技巧 ， 即 信号 处 理 例 程 写 一 个 字 节 数据 
到 管道 中 ， 代 表 管 道 读 端的 文件 描述 符 包 含 在 被 监视 的 文件 描述 符 集合 
中 。SUSv3 中 定义 了 pselect()， 这 是 select() 的 变种 ， 它 提供 了 解决 这 个 
问题 的 男 一 种 方法 。 但 是 pselect() 并 没有 包含 在 所 有 的 UNIX 实 现 中 。 
Linux 也 提供 了 类 似 《〈 但 非 标准 ) 的 ppollO 和 epoll_pwait0 接 口 。 


更 多 信息 


[Stevens et al., 2004] 中 介绍 了 WO 多 路 复 用 以 及 信号 驱动 /JO， 尤 其 强 
调 了 这 些 机 制 在 套 接 字 上 的 使 用 。[Gammeo et al, 2004] 是 一 篇 比较 
select()、poll() 和 epoll 之 则 性 能 表现 的 论文 。 


网 络 上 有 一 个 特别 有 趣 的 资源 ， 地 址 
为 http://www.kegel.com/c10k.html。 这 就 是 由 Dan Kegel 所 著 的 著名 
的 “C10K 问 题 *。 在 这 个 页 面 上 作者 探究 了 Web 服 务 器 端的 开发 者 在 设计 
能 够 同时 处 理 上 万 个 客户 端的 系统 时 会 遇 到 的 问题 和 困难 ， 页 面 上 还 包 
含 了 其 他 相关 信息 的 链接 。 











63.7 练习 


63-1. 修改 程序 清单 63-2 〈pol_pipes.c) 中 的 程序 ， 使 用 pol0 来 取 
代 select()。 


63-2. 编写 一 个 echo 服 务 器 〈 见 60.2 节 和 60.3 节 ) ， 使 其 能 够 同时 
处 理 TCP 和 UDP 客户 端 。 要 做 到 这 一 点 ， 服 务 器 端 必须 创建 一 个 TCP 监 
听 套 接 字 和 一 个 UDP 监听 套 接 字 ， 然 后 采用 本 章 中 所 描述 的 其 中 一 种 技 
术 来 同时 监视 这 两 个 套 接 字 。 


63-3. 63.5 节 中 提 到 selectO 不 能 用 来 同时 等 竺 信号 和 文件 描述 符 ， 
并 提出 采用 信号 处 理 例 程 加 管道 的 方式 来 解决 。 当 一 个 程序 需要 在 文件 
描述 符 和 System V 的 消息 队列 上 等 待 输入 时 ， 也 会 出 现 相似 的 问题 〈 因 
为 System V 消 息 队 列 并 不 使 用 文件 描述 符 ) 。 一 种 解决 方法 是 使 用 
fork0 生 成 一 个 单独 的 子 进 程 ， 子 进程 从 队列 中 拷贝 每 条 消息 到 管道 
中 ， 并 且 也 将 由 父 进程 所 监视 的 文件 描述 符 一 并 拷贝 。 采 用 这 种 方法 编 
写 一 个 程序 ， 通 过 select0 来 监视 终端 和 消息 队列 上 的 输入 。 


63-4. ”63.5.2 节 中 介绍 的 self-pipe 技 巧 中 ， 最 后 一 步 表 明 程 序 应 该 首 
先 将 管道 中 的 所 有 数据 读 取 完 毕 ， 之 后 再 执行 信号 处 理 的 操作 。 如 果 这 
步 颠 倒 的 话 会 出 现 什么 问题 ? 


63-5. 修改 程序 清单 63-9 中 的 程序 〈self_pipe.c) ， 使 用 poll0 来 取 
代 select()。 


63-6. 编写 一 个 程序 使 用 epoll_create() 来 创建 一 个 epoll 实 例 ， 然 后 
立刻 调用 epoll_waitO 在 之 前 返回 的 文件 描述 符 上 等 待 。 在 这 种 情况 下 ， 
传递 给 epoll_wait0 的 兴趣 列表 是 空 的 ， 此 时 会 出 现 什么 情况 ? 这么 做 有 
什么 用 处 ? 


63-7. 假设 我 们 有 一 个 epoll 文 件 描 述 符 ， 写 正在 监视 的 多 个 文件 描 
述 全 部 都 一 直 处 于 就 绪 态 。 如 果 我 们 执行 一 系列 的 epoll_wait() 调 用 ， 其 
中 参数 maxevents 比 处 于 就 绪 态 的 文件 描述 符 数 量 小 很 多 《例如 ， 
maxevents 为 1) 。 在 每 次 调用 之 间 ， 我 们 并 不 在 处 于 就 绪 态 的 文件 描述 
符 上 执行 全 部 的 IO 操作 。 此 时 在 每 次 调用 中 epoll_waitO 返 回 的 描述 符 
是 什么 ? 编写 一 个 程序 来 确定 答案 。 〈 基 于 这 个 实验 的 目的 ， 在 























epoll_wait() 调 用 之 间 不 执行 任何 WO 操作 就 足够 了 。) 为 什么 这 种 行为 
会 很 有 用 ? 


63-8. 修改 程序 清单 63-3 中 的 程序 (demo_sigio.c) ， 用 实时 信和 号 
取代 SIGIO。 修 改 信 号 处 理 例 程 ， 使 其 接受 一 个 siginfo_t 参 数 ， 并 打印 
出 这 个 结构 体 的 si_fd 和 si_code 字 上 段 。 








DZE: 本 章 之 前 都 是 用 文件 描述 符 (file descriptor) 来 表示 打开 了 
某 个 文件 ， 这 一 段 义 冒 出 来 个 文件 描述 (file oe 而 文件 摘 述 
和 文件 描述 符 之 间 还 有 着 关联 。 其 实 是 这 样 的 : Piba (file 
description) Gp eam a radlggs 时 《大 小 、 内 容 、 编 码 
等 与 文件 有 关 的 信息 〉， 可 以 比喻 为 一 个 抽 居 ， 这 部 分 内 容 实际 上 是 由 
内 核 来 管理 的 。 Tapes x 则 的 应 用 程序 如 果 要 操作 文件 怎么 办 。 束 是 通 
过 open() 这 样 的 系统 调用 同 内 核 请 求 ， 然 后 内 核 分 配给 用 户 空 间 一 个 文 
件 描述 符 (file descriptor) 。 这 个 文件 摘 述 符 可 以 比喻 为 抽 导 的 把 手 
(handle 之 所 以 翻译 为 “句柄 "， 这 就 是 原因 ) ， 有 了 这 个 把 手 《〈 文 件 描 
述 符 ) ， 用 户 就 可 以 操作 抽 导 (文件 接 述 ) 里 的 内 容 了 。 但 是 ， 一 个 抽 
尼 可 以 有 多 个 把 手 ( 即 文件 摘 述 可 以 对 应 多 个 文件 摘 述 符 ) ， 只 有 当 所 
有 的 把 手 《〈《 文 件 描述 符 ) 都 关闭 了 ， 内 核 就 知道 此 时 没有 用 户 空 x 间 的 程 
序 要 用 这 个 抽 居 了 (文件 描述) ， 那么 就 把 它 回 收 。 
文件 描述 实际 上 是 内 核 中 的 一 个 数据 结构 ， 而 用 户 空 间 中 的 文件 描述 符 
只 不 过 是 一 个 整数 ，epoll 的 兴趣 列表 实际 关注 的 是 内 核 中 的 数据 结构 。 
所 以 作者 在 这 里 改进 了 一 下 之 前 的 结论 ， 说 得 更 细 ， 更 准确 ， 也 符合 这 
一 节 的 主题 “深入 探究 epoll 的 语义 ”。 


P64 Nim 


伪 终 端 是 一 个 虚拟 设备 ， 它 提供 了 一 个 IPC 通 道 。 通 道 的 一 端 是 一 
个 期 望 连接 到 终 并 设备 的 程序 。 通 道 的 为 一 痢 也 是 一 个 程序 ， 这 个 程序 
通过 IPC 通 道 来 发 送 其 输入 并 读 取 输出 以 此 来 驱动 面 同 终端 的 程序 。 


本 章 描述 了 伪 终 端的 使 用 方法 ， 展 示 了 它们 是 如 何 应 用 到 程序 中 
Te script(1) 程 序 以 及 像 ssh 这 样 的 提供 网 络 登 录 服 务 
EEF o 








64.1 整体 概览 


图 64-1 展 示 了 伪 终 端 能 够 解决 的 一 个 问题 : 我 们 该 如 何 使 位 于 某 台 
0 
(比如 vi) We? 
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图 64-1: 竺 解决 的 问题 : 如 何 通过 网 络 操作 一 个 面向 终端 的 程序 ? 


如 图 所 示 ， 通 过 网 络 通信 ， 套 接 字 提供 了 解决 这 个 问题 的 驱动 部 
分 。 但 是 ， 我 们 无 法 直接 将 面向 终端 程序 的 标准 输入 、 输 出 以 及 错误 信 
恩 连 接 到 套 接 字 上 。 这 是 因为 面 癌 终端 程序 期 望 连接 的 是 一 个 终端 
以 此 才能 执行 在 第 34 章 和 62 章 中 所 描述 的 操作 。 这 样 的 操作 包括 将 终端 
置 为 非 规范 模式 ， 将 回 显 打 开 或 关闭， 以 及 设 定 终端 前 台 进 程 组 。 如 果 
a a 

败 。 


此 外 ， 面 癌 终 问 的 程序 期 望 终端 驱动 程序 能 对 其 输入 和 输出 做 特定 
类 型 的 处 理 。 举 个 例子 ， 在 规范 模式 下 ， 当 终端 驱动 程序 在 一 行 的 开始 
处 发 现 文件 结尾 符 〈 通 常 是 Ctrl-D) 时 ， 将 导致 下 一 次 read0 调 用 不 会 返 








回 任何 数据 。 


最 后 ， 面 同 终 端的 程序 必须 有 一 个 控制 终端 。 这 人 允许 程序 通过 打 
开 /devwitty 来 获取 一 个 控制 终端 的 文件 描述 符 ， 并 且 也 使 得 产生 针对 该 程 
序 的 作业 控制 和 终端 相关 的 信号 〈 例 如 SIGTSTP、SIGTTIN 以 及 
SIGINT) 成 为 可 能 。 


通过 上 面 的 描述 ， 现 在 应 该 很 清楚 面 同 终端 程 序 的 定义 了 ， 它 的 范 
图 非 第 广泛 ， 涵 盖 了 大 量 我 们 通常 在 交互 式 终端 会 话 中 运行 的 程序 。 


伪 终 端 主 从 设备 


伪 终 端 提供 了 网 络 连接 到 面 同 终端 程序 之 间 那 缺失 的 一 环 。 伪 终 站 
是 一 对 互联 的 虚拟 设备 ， 主 伪 终 痢 和 从 伪 终 端 ， 有 时 被 共 称 为 伪 终 端 
对 。 伪 终 症 对 提供 了 一 条 IPC 通 道 ， 这 有 点 像 双 问 管 道 一 一 两 个 进程 能 
分 别 打开 主 端 和 从 痢 ， 并 通过 伪 终 端 双 回 传输 数据 。 


天 于 伪 终 端 ， 关 键 点 在 于 从 设备 表现 得 就 像 一 个 标准 终端 一 样 。 所 
有 可 以 施加 于 终端 设备 的 操作 同样 也 可 以 施加 于 伪 终 端 从 设备 上 。 这 里 
面 有 些 操作 对 于 伪 终 端 来 说 没什么 意义 《〈 例 如 ， 设 定 终端 线 速 或 者 奇偶 
校 验 ) ， 但 这 并 无 大 碍 ， 因 为 伪 终 端 从 设备 会 悄悄 地 忽略 它们 。 


如 何 使 用 盆 终 站 


图 64-2 展 示 了 典型 情况 下 两 个 程序 是 如 何 利用 伪 终 端的 。 图 中 的 
pty 是 伪 终 端的 常用 缩写 形式 ， 本 半 中 我 们 在 许多 图 表 和 函数 名 称 中 大 
量 使 用 这 种 缩写 。) 面 癌 终端 程序 的 标准 输入 、 输 出 以 及 错误 输出 都 连 
接 到 伪 终 端 从 设备 上 ， 它 也 是 程序 的 控制 终端 。 在 伪 终 端的 力 一 侧 ， 驱 
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图 64-2: 两 个 程序 通过 伪 终 端 来 通信 








通常 ， 驱 动 程序 同时 读 取 输入 并 将 输出 写 入 到 男 一 个 1O 通道 中 。 
它 的 行为 就 如 同一 个 中 继 ， 在 伪 终 端 和 另 一 个 程序 间 双 向 传递 数据 。 为 
了 实现 这 一 点 ， 驱 动 程序 必须 同时 监控 两 个 方向 上 的 输入 。 这 通 铺 由 
IO 多 路 复 用 〈select0 或 poll0) 来 实现 ， 也 可 以 采用 一 对 进程 或 线程 在 
两 个 方向 上 做 数据 传输 。 


一 般 情 况 下 使 用 伪 终 端的 应 用 程序 会 按照 如 下 步骤 来 做 。 
1. 驱动 程序 打开 伪 终 端 主 设备 。 
2. 驱动 程序 调用 fork() 来 创建 一 个 子 进程 。 子 进程 执行 如 下 的 步 


又 。 


a) 调用 setsid0 来 月 动 一 个 新 的 会 话 ， 使 该 子 进程 成 为 会 话 的 头领 
进程 《 见 34.3 节 ) 。 该 操作 也 使 得 子 进程 失去 了 它 的 控制 终端 。 


bD 打开 同 伪 终 端 主 设备 相对 应 的 从 设备 。 由 于 子 进 程 是 会 话 的 头 
领 进 程 ， 且 没有 控制 终端 ， 伪 终端 从 设备 惑 成 为 子 进程 的 控制 终端 了 。 


c) 调用 dup0《 或 类 似 的 函数 ) 为 从 设备 复制 标准 输入 、 输 出 以 及 
错误 输出 的 文件 描述 符 。 

d) 调用 exec0O 有 启动 要 连接 到 伪 终 端 从 设备 的 面 癌 终端 程序 。 

此 时 这 两 个 程序 就 可 以 通过 伪 终 端 进行 通信 了 。 任 何 由 驱动 程序 写 


到 主 设备 的 消 轧 ， 都 会 在 从 设备 这 端 作为 面 问 终端 程序 的 输入 ， 任 何 由 
面 问 终端 的 程序 写 到 从 设备 的 消息 都 可 以 在 主 设备 端 由 驱动 程序 读 取 。 

















我 们 将 在 第 64.5 节 进一步 探究 伪 终 端 IO 的 细节 。 


伪 终 端 也 能 够 用 来 连接 任意 的 进程 对 〈 即 ， 不 必 一 定 
征 父子 进程 ) 。 所 有 要 做 的 就 是 打开 伪 终 端 主 设备 的 进程 
需要 将 相关 联 的 从 设备 名 称 通知 给 为 一 个 进程 即 可 ， 可 能 
古 将 名 称 写 到 一 个 文件 上 又 或 者 是 通过 其 他 的 IPC 机 制 来 传 
递 。《〈 当 我 们 在 前 面 的 例子 中 调用 forkO0 时 ， 子 进程 目 动 从 
父 进程 中 继承 了 足 量 的 信息 以 此 来 获知 从 设备 名 。) 


到 目前 为 止 ， 我 们 对 使 用 伪 终 端的 讨论 都 比较 抽象 。 图 64-3 展 示 了 
一 个 具体 的 例子 : ssh 使 用 伪 终 端的 方法 。 这 个 程序 允许 用 户 通 过 网 络 
安全 地 在 远程 系统 上 运行 登录 会 话 。 (实际 上 该 图 结合 了 图 64-1 和 图 64- 
2 中 的 信息 。) 在 远 端 主机 上 ， 伪 终端 主 设备 的 驱动 程序 是 ssh 服 务 器 
(sshd) ， 连 接 到 伪 终 端 从 设备 的 面 癌 终端 的 程序 是 登录 shell。ssh 服 务 
器 作为 胶水 ， 通 过 连接 到 ssh 客户 端的 套 接 字 将 伪 终 端 连 接 起 来 。 一 旦 
所 有 登录 方面 的 细节 全 部 完成 ， ssh 服 务 器 和 客 己 端的 主要 用 途 就 是 在 


本 地 主机 上 的 用 户 终 端 和 远 端 主机 上 的 shell 之 间 双 回 传 递 字符 。 
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图 64-3: ssh 是 如 何 使 用 伪 终 端的 








我 们 忽略 了 很 多 ssh 客 户 端 和 服务 器 的 细节 。 比 如 ， 这 
些 程序 会 双 同 加 密 罕 越 网 络 的 数据 。 我 们 在 远 端 主机 上 只 
展示 了 一 个 单独 的 ssh 服 务 器 进程 ， 但 实际 上 ssh 服 务 器 是 一 
个 并 发 的 网 络 服务 。 它 是 一 个 守护 进程 ， 创 建 一 个 被 动 的 
TCP 套 接 字 来 监听 从 ssh 客 户 端 发 来 的 连接 。 对 于 每 个 连 
接 ，ssh 服 务 器 主 进程 通过 fork 创 建 子 进程 来 处 理 所 有 关于 
客户 登录 方面 的 细节 。〈 我 们 在 图 64-3 中 将 这 个 子 进程 参 
照 为 ssh 服 务 器 。) 除了 上 文 提 到 的 关于 建立 伪 终 端的 细 
节 ，ssh 服 务 器 子 进程 验证 用 户 ， 在 远 端 机 上 更 新 登录 账户 
日 志 《〈 如 第 40 章 所 述 ) ， 然 后 执行 登陆 shell。 





在 某 些 情况 下 ， 可 能 会 有 多 个 进程 连接 到 伪 终 端的 从 设备 端 。 我 们 
的 ssh 示 例 中 已 经 对 此 做 了 图 解 。 从 设备 会 话 的 头领 进程 是 shell， 它 创建 
进程 组 来 执行 由 远 端 用 户 键入 的 命令 。 所 有 这 些 进程 都 将 伪 终 端 从 设备 
作为 它们 的 控制 终端 。 同 常规 的 终端 一 样 ， 这 些 进程 组 之 一 可 以 作为 伪 
终端 从 设备 的 前 台 进 程 组 ， 且 只 有 这 个 进程 组 可 以 通过 从 端 读 取 和 写 入 
(如 果 比 特 位 TOSTOP 已 经 设 定 ) 。 


伪 终 端的 应 用 
除了 网 络 服务 外 ， 伪 终端 也 在 许多 其 他 应 用 中 得 到 了 利用 。 下 面包 


at HERI 


expect (1) 程序 使 用 伪 终 端 来 允许 交互 式 面 同 终端 程序 可 以 从 脚本 
文件 中 驱动 。 

类 似 xterm 这 样 的 终端 模拟 器 利用 伪 终 端 来 提供 带 有 终端 窗口 的 终 
端 相 关 功 能 。 

screen (1) 程序 使 用 伪 终 端 在 单个 物理 终端 〈 或 终端 窗口 ) 同 多 个 
进程 (例如 多 个 shell 会 话 〉 间 实 现 多 路 复 用 。 


e script (1) 程序 使 用 到 了 伪 终 端 ， 用 来 记录 在 shell 会 话 中 的 所 有 和 输 
入 和 输出 。 

e 当 同 文件 或 绾 道 写 输出 时 ， 有 了 时候 可 以 用 伪 终 端 来 绕 过 由 stdio 实 现 
的 默认 块 缓冲 机 制 ， 与 之 相对 的 是 终端 输出 是 行 缓冲 。 “我 们 将 在 
练习 64-7 中 进一步 探讨 。 ) 


System V (UNIX 98) 和 BSD 伪 终端 


BSD 和 System V 都 提供 了 不 同 的 接口 来 找 出 和 打开 伪 终 端 对 的 两 
端 。BSD 的 伪 终 并 实现 在 历史 上 是 有 名 的 ， 因 为 它 用 在 了 许多 基于 人 套 接 
字 的 网 络 应 用 中 。 基 于 兼容 性 的 原因 ， 许 多 UNIX 实 现 最 终 都 同时 文 持 
两 种 伪 终 端 形 式 。 


System V 的 接口 在 某 种 程度 上 比 BSD 接 口 要 更 易于 使 用 ，SUSv3 伪 
终端 规范 就 是 基于 System V 接 口 的 。( 关 于 伪 终 端的 规范 首次 出 现 是 在 
SUSv1 中 。) 由 于 历史 原因 ， 在 Linux 系 统 上 这 种 类 型 的 伪 终 端 通常 指 
的 是 UNIX 98 伪 终端 ， 尽 管 UNIX 98 标 准 〈 即 SUSv2) 规定 伪 终端 应 该 
是 基于 流 式 的 ， 但 Linux 对 伪 终 端的 实现 并 不 是 如 此 。 (SUSv3 并 不 要 
求 伪 终端 是 基于 流 式 的 实现 。) 


Linux 的 早期 版 本 只 文 持 BSD 风 格 的 伪 终 器 ， 但 目 从 2.2 版 内 核 之 
后 ，Linux 已 经 同时 文 持 两 种 伪 终 端 了 。 本 章 我 们 集中 于 对 UNIX 98 伪 终 
端的 讨论 。 我 们 将 在 64.8 节 中 描述 同 BSD 伪 终端 的 差异 。 


64.2 UNIX 98 伪 终端 





我 们 将 一 点 一 点 地 实现 ptyFork() 这 个 函数 ， 该 函数 完成 了 大 部 分 图 


64-2 中 所 展示 的 创建 伪 终 器 连接 的 任务 。 之 后 我 们 将 利用 这 个 函数 来 实 
人 。 在 这 之 前 ， 我 们 来 看 看 UNIX 98 伪 终端 所 使 用 的 多 个 库 





posix_openptO 函 数 打开 一 个 未 使 用 的 伪 终 端 主 设备 ， 返 回 稍 后 会 用 
到 的 代表 该 设备 的 文件 摘 述 符 。 

grantptO 函 数 修 改 对 应 于 伪 终 端 主 设 备 的 从 设备 属 主 和 权限 。 

iy a a 这 样 束 能 打开 从 
设 : 

ptsname0 函 数 返 回 对 应 于 伪 终 端 主 设备 的 从 设备 名 称 。 之 后 从 设备 
就 可 以 通过 open() 来 打开 了 。 


64.2.1 打开 未 使 用 的 主 设备 : posix_openpt() 


posix_openptO 函 数 找到 并 打开 一 个 未 使 用 的 伪 终 端 主 设备 ， 再 返回 


稍 后 会 用 到 的 代表 该 设备 的 文件 描述 符 。 





#define XOPEN SOURCE 600 
#include <stdlib.h> 
#include <fcntl.h> 


int posix_openpt(int flags); 





Returns file descriptor on success, or -1 on error 








参数 flags 由 0 或 以 下 多 个 常量 组 成 。 


O_RDWR 


这 


同时 以 可 读 和 可 写 方 式 打开 设备 。 一 般 情 况 下 我 们 总 是 在 flags 中 包 


NM EA 
o 


O_NOCTTY 


使 该 终端 不 要 成 为 进程 的 控制 终端 。 在 Linux 上 ， 无 论调 用 


posix_openptO 时 O_NOCTTY 是 否 被 指定 ， 伪 终端 主 设备 都 不 会 成 为 进 
程 的 控制 终端 。《〈 这 合乎 道理 ， 因 为 伪 终 端 主 设备 并 不 是 一 个 真正 的 终 
端 ， 它 只 是 终端 另 一 侧 从 设备 的 连接 端 。) 但 是 ， 在 某 些 伪 终 端 实现 
中 ， 如 果 我 们 希望 在 打开 伪 终 端 主 设备 时 避免 进程 获得 控制 终端 ， 则 需 


要 将 该 常量 ”加 上 。 


同 open() 一 样 ，posix_openpt() 使 用 最 小 的 可 用 文件 摘 述 符 来 打开 伪 
终端 主 设备 。 


调用 posix_openpt() 也 会 在 /dev/pts 文 件 夹 中 创建 对 应 的 伪 终 端 从 设 
备 文件 。 当 我 们 稍 后 介绍 ptsname() 时 再 来 进一步 讨论 这 个 文件 。 


posix_openpt(0) 是 在 SUSv3 中 新 增 的 函数 ， 由 POSIX 委 员 会 引入 。 在 
最 初 的 System V 伪 终端 实现 中 ， 获 取 可 用 的 伪 终 端 主 设备 是 通过 打开 伪 
终端 主 克 隆 设备 /dev/ptmx 来 实现 的 。 打 开 这 个 虚拟 设备 将 自动 搜寻 并 打 
开 下 一 个 未 使 用 的 伪 终 端 主 设备 ， 将 对 应 的 文件 摘 述 符 返 回 。Linux 上 
也 提供 有 这 个 设备 ，posix_openptO 按 照 以 下 方式 来 实现 。 


int 
posix openpt(int flags) 





return open("/dev/ptmx", flags); 
} 


UNIX 98 伪 终端 数量 的 限制 


因为 每 一 对 使 用 中 的 伪 终 端 都 会 占用 一 小 段 不 能 被 交换 的 内 核 内 存 
空间 ， 因 此 内 核对 系统 中 UNIX 98 伪 终端 的 数量 有 一 个 限制 。 到 2.6.3 版 
内 核 之 前 ， 这 个 限制 由 内 核 配 置 选 项 (CONFIG_UNIX98_PTYS) 控 
IE ee Aen ere any cee er er 
{Fi 





到 Linux 2.6.4 版 之 后 ， 内 核 选 项 CONFIG_UNIX98_PTYS 被 废弃 以 
文 持 更 为 灵活 的 方法 。 相 反 ， 对 伪 终 端 数量 的 限制 定义 在 特定 于 Linux 
的 /proc/sys/kernel/pty/max 文 件 中 。 该 文件 的 默认 值 为 4096， 可 以 设 定 为 
最 大 1048576 的 任何 值 。 还 有 一 个 相关 的 只 读 文件 /proc/sys/kernel/ 
pty/nr， 这 个 文件 记录 当前 系统 中 有 多 少 UNIX 98 伪 终端 正在 使 用 中 。 


64.2.2 ”修改 从 设备 属 主 和 权限 : grantpt() 











SUSv3 规 定 grantptO 可 以 用 来 修改 由 文件 描述 符 mfd 所 代表 的 伪 终 端 
主 设备 相关 联 的 从 设备 的 属 主 和 权限 。 在 Linux 上 ， 调 用 grantptO 并 不 是 
必需 的 。 但 是 在 某 些 实现 中 需要 用 到 grantpt()， 可 移植 性 民 好 的 程序 应 
该 在 posix_openpt() 之 后 调用 grantpt()。 











#define XOPEN SOURCE 500 
#include <stdlib.h> 


int grantpt(int mfd); 








Returns 0 on success, or -1 on error 








在 需要 grantptO 的 系统 中 ， 该 函数 创建 一 个 子 进程 来 执行 设 定 用 户 
ID 为 root 的 程序 。 这 个 程序 通常 称 为 pt_ chown， 在 伪 终 端 从 设备 上 执行 
下 列 操作 。 


。 将 从 设备 的 属 主 修改 为 与 调用 进程 相同 的 有 效用 户 ID。 
。 将 从 设备 的 组 修改 为 tty。 
。 修改 从 设备 的 权限 ， 使 拥有 者 有 读 和 写 权 限 ， 组 拥有 写 权 限 。 


修改 终端 组 为 ty 并 设 定 组 的 写 权限 是 因为 wall (1) 和 write (1) 
是 设 定 组 ID 程序 ， 归 属于 tty 组 。 


在 Linux 上 ， 伪 终端 从 设备 自动 按照 以 上 方式 配置 ， 这 就 是 为 什么 
不 需要 调用 grantptO 的 原因 【〈 出 于 可 移植 性 考虑 ， 仍 然 应 该 调用 ) 。 





因为 可 能 会 创建 子 进程 的 缘故 ，SUSv3 中 说 如 果 调 用 
程序 为 SIGCHLD 信 和 号 安装 了 处 理 例 程 ， 则 grantptO0 的 行为 
是 未 定义 的 。 


64.2.3 ”解锁 从 设备 : unlockpt() 


函数 unlockptO 移 除 从 设备 的 内 部 锁 ， 该 从 设备 同文 件 描述 符 mfd 所 
代表 的 伪 终 端 主 设备 相关 联 。 这 个 锁 机 制 的 目的 是 允许 调用 进程 在 其 他 


进程 能 够 打开 这 个 伪 终 端 从 设备 之 前 执行 必要 的 初始 化 工作 《比如 调用 
grantpt()) 。 





fidefine XOPEN SOURCE 500 
ftinclude <stdlib.h> 


int unlockpt(int mfd); 


Returns 0 on success, or -1 on error 











在 调用 unlockpt0 之 前 尝试 打开 伪 终 端 从 设备 将 导 臻 失败， 错误 码 为 
EIO. 


64.2.4 获取 从 设备 名 称 : ptsname() 


函数 ptsname0 返 回 伪 终 端 从 设备 的 名 称 ， 该 从 设备 同文 件 描述 符 
mfd 所 代 表 的 伪 终 器 主 设备 相关 联 。 





#define XOPEN SOURCE 500 
#include <stdlib.h> 
char *ptsname(int mfd); 


Returns pointer to (possibly statically allocated) string on success, 
or NULL on error 











在 Linux (以 及 大 多 数 实 现 中 ) 上 ，ptsname() 返 回 形 为 /dev/pts/nn 的 
字符 串 ， 这 里 的 mn 由 该 伪 终 端 从 设备 专 有 的 唯一 标识 号 所 取代 。 


返回 的 从 设备 名 称 所 占用 的 缓冲 区 通常 是 静态 分 配 的 。 因 此 后 续 对 
ptsname() 的 调用 将 窗 新 前 次 的 结果 。 


GNU C 函 数 库 提 供 了 一 个 可 重 入 版 的 ptsname() 一 一 
ptsname_r(mfd, strbuf, buflen)。 但 是 ， 这 个 函数 不 是 标准 函 
数 ， 只 在 几 种 其 他 UNIX 实 现 中 才 存 在 。 必 须 定 义 
_GNU_SOURCE 测 试 宏 才 能 从 <stdlib.h> 中 得 到 可 重 入 版 的 





一 旦 通过 unlockptO 解 锁 了 从 设备 ， 我 们 就 可 以 用 传统 的 系统 调用 
open() 来 打开 它 。 


在 采用 了 STREAMS 机 制 的 System VATE ASL, HAE 
还 需要 执行 一 些 额 外 的 步骤 〈 将 STREAMS 模 块 加 载 到 从 设 
eb, ZARA) . REMAP R, US 
[Stevens & Rago, 2005] 中 的 例子 。 


64.3 ”打开 主 设备 : ptyMasterOpen() 


我 们 现在 来 实现 函数 ptyMasterOpen0。 该 函数 使 用 前 面 几 节 中 介绍 
过 的 函数 来 打开 伪 终 端 主 设备 并 获取 对 应 的 从 设备 名 称 。 我 们 实现 这 样 
一 个 函数 的 原因 有 两 方面 。 


© 大 多 数 程序 都 以 几乎 相同 的 方式 来 执行 这 些 步骤 ， 因 此 将 它们 封闭 
为 一 个 单独 的 函数 更 加 方便 。 

。 我 们 实现 的 ptyMasterOpen0 函 数 隐藏 了 所 有 特定 于 UNIX 98 规 范 的 
细节 。 在 64.8 节 中 我 们 将 采用 BSD 风 格 的 伪 终 端 重新 实现 这 个 函 
本 章 余 下 的 部 分 提供 的 代码 能 够 工作 于 任意 一 种 伪 终 端 实 现 











#include "pty_master_open.h" 


int ptyMasterOpen(char *slaveName, size_t snLen); 


Returns file descriptor on success, or -1 on error 











函数 ptyMasterOpen(0 打 开 一 个 未 使 用 的 伪 终 端 主 设备 ， 调 用 
grantpt() 并 通过 unlockptO 对 其 解锁 ， 然 后 将 对 应 的 伪 终 端 从 设备 名 拷贝 
到 slaveName 所 指 癌 的 缓冲 区 中 。 调 用 者 必须 通过 参数 snLen 指定 缓冲 
区 的 空间 大 小 。 我 们 在 程序 清单 64-1 中 给 出 了 这 个 函数 的 实现 。 


省 略 参 数 slaveName 和 snLen 也 是 同样 可 行 的 ， 我 们 可 
以 让 ptyMasterOpen() 的 调用 者 直接 调用 ptsname() 来 获取 伪 
终端 从 设备 名 称 。 但 是 ， 我 们 这 里 使 用 slaveName 和 snLen 
参数 是 因为 BSD 风 格 的 伪 终 端 实现 并 没有 提供 和 ptsname() 
功能 相同 的 函数 ， 而 我 们 为 BSD 风 格 的 伪 终 端 实现 的 功能 
相同 的 函数 (程序 清单 64-4) 封装 了 BSD 中 用 来 获取 从 设 
备 名 称 的 技术 。 




















程序 清单 64-1: ptyMasterOpen() 的 实现 


pty/pty_master_open.c 
#define XOPEN SOURCE 600 
Hinclude <stdlib.h> 
#include <fcntl.h> 
#include "pty_master_open.h" /* Declares ptyMasterOpen() */ 
#include “tlpi hdr.h" 


int 
ptyMasterOpen(char *slaveName, size_t snLen) 


int masterFd, savedErrno; 
char *p; 


masterFd = posix openpt(O RDWR | O NOCTTY); /* Open pty master */ 


if (masterFd == -1) 
return -1; 

if (grantpt(masterFd) == -1) { /* Grant access to slave pty */ 
savedErrno = errno; 
close(masterFd) ; /* Might change ‘errno’ */ 
errno = savedErrno; 
return -1; 

} 

if (unlockpt(masterFd) == -1) { /* Unlock slave pty */ 
savedErrno = errno; 
close(masterFd) ; /* Might change ‘errno’ */ 
errno = savedErrno; 
return -1; 

} 

p = ptsname(masterFd); /* Get slave pty name */ 


if (p == NULL) { 
savedErrno = errno; 


close(masterFd); /* Might change ‘errno’ */ 
errno = savedErrno; 
return -1; 


} 


if (strlen(p) < snLen) { 
strncpy{slaveName, p, snLen); 


} else { /* Return an error if buffer too small */ 
close(masterFd) ; 
errno = EQVERFLOW; 
return -1; 

} 


return masterFd; 


pty/pty_master_open.c 


64.4 将 进程 连接 到 伪 终 端 : ptyFork() 


如 图 64-2 所 示 ， 现 在 我 们 准备 通过 伪 终 端 来 实现 一 个 函数 ， 完 成 所 
有 在 两 个 进程 间 建 立 连接 的 任务 。 函 数 ptyFork0) 创 建 一 个 子 进 程 ， 通 过 
伪 终 端 对 连接 到 父 进程 上 。 





#include "pty_fork.h" 


pid t ptyFork{int *masterFd, char *slaveName, size_t snLen, 
const struct termios *slavelermios, const struct winsize *slaveWS); 
In parent: returns process ID of child on success, or -1 on error; 
in successfully created child: always returns 0 











ptyForkO 的 实现 见 程序 清单 64-2。 该 函数 执行 如 下 的 步 又。 
。 通过 调用 ptyMasterOpen() 〈 见 程序 清单 64-1) OFI FAA im Ei 
备 


e 如 果 人 参数 slaveName 不 为 NULL， 拷 贝 伪 终端 从 设备 名 到 这 个 缓冲 区 
He), (如 果 slaveName 不 为 NULL， 那 么 它 必须 指向 一 段 长 度 至 少 
为 snLen 字 节 的 缓冲 区 。) 如 果 合 适 的 话 ， 调 用 者 可 以 用 这 个 名 字 
来 更 新 登录 账户 文件 〈 见 第 40 章 ) 。 更 新 登录 账户 文件 对 于 那些 提 
供 登 录 服 务 的 应 用 来 说 会 很 合适 比如 ssh、rlogin 以 及 telnet。 另 
一 方面 ， 像 script(1) 这 样 的 程序 ( 见 64.6 节 ) 不 会 更 新 登录 账户 文 
件 ， 因 为 它们 并 不 提供 登录 服务 。 

。 调用 fork0) 来 创建 一 个 子 进程 @)。 

© 父 进程 在 完成 fork0 调 用 之 后 所 做 的 束 是 确保 将 伪 终 端 主 设备 的 文 
件 描 述 符 通过 指向 整 型 变量 的 指针 masterFd 返 回 给 调用 者 。 

。 fork0 调 用 之 后 ， 子 进程 执行 如 下 的 步 又。 

o 调用 setsid0 创 建 一 个 新 会 话 〈 见 34.3 节 ) ©. FPR EK SH 
会 话 的 头领 进程 ， 并 失去 其 控制 终端 〈 如 果 有 的 话 ) 。 

o C ne ete 因为 子 进程 中 已 经 不 再 需要 
已 P 

o 打开 伪 终 端 从 设备 @。 由 于 在 上 一 步 中 子 进 程 失去 了 控制 终 
端 ， 这 一 步 将 导致 伪 终 端 从 设备 成 为 子 进 程 的 控制 终端 。 

o 如 果 定 义 了 TIOCSCTTY 宏 ， 在 伪 终 端 从 设备 的 文件 描述 符 上 
执行 一 次 TIOCSCTTY ioct10 操 作 @。 这 段 代码 使 我 们 的 























ptyFrok() 函 数 能 工作 在 BSD 平 台 上 ， 这 里 只 有 显 式 地 执行 
TIOCSCTTY 操 作 才 能 获取 控制 终端 ( 见 34.4 广 )。 

如 果 参 数 slaveTermios 不 为 NULL， 调 用 tcsetattr() 来 设 定 从 设备 
的 终 问 属性 ， 设 定 的 值 从 该 参数 指向 的 termios 结 构 体 中 获取 
(9)。 使 用 这 个 参数 对 某 些 特定 的 交互 式 程 序 〈 例 如 script(1)) 
来 说 很 方便 ， 这 些 程序 使 用 伪 终 端 并 需要 将 从 设备 的 属性 值 设 
定 为 同 程序 运行 的 终端 一 样 。 

如 果 参 数 slaveWS 不 为 空 ， 执 行 一 次 TIOCSWINSZ ioctl0 操 作 
来 设 定 伪 终 端 从 设备 的 窗口 大 小 ， 设 定 的 值 从 该 参数 指 癌 的 
winsize 结 构 体 中 获取 电 。 执 行 该 步骤 的 理由 同上 。 

调用 dup20 复 制 从 设备 文件 摘 述 符 ， 使 其 成 为 子 进程 的 标准 输 
入 、 输 出 以 及 标准 错误 输出 。 此 时 ， 子 进程 就 可 以 加 载 执 行 任 
意 的 程序 了 。 被 执行 的 程序 可 以 使 用 标准 的 文件 描述 符 来 同 伪 
终端 通信 。 被 执行 的 程序 可 以 执行 所 有 面 癌 终端 的 第 规 操作 ， 
这 些 操作 都 可 以 在 运行 于 常规 终端 下 的 程序 中 执行 。 


同 fork() 一 样 ，ptyFork() 在 父 进程 中 返回 子 进程 的 ID， 在 子 进程 中 
返回 0， 如 果 失 败 则 返回 -1。 


最 终 ， 由 ptyFork() 创 建 的 子 进程 会 终止 。 如 果 父 进程 没有 在 同一 时 
刻 终止 的 话 ， 那 么 就 必须 等 待 子 进程 退出 以 避免 出 现 僵尸 进程 。 但 是 这 
一 步 通 常 可 以 省 略 ， 因 为 采用 伪 终 端的 应 用 程序 通常 都 会 设计 成 父子 进 
程 同 时 终止 退出 。 


O 〇 


(0) 


(6) 








由 BSD 衍 生 而 来 的 系统 提供 了 两 个 相关 的 非 标准 函数 
来 同 伪 终端 打交道 。 第 一 个 是 openpty()， 它 打开 一 个 伪 终 
端 对 ， 返 回 主 设备 和 从 设备 的 文件 描述 符 ， 以 可 选 的 方式 
返回 从 设备 名 称 。 同 样 ， 也 能 够 以 可 选 的 方式 通过 类 似 于 
slaveTermios 和 slaveWS 参 数 设 定 终端 的 属性 和 窗口 大 小 。 
为 一 个 函数 是 forkpty()， 除 了 并 没有 提供 类 似 于 snLen 参 数 
外 ， 和 我 们 这 里 实现 的 ptyFork() 一 样 。 在 Linux 上 ， 这 两 个 
函数 都 由 glibc 提 供 ， 都 在 openpty(3) 手 册页 中 做 了 文档 说 
HA 











程序 清单 64-2: 实现 ptyFork() 


一 pty/pty fork.c 


#include 
#include 
#include 
#include 
#include 
#include 


<fentl.h> 

<termios.h> 

<sys/ioctl.h> 

"pty_master_open.h" 

"pty_fork.h" /* Declares ptyFork() */ 
"tlpi_hdr.h" 


#define MAX_SNAME 1000 


pid t 


ptyFork(int *masterFd, char *slaveName, size_t snLen, 


{ 


int mfd, slaveFd, savedErrno; 
pid_t childPid; 


char 


slname[MAX_SNAME ] ; 


const struct termios *slaveTermios, const struct winsize *slaveWS) 


© 


® 


© 


® #ifdef TIOCSCTTY 


® 


W 


mfd = ptyMasterOpen({slname, MAX SNAME); 
if (mfd == -1) 
return -1; 


if (slaveName != NULL) { /* Return slave name to caller */ 
if (strlen(slname) < snLen) { 
strncpy(slaveName, slname, snLen); 


} else { /* ‘slaveName'’ was too small */ 
close(mfd); 
errno = EOQVERFLOW; 
return -1; 
} 
} 
childPid = fork(); 
if (childPid == -1) { /* fork() failed */ 
savedErrno = errno; /* close() might change ‘errno’ */ 
close(mfd) ; /* Don't leak file descriptors */ 
errno = savedErrno; 
return -1; 
} 
if (childPid != 0) { /* Parent */ 
*masterFd = mfd; /* Only parent gets master fd */ 
return childPid; /* Like parent of fork() */ 
} 


/* Child falls through to here */ 


if (setsid() == -1) /* Start a new session */ 
err_exit("ptyFork:setsid"); 


close(mfd); /* Not needed in child */ 
slaveFd = open(slname, O_RDWR); /* Becomes controlling tty */ 


if (slaveFd == -1) 
err_exit("ptyFork:open-slave") ; 


if (ioctl(slaveFd, TIOCSCTTY, 0) == -1) 
err_exit("ptyFork:ioctl-TIOCSCTTY"); 


tendif 


if (slaveTermios != NULL) /* Set slave tty attributes */ 
if (tcsetattr(slaveFd, TCSANOW, slaveTermios) == -1) 
err exit("ptyFork:tcsetattr”); 


if (slaveWS != NULL) /* Set slave tty window size */ 
if (ioctl(slaveFd, TIOCSWINSZ, slaveWS) == -1) 
err exit("ptyFork:ioctl-TIOCSWINS2"); 


/* Acquire controlling tty on BSD */ 


/* Duplicate pty slave to be child's stdin, stdout, and stderr */ 


if (dup2(slaveFd, STDIN_FILENO) != STDIN FILENO) 
err_exit("ptyFork:dup2-STDIN FILENO") ; 

if (dup2(slaveFd, STDOUT _FILENO) != STDOUT _FILENO) 
err_exit ("ptyFork:dup2-STDOUT_FILENO"); 

if (dup2(slaveFd, STDERR FILENO) != STDERR FILENO) 
err exit ("ptyFork:dup2-STDERR FILENO"); 


if (slaveFd > STDERR FILENO) /* Safety check */ 
close(slaveFd); /* No longer need this fd */ 
return 0; /* Like child of fork() */ 


pty/pty_fork.c 


64.5 ïm 


一 对 伪 终 并 同一 个 双 回 管道 很 相似 。 任 何 写 入 到 伪 终 端 主 设备 的 数 
据 都 会 在 从 设备 端 作为 输入 出 现 ， 而 任何 写 入 到 从 设备 端的 数据 也 会 在 
主 设备 剖 作 为 输入 出 现 。 


伪 终 端 对 同 双 同 管道 之 间 的 区 别 在 于 伪 终 端的 从 设备 端 表现 得 束 像 
一 个 终 剖 设备 一 样 。 从 设备 六 解 释 输 入 的 方式 就 和 一 个 普通 的 控制 终端 
解释 键盘 输入 的 方式 一 样 。 比 如 ， 如 果 我 们 写 入 一 个 Ctrl-C 字 符 〈 通 第 
代表 中 断 字符 ) 到 伪 终 端 主 设备 上 ， 则 从 设备 问 将 为 其 前 台 进 程 组 产生 
一 个 SIGINT 信和 号。 如 同一 个 常规 的 终 痢 一样， 当 伪 终 兽 从 设备 工作 于 
规范 模式 下 时 《默认 情况 ) ， 输 入 是 按 行 来 缓冲 的 。 换 句 话 说 ， 只 有 妆 
我 们 向 伪 终 端 主 设备 写 入 一 个 换行 符 时 ， 同 从 设备 端 读 取 输入 的 程序 才 
会 看 到 一 行 输入 。 

同 管道 一 样 ， 伪 终端 的 缓冲 能 力也 是 有 限 的 。 如 采 我 们 将 极限 耗 


尽 ， 那 么 未 来 的 写 操作 都 会 阻塞 ， 直 到 伪 终 端 另 一 端的 进程 读 取 了 一 些 
字 节 后 才能 再 次 写 入 。 








在 Linux 上 ， 伪 终端 的 双 癌 绥 冲 能 力 大 约 为 4kB。 


如 果 我 们 关闭 所 有 代表 伪 终 端 主 设备 的 文件 描述 符 ， 那 么 : 


如 果 从 设备 有 一 个 控制 进程 ， 会 发 送 SIGHUP 信 号 到 那个 进程 〈 见 
34.677) ; 

问 从 设备 端 读 取 的 read0 将 返回 文件 结尾 BOF (0) ; 

写 入 到 从 设备 端的 write0 操 作 会 失败 ， 错 误 码 为 EIO。 在 其 他 一 
些 UNIX 实 现 中 ， 这 种 情况 下 write0 失 败 的 错误 码 为 ENXIO。 ) 


如 果 我 们 关闭 所 有 代表 伪 终 端 从 设备 的 文件 描述 符 ， 那 么 : 
。 癌 主 设备 端 读 取 的 read() 操 作 会 失败 ， 错 误 码 为 EIO 在 其 他 一 些 


UNIX 实 现 中 ， 此 时 read0 会 返回 文件 结尾 EOF) ; 

。 写 入 到 主 设备 端的 write() 操 作 会 成 功 ， 除 非 从 设备 的 输入 队列 已 
满 ， 这 种 情况 下 write0 会 阻塞 。 如 果 随 后 重新 打开 从 设备 ， 这 些 与 
入 的 字 节 都 可 以 被 读 取 。 


对 于 最 后 一 种 情况 ， 不 同 的 UNIX 实 现 之 间 差 异 很 大 。 在 某 些 UNIX 
实现 中 ，write0) 会 失败 ， 伴 随 的 错误 码 为 EIO。 在 其 他 一 些 实现 中 write() 
却 会 成 功 ， 但 是 输出 的 字 节 会 被 丢弃 〈 即 ， 如 果 重 新 打开 从 设备 端的 话 
这 些 字 节 也 不 能 被 读 取 ) 。 一 般 来 说 ， 这 些 不 同 之 处 并 不 会 产生 什么 问 
题 。 通 常情 况 下 ， 位 于 主 设备 端的 进程 通过 read0 是 否 返回 文件 结尾 或 
z Aa 
一 步 的 写 操作 。 


信和 包 模 式 


信 包 模式 是 当 伪 终端 从 设备 上 与 软 流 控 相 关 的 事件 发 生 时 ， 上 自动 通 
知 给 运行 在 伪 终 端 主 设备 上 进程 的 机 制 。 这 些 事 件 包括 : 


。 刷 新 输入 或 输出 队列 ; 
。 停止 或 开启 终端 输出 (Ctrl-S/Ctrl-Q) ; 
。 开启 或 关闭 流 控 。 


信和 包 模 式 能 帮助 处 理 提供 网 络 登 录 服 务 的 伪 终 端 应 用 例如 Telnet 
和 rlogin) 。 

信和 包 模 式 可 以 通过 对 代表 伪 终 端 主 设备 的 文件 描述 符 上 执行 
TIOCPKT ioctl0 来 开启 。 


























int arg; 


arg = 1; /* 1 == enable; 0 == disable */ 
if (ioctl{mfd, TIOCPKT, &arg) == -1) 
errExit ("ioctl"); 





当局 动 了 信和 模式 后 ， 从 伪 终 端 主 设备 读 取 要 么 返回 一 个 单字 节 非 
零 控 制 符 ， 这 是 一 个 比特 掩 码 ， 表 示 从 设备 端的 状态 是 否 改变 ， 要 么 返 
回 零 字 节 ， 紧 跟 痢 是 写 入 到 从 设备 站 的 单个 或 多 字 节 数据 。 


当 工 作 于 信和 包 模 式 的 伪 终 并 状态 友 生 改变 时 ，select0 会 提示 主 设备 
病 发 生 异 常情 况 ( 通 过 参数 exceptfds〉， 而 poll0 会 在 revents 域 中 返回 








POLLPRI. (select() 和 poll(0) 的 说 明 请 参见 第 63 章 。) 


信和 模式 在 SUSv3 规 范 中 并 不 是 标准 模式 ， 其 中 的 细 在 不 同 的 
UNIX 实 现 中 有 所 区 别 。 更 多 关于 Linux 下 的 信和 模式 ， 包 括 用 来 通知 状 
态 改变 的 比特 掩 码 值 ， 可 以 在 tty_ioctl(4) 的 手册 页 中 找到 。 








64.6 ”实现 script(1) 程 序 


现在 我 们 准备 来 实现 一 个 简化 版 的 标准 script(1) 程 序 。 该 程序 开启 
一 个 新 的 shell 会 “ut 从 该 会 话 中 记录 所 有 的 输入 和 输出 到 文件 中 。 本 书 
中 展示 的 大 部 分 shell 会 话 都 是 用 script 程 序 来 记录 的 。 


年 普通 的 登录 会 话 中 ， shell Ele tebe SUS" WYER mE HRI 
运行 script 程 序 时 ， 它 将 自己 置 于 用 户 的 终端 和 shell 之 则 ， 然 后 使 用 一 对 
伪 终 端 在 自己 和 shell 之 间 创 建 通信 信道 ( 见 图 64 4) 。shell 连 接 到 伪 终 
端 从 设备 上 。 Script 进程 连接 到 伪 终 端 主 设备 端 。script 进 程 对 用 户 表 现 
ae 个 代理 ， 接 收 键入 到 终端 ANNAK SEINA 前 主 设备 上 ， 从 伪 终 

问 主 设备 恋 取 和 输出， 再 写 入 到 用 户 的 终端 
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图 64-4: script 程 序 


此 外 ，script 程 序 会 生成 一 个 生出 文件 (默认 名 为 typescript) ， 该 文 
件 包 含 所 有 输出 到 伪 终 端 主 设备 的 字 节 。 这 样 就 达到 了 不 仅 记 录 了 由 
shell 会 话 产 生 的 输出 ， 而 且 还 包含 了 用 户 提供 的 输入 的 效果 。 输 入 也 被 








记录 了 ， 这 是 因为 同 癌 规 的 终端 设备 一 样 ， 内 核 通过 将 输入 拷贝 到 终端 
输出 队列 来 回 显 输入 字符 《〈 见 图 64-1) 。 但 是 ， 当 关闭 终端 回 显 功能 


后 ， 


比如 读 取 密码 的 程序 ， 伪 终端 从 设备 的 输入 就 不 会 拷贝 到 从 设备 输 


出 队列 中 ， 因 而 也 就 不 会 拷贝 到 script 程 序 的 输出 文件 中 。 











我 们 实现 的 Script 程序 请 参见 程序 清单 64-3。 该 程序 执行 以 下 步骤 。 


获取 程序 运行 下 的 终端 属性 和 窗口 大 小 上 四。 这 些 数据 将 传递 给 接 下 
ee 
调用 我 们 的 ptyForkO 函 数 〈 见 程序 清单 64-2) 来 创建 子 进程 ， 通 过 
伪 终 端 对 连接 到 父 进程 上 @)。 

ptyFork() 调 用 之 后 ， 子 进程 执行 一 个 shell4)。 关 于 shell 的 选择 是 由 
SHELL 环 境 变 量 来 决定 的 @)。 如 果 SHELL 环境 变量 没有 设 定 或 其 
值 是 空 字符 串 ， 那 么 子 进程 将 执行 /bin/sh。 

ptyFork0O 调 用 之 后 ， 父 进程 执行 如 下 的 步骤 。 

o 打开 script 输 出 文件 。 如 果 提 供 有 命令 行 参数 ， 使 用 命令 行 
参数 作为 输出 文件 名 ， 人 否则 使 用 默认 的 typescript 作 为 文件 名 。 
将 终端 设 为 原始 模式 〈 通 过 ttySetRaw0 函 数 来 设 定 ， 见 程序 清 
单 62-3) ， 这 样 所 有 的 输入 字符 都 会 直接 传递 给 script 程 序 ， 而 
不 会 被 终端 驱动 程序 修改 的 。 同 样 ，script 程 序 的 输出 字符 也 
不 会 被 终端 驱动 程序 修改 。 
调用 atexit0 安 装 一 个 退出 处 理 例 程 ， 当 程序 终止 退出 时 将 终端 
重 置 为 原来 的 模式 @)。 
通过 一 个 循环 在 终端 和 伪 终 端 主 设备 间 双 向 传送 数据 @@。 在 每 
一 轮 循环 迭代 中 ， 首 先 使 用 select(O( 见 63.2.1 节 ) 来 监视 终端 
和 伪 终 端 主 设备 上 的 输入 @@@。 如 果 终 端 有 输入 ， 就 读 取 一 些 输 
入 并 写 入 到 伪 终 端 主 设备 中 中。 同样 的 ， 如 果 伪 终端 主 设备 端 
有 输入 的 话 ， 程 序 就 读 取 一 些 输入 并 写 入 到 终端 以 及 输出 文件 
中 。 循 环 持 续 执行 直到 遇 到 文件 结尾 或 者 检测 到 在 被 监视 的 文 
件 描 述 符 上 出 现 错误 时 ， 循 环 终止。 














fe) 








O 〇 


(0) 


处 于 原始 模式 下 的 终端 并 不 意味 着 原始 的 、 未 经 过 解 
释 的 控制 字符 会 传递 给 shell， 或 者 伪 终 端 从 设备 的 其 他 任 


何 前 台 进 程 组 ， 也 不 代表 该 进程 组 的 输出 会 以 原始 方式 传 
递 给 用 户 的 终 跨 。 相 反 ， 是 在 从 设备 中 对 终端 特殊 字符 做 
解释 除非 该 从 设备 也 被 显 式 地 设置 为 原始 模式 ) 。 通 过 
将 用 户 终 端 设 为 原始 模式 ， 我 们 可 以 避免 对 输入 输出 字符 
做 两 轮 解释 。 



































程序 清单 64-3: script(1) 的 简单 实现 














#include <sys/stat.h> 

#include <fcntl.h> 

#include <libgen.h> 

#include <termios.h> 

#include <sys/select.h> 

#include "pty _fork.h" /* Declaration of ptyFork() */ 
#include "tty_functions.h" /* Declaration of ttySetRaw() */ 
#include "tlpi_hdr.h" 


#define BUF_SIZE 256 
#define MAX_SNAME 1000 


struct termios ttyOrig; 


static void /* Reset terminal mode on program exit */ 
ttyReset (void) 
{ 


if (tcsetattr(STDIN FILENO, TCSANOW, &ttyOrig) == -1) 
errExit("tcsetattr”); 


} 


int 
main(int argc, char *argv{]) 


char slaveName[MAX_SNAME ] ; 
char *shell; 

int masterFd, scriptFd; 
struct winsize ws; 

fd set inFds; 

char buf[BUF_SIZE]; 
ssize t numRead; 

pid_t childPid; 


if (tcgetattr(STDIN FILENO, &ttyOrig) == -1) 
errExit("tcgetattr”); 

if (ioctl(STDIN FILENO, TIOCGWINSZ, &ws) < 0) 
errExit("ioctl-TIOCGWINS2") ; 


childPid = ptyFork(&masterFd, slaveName, MAX_SNAME, &ttyOrig, &ws); 


if (childPid == -1) 
errExit("ptyFork"); 


pty/script. 


if (childPid == 0) { /* Child: execute a shell on pty slave */ 


shell = getenv("SHELL"); 
if (shell == NULL || *shell == '\0') 
shell = "/bin/sh"; 


execlp(shell, shell, (char *) NULL); 


errExit("execlp"); /* If we get here, something went wrong */ 


/* Parent: relay data between terminal and pty master */ 


©) scriptFd = open((argc > 1) ? argv[1] : "typescript", 
O WRONLY | O CREAT | O TRUNC, 
S_IRUSR | S_IWUSR | S_IRGRP | S_IWGRP | 
S_IROTH | S IWOTH); 
if (scriptFd == -1) 
errExit("open typescript”); 


© 


ttySetRaw(STDIN FILENO, &ttyOrig); 


Ol if (atexit(ttyReset) != 0) 
errExit("atexit"); 


© for (53) { 
FD_ZERO(&inFds) ; 
FD SET(STDIN FILENO, &inFds); 
FD_SET(masterFd, &inFds); 


© if (select(masterFd + 1, &inFds, NULL, NULL, NULL) == -1) 
errExit("select"); 


O if (FD_ISSET(STDIN FILENO, &inFds)) { /* stdin --> pty */ 
numRead = read(STDIN FILENO, buf, BUF SIZE); 
if (numRead <= 0) 
exit(EXIT_SUCCESS); 


if (write(masterFd, buf, numRead) != numRead) 
fatal("partial/failed write (masterFd)"); 
} 


4d if (FD_ISSET(masterFd, &inFds)) { /* pty --> stdout+file */ 
numRead = read(masterFd, buf, BUF SIZE); 
if (numRead <= 0) 
exit(EXIT_ SUCCESS); 


if (write(STDOUT_FILENO, buf, numRead) != numRead) 
fatal("partial/failed write (STDOUT _FILENO)"); 

if (write(scriptFd, buf, numRead) != numRead) 
fatal ("partial/failed write (scriptFd)"); 


pty/script.c 


在 下 面 的 shell 会 话 中 ， 我 们 过 步 识 明 癌 何 使 用 程序 党 引 64-3 中 的 程 
序 。 首 先 ， 我 们 显示 出 xterm 所 使 用 的 伪 终 端 名 称 ， 登 录 shell 就 运行 于 





其 之 上 ， 以 及 登录 shell 的 进程 ID 号 。 这 些 信息 稍 后 会 很 有 帮助 。 


$ tty 
/dev/pts/1 
$ echo $$ 
7979 


然后 启动 script 程 序 ， 该 程序 也 会 月 动 一 个 子 shell 进 程 。 再 一 次 的 ， 
我 们 显示 出 承载 shell 运 行 的 终端 名 称 以 及 shell 的 进程 ID 号 。 


$ ./script 

$ tty 

/dev/pts/24 Pseudoterminal slave opened by script 
$ echo $$ 

29825 PID of subshell process started by script 


现在 我 们 使 用 ps(1) 命 令 来 显示 有 关 两 个 shell 以 及 script 进 程 间 的 相关 
信息 ， 最 后 关闭 由 Script 程序 启动 的 shell。 


$ ps -p 7979 -p 29825 -C script -o "pid ppid sid tty cmd" 
PID PPID SID TT CMD 
7979 7972 7979 pts/1 /bin/bash 

29824 7979 7979 pts/1 ./script 

29825 29824 29825 pts/24 /bin/bash 

$ exit 


ps(1) 的 输出 显示 了 登录 shell、script 进 程 以 及 由 script 启 动 的 子 shell 
之 间 的 父子 进程 关系 。 


此 时 我 们 已 经 返回 到 了 登录 shell 中 。 打 开 typescript 文 件 ， 其 中 记录 
了 所 有 script 程 序 运 行 时 产生 的 输入 和 输出 。 


$ cat typescript 
$ tty 
/dev/pts/24 
$ echo $$ 
29825 
$ ps -p 7979 -p 29825 -C script -o "pid ppid sid tty cmd” 
PID PPID SID TT CMD 
7979 7972 7979 pts/1 /bin/bash 
29824 7979 7979 pts/1 ./ script 
29825 29824 29825 pts/24 /bin/bash 
$ exit 











64.7 ”终端 属性 和 窗口 大 小 


伪 终 端 主 从 设备 共享 终端 属性 〈termios) 和 窗口 大 小 Cwinsize) 结 
构 。 (这 两 个 结构 体 在 第 62 间 中 介绍 过 。) 这 表示 运行 在 伪 终 端 主 设备 
上 的 程序 可 以 通过 在 主 设备 文件 描述 符 上 调用 tcsetattr() 和 ioctl() 来 修改 
从 设备 病 的 属性 和 窗口 大 小 。 


一 个 修改 终端 属性 会 囊 来 好 处 的 例子 束 是 script 程 厅 。 假 设 我 们 在 
一 个 终 痢 模拟 絮 窗 口中 运行 script 程 序 ， 然 后 修改 窗口 的 大 小 。 在 这 种 
情况 下 ， 终 端 模拟 器 程序 将 通知 内 核 相应 的 终端 设备 窗口 大 小 发 生 了 改 
变 ， 但 这 个 改变 不 会 影响 到 内 核对 伪 终 端 从 设备 的 记录 〈 见 图 64-4) 。 
结果 就 是 运行 在 伪 终 端 从 设备 上 的 面 癌 屏幕 的 程序 《比如 vi) 输出 将 出 
现 乱 码 ， 因 为 它们 所 理解 的 窗口 大 小 与 实际 的 终端 窗口 大 小 不 一 致 。 我 
们 可 以 按 如 下 步骤 来 解决 这 个 问题 。 


1. 在 script 父 进程 中 安装 一 个 SIGWINCH 信 号 处 理 例 程 ， 这 样 当 终 
端 窗口 发 生变 化 时 可 以 由 此 信和 号 得 到 通知 。 


2.， 当 script 父 进程 收 到 SIGWINCH 信 号 时 ， 使 用 TIOCGWINSZ 
ioctlO 操 作为 终端 窗口 相关 联 的 标准 输入 获取 一 个 winsize 结 构 体 。 然 后 
利用 这 个 结构 体 在 TIOCSWINSZ ioct0 操 作 中 设 定 伪 终端 主 设备 的 窗口 
大 小 5 


3. 如 果 新 的 伪 终 端 窗口 大 小 与 旧 的 不 同 ， 那 么 内 核 会 产生 
SIGWINCH 信 号 给 伪 终 端 从 设备 的 前 台 进 程 组 。vi 这 样 的 屏幕 处 理 程序 
可 捕 es ioctlO0 操 作 来 更 新 它们 的 终端 
窗口 大 小 。 


我 们 在 62.9 节 详细 介绍 了 有 关 终 端 窗 口 大 小 和 TIOCGWSINZE 以 及 
TIOCSWINSZ ioctl0 操 作 的 细节 。 





64.8 BSD 风 格 的 伪 终 端 


本 章 大 部 分 内 容 都 集中 于 讨论 UNIX 98 伪 终端 ， 因 为 这 是 在 SUSv3 
标准 中 规定 的 伪 终 端 风格 ， 因 而 所 有 新 的 程序 都 应 该 遵守 。 但 是 有 时 候 
我 们 还 是 会 在 老 的 程序 中 ， 或 者 当 我 们 从 其 他 UNIX 实 现 癌 Linux 移 植 程 
人 因此 现在 我 们 就 来 探讨 一 下 BSD 伪 终端 
细节。 











Linux 己 经 不 再 使 用 BSD 风 格 的 伪 终 端 7。 从 
Linux2.6.4 版 以 来 ，BSD 风 格 的 伪 终 端 作为 可 选 的 内 核 组 件 
可 以 通过 CONEFIG_LEGACY PTYS 在 内 核 配置 选 项 中 设 


BSD 伪 终端 同 UNIX98 伪 终端 的 区 别 仅仅 只 在 如 何 找到 并 打开 伪 终 
端 主 从 设备 的 细节 上 。 一 旦 主 从 设备 都 已 经 打开 ， 操 作 BSD 伪 终端 的 方 
式 同 UNIX98 伪 终端 一 样 。 


在 UNIX98 伪 终端 中 ， 我 们 获取 未 使 用 的 伪 终 端 主 设备 是 通过 调用 
posix_openpt()， 该 函数 会 打开 /dev/ptmx 一 一 伪 终 端 主 设备 的 克隆 。 我 们 
可 以 通过 ptsname() 获 取 相 应 的 伪 终 端 从 设备 名 称 。 与 之 相反 ，BSD 伪 终 
端的 主 从 设备 已 经 在 /dev 下 预先 创建 好 了 。 每 个 主 设备 的 名 称 按 
照 /dev/ptyxy 的 形式 呈现 ， 这 里 x 会 由 [p-za-e] 范 围 内 的 16 个 字符 来 蔡 换 ， 
而 y 由 [0-9a- 旬 范围 内 的 16 个 字符 来 亚 换 。 与 特定 的 伪 终 端 主 设备 相对 应 
的 从 设备 名 形式 为 /dev/ttyxt。 因 此 ， 举 个 例子 ，/dev/ptyp0 和 /dev/ttyp0 就 
组 成 了 一 对 BSD 风 格 的 伪 终 端 。 


不 同 的 UNIX 实 现 对 于 BSD 风 格 的 伪 终 端 ， 所 提供 的 数 
量 和 名 字 都 有 所 不 同 。 在 有 些 实现 中 默认 提供 32 对 。 大 多 








数 实现 中 至 少 会 提供 32 对 名 称 形式 为 /dev/pty[pq][0-9a-f] 的 
BSD 伪 终端 。 


要 找 出 未 使 用 的 伪 终 端 对 ， 我 们 通过 一 个 循环 来 演 试 打开 每 一 个 主 
设备 ， 直 到 能 够 成 功 打开 其 中 一 个 为 止 。 当 执行 这 个 循环 时 ， 调 用 
open0O 时 可 能 会 遇 到 两 个 错误 。 


。 如 果 给 定 的 主 设备 名 不 存在 ，open0 调 用 将 失败 ， 错 误 码 为 
ENOENT。 通 常 这 表示 我 们 已 经 遍历 了 系统 中 整个 主 设备 名 的 组 
合 ， 但 是 找 不 到 一 个 空闲 的 设备 〈 即 ， 在 上 述 列 出 的 设备 名 范围 内 
找 不 到 指定 的 名 称 ) 。 

。 如 果 主 设备 正在 使 用 中 ，open0 调 用 也 会 失败 ， 此 时 错误 码 为 
EIO。 我 们 可 以 忽略 这 个 错误 直接 尝试 打开 下 一 个 设备 。 


在 HP-UX 11 系 统 中 ， 当 尝试 打开 一 个 正在 使 用 中 的 
BSD 伪 终端 主 设备 时 ，open0 失 败 的 错误 码 为 EBUSY。 





一 旦 找到 了 可 用 的 主 设备 ， 我 们 残 可 以 获取 对 应 的 从 设备 名 称 。 这 
只 要 用 tty 来 蕉 换 主 设备 名 中 的 pty 就 可 以 了 。 之 后 我 们 束 可 以 通过 open() 
来 打开 从 设备 了 。 


对 于 BSD 伪 终端 ， 这 里 并 没有 等 价 于 grantptO 的 函数 来 
修改 从 设备 的 属 主 和 权限 。 如 果 我 们 需要 修改 的 话 ， 那 么 
就 必须 显 式 地 调用 chown() (只 有 特权 级 程序 才 可 以 这 么 
做 ) 和 chmod0。 或 者 写 一 个 设 定 用 户 ID 的 程序 〈 惑 像 
pt_chown 一 样 ) 来 为 一 个 非特 权 级 程序 执行 这 样 的 任务 。 


程序 清单 64-4 给 出 了 ptyMasterOpen() 的 男 一 种 实现 ， 这 里 使 用 的 是 
BSD 风 格 的 伪 终 端 。 如 果 要 让 我 们 的 Script 程序 〈《 见 64.6 节 ) 能 工作 在 
BSD 伪 终端 上 的 话 ， 所 有 要 做 的 就 是 用 这 个 实现 蔡 换 之 前 的 
ptyMasterOpen(). 








程序 清单 64-4: 使 用 BSD 伪 终端 的 ptyMasterOpen(0 实 现 





pty/pty_master_open_bsd.c 
#include <fcntl.h> 
#include "pty master _open,h" /* Declares ptyMasterOpen() */ 
#include "tlpi_hdr.h" 


#define PTYM PREFIX "/dev/pty" 

#define PTYS PREFIX "/dev/tty" 

#define PTY PREFIX LEN (sizeof(PTYM PREFIX) - 1) 
#define PTY NAME LEN (PTY PREFIX LEN + sizeof("XY")) 


#define X_RANGE "pqrstuvwxyzabcde" 
#define Y RANGE "0123456789abcdef" 
int 


ptyMasterOpen({char *slaveName, size t snLen) 


int masterFd, n; 
char *x, *y; 
char masterName[PTY NAME LEN]; 


if (PTY NAME LEN > snLen) { 
errno = EQVERFLOW; 
return -1; 


memset(masterName, O, PTY _NAME_LEN); 
strncpy(masterName, PTYM PREFIX, PTY PREFIX LEN); 


for (x = X RANGE; *x != "\O'; x+) { 


masterName[PTY PREFIX LEN] = *x; 


for (y = Y_RANGE; *y {= '\o'; y++) { 
masterName[PTY PREFIX LEN + 1] = *y; 


masterFd = open{masterName, O_RDWR); 


if (masterFd == -1) { 
if (errno == ENOENT) /* No such file */ 


return -1; /* Probably no more pty devices */ 
else /* Other error (e.g., pty busy) */ 
continue; 
} else { /* Return slave name corresponding to master */ 


n = snprintf(slaveName, snLen, "%s%c%c", PTYS PREFIX, *x, *y); 
if (n >= snLen) { 
errno = EOVERFLOW; 


return -1; 
} else if (n == -1) { 
return -1; 
} 
return masterFd; 
} 
} 
} 
return -1; /* Tried all ptys without success */ 


一 pty/pty master open _bsd.c 


64.9 ”总 结 


伪 终 端 对 是 由 一 对 互联 的 伪 终 疹 主 设备 和 从 设备 组 成 的 。 连 接 在 一 
起 后 ， 这 两 个 设备 提供 了 一 个 双 回 的 IPC 通 道 。 伪 终端 的 好 处 在 于 ， 我 
们 可 以 将 一 个 面向 终 并 的 程序 连接 到 从 设备 端 ， 它 可 以 通过 打开 了 主 设 
备 的 程序 来 驱动 。 伪 终端 从 设备 表现 得 束 像 一 个 常规 的 终端 一 样 。 所 有 
可 以 施加 于 第 规 终端 上 的 操作 都 可 以 施加 于 从 设备 上 ， 而 且 从 主 设备 到 
从 设备 传递 的 输入 ， 其 解释 的 方式 同 键盘 输入 到 常规 终端 的 方式 一 样 。 


伪 终 端的 一 种 种 见 用 途 是 提供 网 络 登录 服务 的 应 用 。 但 是 ， 伪 终端 
也 可 以 用 在 许多 其 他 的 程序 中 ， 比 如 终端 模拟 器 以 及 script(1) 程 序 。 


System V 和 BSD 系 统 提供 了 不 同 的 伪 终 端 API。Linux 对 这 两 种 API 
都 提供 支持 ， 但 是 System V 的 伪 终 端 API 成 为 了 SUSv3 规 范 中 的 标准 。 





64.10 ”练习 


64-1. 运行 程序 清单 64-3 中 的 程序 ， 当 用 户 键入 文件 结尾 符 〈 通 名 
是 Ctrl-D) 时 ，script 程 序 的 父子 进程 按照 什么 顺序 退出 ? 为 什么 ? 


64-2. 对 程序 清单 64-3 (script.c) 中 的 程序 做 如 下 修改 。 


a) 标准 的 script(1) 程 序 会 在 输出 文件 的 开始 和 结尾 加 上 用 来 显示 程 
序 启动 和 结束 时 间 的 行 。 请 加 上 这 个 功能 。 


b》〉 如 64.7 节 所 述 ， 增 加 能 够 处 理 终端 窗口 大 小 改变 的 代码 。 你 会 
发 现 程序 清单 62-5 (demo_SIGWINCH.c) 的 程序 很 适合 来 测试 这 个 功 


ABb 
HE o 


64-3. 修改 程序 清单 64-3 (script.c) 中 的 程序 ， 将 select() 蔡 换 为 一 
对 进程 。 其 中 一 个 处 理 从 终端 到 伪 终 端 主 设备 的 数据 传输 ， 另 一 个 处 理 
相反 方向 上 的 数据 传输 。 


64-4. 修改 程序 清单 64-3 〈scriptc) 中 的 程序 ， 为 其 增加 一 个 记录 
时 间 惟 的 功能 。 每 次 该 程序 向 typescript 文 件 写 入 字符 串 时 ， 它 还 应 该 写 
一 个 时 间 戳 字符 串 到 第 二 个 文件 中 《比方 说 typescript.timed) 。 写 入 到 
第 二 个 文件 中 的 字符 串 应 满足 如 下 形式 。 


<timestamp> <space> <string> <newline> 


timestamp 应 该 以 文本 形式 记录 下 从 script 程 序 启 动 以 来 经 历 过 的 旦 
秒 数 。 将 时 间 惟 以 文本 形式 记录 的 好 处 是 其 结果 容易 阅读 。 在 string 
中 ， 真 正 的 换行 符 需要 进行 转 义 。 一 种 可 能 的 方式 是 将 一 个 换行 符 记录 
为 2 个 字符 的 序列 一 一 mn， 反 和 斜 线 记 为 \\。 


再 写 一 个 程序 script_replay.c， 该 程序 读 取 时 间 惟 文件 并 在 标准 输出 
上 显示 其 内 容 ， 要 求 显示 的 进度 同 当初 写 入 时 的 进度 相同 。 将 这 两 个 程 
序 结合 起 来 就 提供 了 一 个 简单 的 记录 并 回放 shel] 会 话 的 日 志 功 能 。 


64-5. 实现 客户 器 与 服务 需 程 序 ， 提 供 简单 的 类 似 telnet 风 格 的 远 
程 登录 功能 。 服 务 占 端 要 设计 成 能 处 理 并 及 连接 ( 见 60.1 节 ) 。 图 64-3 
展示 了 为 每 个 客户 问 建 立 登录 服务 的 步骤 。 图 中 没有 显示 的 是 服务 器 端 
































父 进程 ， 该 进程 处 理 从 客户 站 发 送 来 的 套 接 字 连接 ， 并 创建 服务 器 端子 
进程 来 处 理 每 个 连接 。 注 意 ， 所 有 用 来 认证 用 户 以 及 局 动 登录 shell 的 
工作 都 可 以 在 每 个 服务 器 端子 进程 中 通过 调用 ptyFork() 进 而 在 孙子 进程 
中 执行 login(1) 程 序 来 完成 。 

64-6. 为 上 面 的 练习 程序 增加 代码 ， 使 其 能 够 在 登录 会 话 开始 和 结 
束 时 更 新 登录 账户 文件 〈 见 第 40 章 〉。 

64-7. 假设 我 们 执行 了 一 个 长 时 间 运 行 的 程序 ， 该 程序 绥 慢 地 产生 
输出 ， 并 将 输出 重 定向 到 一 个 文件 或 管道 上 ， 比 如 : 
$ longrunner | grep str 

上 面 的 例子 有 个 问题 惑 是 ， 上 默认 情况 下 stdio 只 会 在 标准 输入 绥 冲 
被 填 满 后 才 会 刷新 到 标准 输出 。 这 就 意味 着 上 面 的 longrunner 程序 的 输 


出 将 以 突 发 方式 显示 ， 且 输出 之 间 有 较 长 的 时 间 间 隔 。 规 避 该 问题 的 一 
种 方法 是 写 一 个 程序 按照 如 下 的 步骤 处 理 。 


a) 创建 一 个 伪 终 端 。 


b) 将 标准 文件 描述 符 连 接 到 伪 终 端 从 设备 上 ， 执 行 命令 行 参数 中 
指定 的 程序 。 

c) 从 伪 终 端 主 设备 端 读 取 输 出 ， 并 立刻 写 入 到 标准 输出 上 
(CSTDOUT_FILENO， 文 件 描述 符 1) 。 同 时 ， 从 终端 读 取 输 入 并 写 入 
到 伪 终 端 主 设备 上 ， 这 样 被 执行 的 程序 就 能 读 取 输 入 了 。 

这 样 的 程序 我 们 可 以 称 之 为 unbuffer， 可 以 像 这 样 使 用 : 


$ ./unbuffer longrunner | grep str 


实现 unbuffer 程 序 。《〈 这 个 程序 的 代码 大 部 分 都 和 程序 清单 64-3 中 
的 相似 。) 


64-8. 编写 一 个 程序 实现 一 种 脚本 语言 ， 它 可 以 在 非 交 互 式 模式 下 
驱动 vi。 由 于 Vi 需要 运行 在 终端 上 ， 因 此 该 程序 要 用 到 伪 终 端 。 























附录 A ”跟踪 系统 调用 


strace 命 令 允 许 我 们 跟踪 程序 执行 的 系统 调用 。 这 个 功能 对 调试 程 
序 ， 或 者 只 是 简单 查看 程序 正在 做 些 什么 都 是 非常 有 帮助 的 。strace 最 
简单 的 用 法 如 下 。 


$ strace command arg... 


这 将 以 给 定 的 命令 行 参数 来 运行 该 命令 ， 产 生 程序 所 执行 的 系统 调 
用 跟踪 。 默 认 情 况 下 ，strace 会 将 输出 写 入 到 stderr 中 ， 但 我 们 可 以 通过 - 
0 filename 的 选项 来 修改 这 个 行为 。 


以 下 是 strace 产 生 的 输出 的 例子 ( 取 自 命令 strace date 的 输出 ) 。 


execve("/bin/date", ["date"], [/* 114 vars */])=0 


access("/etc/ld.so.preload", R_OK) = -1 ENOENT (No such file or directory) 
open("/etc/1d.so.cache", 0 RDONLY) = 3 

fstat64(3, {st mode=S IFREG|0644, st size=111059, ...})= 0 

mmap2(NULL, 111059, PROT_READ, MAP_PRIVATE, 3, 0) = 0xb7f38000 

close(3) = 0 

open("/lib/libc.so.6", O RDONLY) 38 

fstat64(3, {st_mode=S_IFREG|0755, st_size=1491141, ...}) = 0 

close(3) = 0 


write(1, "Mon Jan 17 12:14:24 CET 2011\n", 29) = 29 
exit_group(0) =? 


每 个 系统 调用 都 以 一 个 函数 调用 的 形式 显示 出 来 ， 输 入 和 输出 参数 
都 在 括号 中 给 出 。 从 以 上 示例 来 看 ， 参 数 是 以 符号 形式 打印 出 来 的 。 


。 位 掩 码 以 相应 的 符号 常量 来 代表 。 

。 字符 串 以 文本 形式 打印 出 来 〈 长 度 上 限 为 32 个 字符 ， 但 -s strsize 选 
项 可 用 来 更 改 这 个 上 限 ) 。 

。 结构 体 字 段 是 单独 显示 的 《默认 情况 下 ， 只 有 大 型 结构 体 的 子 集 纵 
写 才 会 被 显示 出 来 ， 但 是 -选项 可 用 来 显示 整个 结构 体 ) 。 


在 被 跟踪 调用 的 右 括 号 后 ，strace 打印 出 一 个 等 于 号 (=) ， 紧 跟着 
的 是 该 系统 调用 的 返回 值 。 如 果 系 统 调用 失败 了 ， 也 会 显示 出 ermo 错 误 
码 的 符号 表示 。 因 此 ， 在 上 面 的 accessO0 调 用 中 ， 我 们 看 到 对 应 的 错误 
码 ENOENT 被 打印 了 出 来 。 





就 算 只 是 一 个 简单 的 程序 ，strace 产 生 的 输出 也 很 长 ， 因 为 这 其 中 
包含 了 C 运行 时 库 启动 代码 以 及 加 载 共 享 库 时 所 执行 的 系统 调用 。 对 于 
一 个 复杂 的 程序 来 说 ，strace 的 输出 可 以 相当 的 长 。 基 于 这 些 原因 ， 有 
时 候 对 strace 的 输出 有 选择 性 地 做 些 过 滤 会 非常 有 用 。 一 种 方法 是 利用 
grep， 就 像 这 样 : 


$ strace date 2>&1 | grep open 


另 一 种 方法 是 使 用 -e 选 项 来 选择 需要 跟踪 的 事件 。 比 如 ， 我 们 可 以 
用 如 下 的 命令 来 跟踪 open() 和 close() 系 统 调用 : 


$ strace -e trace=open,close date 


无 论 使 用 上 述 哪 一 种 技术 ， 在 某 些 情况 下 我 们 需要 注意 的 是 : 系统 
调用 的 真实 名 称 同 它 对 应 的 glibc 包 装 函 数 是 有 区 别 的 。 比 如 ， 尽 管 在 第 
26 章 中 我 们 把 所 有 的 waitO-type 函 数 都 认为 是 系统 调用 ， 但 其 实 它 们 中 
的 大 多 数 (wait0、waitpid0 以 及 wait30) 都 是 包装 函数 ， 用 来 调用 内 核 
的 wait40) 系 统 调 用 例 程 。strace 显 示 的 是 后 者 的 名 称 ， 因 此 我 们 在 -e 
trace= 选 项 中 指定 的 名 称 必 须 是 后 者 。 同 样 的 ， 所 有 的 exec 库 函数 〈 见 
27.2 节 ) 都 会 调用 execve0O 系 统 调 用 。 通 常 ， 我 们 可 以 通过 查看 strace 的 
输出 对 这 类 名 称 的 转换 做 猜测 〈 或 者 通过 查看 strace -c 产 生 的 输出 ， 下 
面 会 描述 到 ) 。 但 是 如 果 猿 错 了 ， 我 们 就 需要 在 glibc 的 源码 中 检查 ， 看 
看 在 包装 函数 内 做 了 些 什 么 转换 。 


strace(1) 用 户 手 册页 列 出 了 strace 的 一 些 其 他 选项 ， 如 下 所 示 。 


-p pid 选 项 通过 指定 进程 的 ID 号 来 跟踪 一 个 已 存在 的 进程 。 非 特权 
级 用 户 被 局 限于 只 能 跟踪 它们 自己 ， 以 及 那些 没有 执行 设 定 用 户 
ID 或 设 定 组 ID 操作 的 程序 〈 见 9.3 节 ) 。 

-C 选 项 可 以 使 strace 打 印 出 程序 所 执行 的 所 有 系统 调用 的 概要 。 对 于 
每 个 系统 调用 ， 概 要 信息 包括 总 的 调用 次 数 ， 调 用 失败 的 次 数 ， 以 
及 执行 这 些 调用 所 花费 的 总 时 间 。 

-{ 选 项 可 以 使 该 进程 的 子 进 程 也 能 得 到 跟踪 。 如 果 我 们 将 跟 踩 的 输 
出 发 送 给 一 个 文件 〈-o filename) ， 那 么 可 选 的 -ff 选项 能 使 每 个 进 
程 将 自己 的 跟踪 输出 写 到 名 称 形式 为 flename.PID 的 文件 中 。 


strace 命 令 是 Linux 下 专 有 的 ， 但 大 多 数 UNIX 实 现 都 提供 了 它们 各 
目的 等 价 物 (例如 ，Solaris 上 的 truss， 以 及 BSD 上 的 ktrace) 。 























ltrace 命 令 所 执行 的 任务 同 strace 类 似 ， 但 它 是 针对 库 函 
数 调 用 的 。 请 参阅 ltrace(1) 用 户 手 册页 以 获得 更 多 细节 。 


附录 B 解析 命令 行 选项 


一 个 典型 的 UNIX 命 令 行 有 着 如 下 的 形式 。 





command | options ] arguments 
O 





选项 的 形式 为 连 字 符 〈-) 紧 跟 着 一 个 唯一 的 字符 用 来 标识 该 选 
项 ， 以 及 一 个 针对 该 选项 的 可 选 参数 。 带 有 一 个 参数 的 选项 能 够 以 可 选 
的 方式 在 参数 和 选项 之 间 用 空格 分 开 。 多 个 选项 可 以 在 一 个 单独 的 连 字 
符 后 归 组 在 一 起 ， 而 组 中 最 后 一 个 选项 可 能 会 带 有 一 个 参数 。 根 据 这 些 
规则 ， 下 面 这 些 命令 都 是 等 同 的 。 
$ grep -l -i -f patterns *.c 
$ grep -lif patterns *.c 
$ grep -lifpatterns *.c 

在 上 面 这 些 命令 中 ，-1 和 -i 选 项 没有 参数 ， 而 -{ 选 项 将 字符 串 pattern 
当做 它 的 参数 。 


因为 许多 程序 〈 包 括 本 书 中 的 一 些 示 例 程序 ) 都 需要 按照 上 述 格式 
来 解析 选项 ， 相 关 的 机 制 被 封 沪 在 了 一 个 标准 库 函 数 中 ， 这 就 是 
getopt()。 





#include <unistd.h> 


extern int optind, opterr, optopt; 
extern char *optarg; 


int getopt(int argc, char *const argv[], const char *optstring) ; 


See main text for description of return value 











函数 getopt0) 解 析 给 定 在 参数 argc 和 argv 中 的 命令 行 参 数 集合 。 这 两 
个 参数 通 第 是 从 main() 函 数 的 参数 列表 中 获取 。 参 数 optstring 指 定 了 逊 
数 getoptO 应 该 寻找 的 命令 行 选项 集合 ， 该 参数 由 一 组 字符 组 成 ， 每 个 字 
符 标 识 一 个 选项 。SUSv3 中 规定 了 getoptO 至 少 应 该 接受 62 个 字符 [a-zA- 
Z0-9] 作 为 选项 。 除 了 :、?、 和 -这 几 个 对 getopt() 来 说 有 着 特殊 意义 的 字 
符 外 ， 大 多 数 实现 还 允许 其 他 的 字符 也 作为 选项 出 现 。 每 个 选项 字符 后 








可 以 跟 一 个 冒号 字符 (:) ， 表 示 这 个 选项 带 有 一 个 参数 。 


5 
我 们 通过 连续 调用 getopt0 来 解析 命令 行 。 每 次 调用 都 会 返回 下 一 个 
未 处 理 选 项 的 信息 。 如 果 找 到 了 选项 ， 那 么 代表 该 选 项 的 字符 就 作为 函 
数 结果 返回 。 如 果 到 达 了 选项 列表 的 结尾 ，getoptO 就 返回 -1。 如 果 选 
项 带 有 参数 ，getoptO 束 把 全 局 变量 optarg 设 为 指 癌 这 个 参数 。 


注意 getoptO 的 函数 返回 值 类 型 为 nt。 我们 必须 注意 不 能 把 getopt() 
的 返回 值 赋值 给 char 类 型 的 变量 ， 因 为 当 工 作 在 char 型 变量 是 无 符号 整 
数 的 系统 上 时 ，char 型 变量 同 -1 之 间 的 比较 操作 就 不 会 成 功 。 











如 果 选 项 不 带 参 数 ， 那 么 glibc 的 getoptO 实 现 〈 同 大 多 
数 实现 一 样 ) 会 将 optarg 设 为 NULL。 但 是 ，SUSv3 并 没有 
对 这 种 行为 做 出 规定 。 因 此 基于 可 移植 性 的 考虑 ， 应 用 程 
序 不 能 依赖 这 种 行为 (通常 也 不 需要 ) 。 


SUSv3 中 规定 了 一 个 相关 的 函数 〈 且 glibc 也 实现 了 ) 
getsubopt()。 该 函数 可 以 解析 由 1 个 或 多 个 逗号 相 分 隔 的 字 
符 串 所 组 成 的 参数 列表 ， 每 个 参数 的 形式 为 name[=value]。 
请 参阅 getsubopt(3) 用 户 手 册页 以 获得 更 多 细节 。 





每 次 调用 getoptO0 时 ， 全 局 变量 optind 都 得 到 更 新 ， 其 中 包含 着 参数 
列表 argv 中 未 处 理 的 下 一 个 元 素 的 索引 。 《〈 当 把 多 个 选项 归 组 到 一 个 单 
独 的 单词 中 时 ，getoptO 内 部 会 做 一 些 记 录 工 作 ， 以 此 跟踪 该 单词 ， 找 出 
下 一 个 待 处理 的 部 分 。) 在 首次 调用 getopt0 之 前 ， 变 量 optind 会 自动 设 
为 1。 在 如 下 两 种 情况 中 我 们 可 能 会 用 到 这 个 变量 。 


e 如 果 getoptO 返 回 了 -1， 表 示 目 前 没有 更 多 的 选项 可 解析 了 ， 且 
optind 的 值 比 argc 要 小 ， 那 么 argv[optind] 就 表示 命令 行 中 下 一 个 非 
选项 单词 。 

© 如 果 我 们 处 理 多 个 命令 行 回 量 或 者 重新 扫描 相同 的 命令 行 ， 那 么 我 














们 必须 手动 将 optind 重 新 设 为 1。 
在 下 列 情况 中 ，getopt0) 函 数 会 返回 -1， 表 示 已 到 达 选 项 列表 的 结 


由 argc 加 上 argv 所 代表 的 列表 已 到 达 结 尾 〈 即 argv[optind] 为 

NULL) 。 

argv 中 下 一 个 未 处 理 的 单字 不 是 以 选项 分 隅 符 打头 的 〈 即 ， 
argv[optind][0] 不 是 连 字 符 ) 。 

argv 中 下 一 个 未 处 理 的 单字 只 由 一 个 单独 的 连 字 符 组 成 〈 即 ， 
argv[optind] 为 -) 。 有 些 命令 可 以 理解 这 种 参数 ， 该 单字 本 喘 代 表 
了 特殊 的 意义 ， 见 5.11 市 中 的 描述 。 

argv 中 下 一 个 未 处 理 的 单字 由 两 个 连 字 符 〈--) 组 成 。 在 这 种 情况 
下 ，getoptO 会 悄悄 地 读 取 这 两 个 连 字 符 ， 并 将 optind 调 整 为 指 同 双 
连 字 符 之 后 的 下 一 个 单字 。 就 算命 令 行 中 的 下 一 个 单字 《在 双 连 字 
符 之 后 ) 看 起 来 像 一 个 选项 〈 即 ， 以 一 个 连 字 符 开 头 ) ， 这 种 语法 
也 能 让 用 户 指 出 命令 的 选项 结尾 。 比 如 ， 如 果 我 们 想 利用 grep 在 文 
件 中 查找 字符 串 -k， 那 么 我 们 可 以 写成 grep -- -k myfile。 


当 getopt() 在 处 理 选项 列表 时 ， 可 能 会 出 现 两 种 错误 。 一 种 错误 是 当 














遇 到 某 个 没有 指定 在 optstring 中 的 选项 时 会 出 现 。 另 一 种 错误 是 当 某 个 
选项 需要 一 个 参数 ， 而 参数 却 未 提供 时 会 出 现 〈( 即 ， 选 项 出 现在 命令 行 


的 结 





FE) 。 有 关 getopt0 是 如 何 处 理 并 上 报 这 些 错误 的 规则 如 下 。 


默认 情况 下 ，getopt0 在 标准 错误 输出 上 打印 出 一 条 恰当 的 错误 消 
息 ， 并 将 字符 ?作为 函数 返回 的 结果 。 在 这 种 情况 下 ， 全 局 变量 
optopt 返 回 出 现 错误 的 选项 字符 《 即 ， 未 能 识别 出 来 的 或 缺少 参数 
的 那个 选项 ) 。 

全 局 变量 opterr 可 用 来 禁止 显示 由 getoptO 打 印 出 的 错误 消息 。 默 认 
情况 下 ， 这 个 变量 被 设 为 1。 如 果 我 们 将 它 设 为 0， 那 么 getoptO 将 不 
再 打印 错误 消息 ， 而 是 表现 的 如 同上 一 条 所 描述 的 那样 。 程 序 可 以 
通过 检查 函数 返回 值 是 否 为 ?字符 来 判断 是 否 出 错 ， 并 打印 出 用 户 
自 定义 的 错误 消息 。 

此 外 ， 还 有 一 种 方法 可 以 用 来 禁止 显示 错误 消息 。 可 以 在 参数 
optstring 中 将 第 一 个 字符 指定 为 冒号 〈 这 么 做 会 重 载 将 opterr WA 
0 的 效果 ) 。 在 这 种 情况 下 ， 错 误 上 报 的 规则 同 将 opterr WA 0 时 
一 样 ， 只 是 此 时 缺失 参数 的 选项 会 通过 函数 返回 :来 报告 。 如 采 需 
要 的 话 ， 我 们 可 以 根据 不 同 的 返回 值 来 区 分 这 两 类 错误 〈 未 识别 的 




















选项 ， 以 及 缺失 参数 的 选项 ) 。 
上 述 这 些 可 选 的 错误 报告 机 制 总 结 在 了 表 B-1 中 。 
表 B-1: getopt(O0 错 误 上 报 的 几 种 行为 

















错误 上 报 的 方 Lo oo 针对 缺少 参数 产生 
法 的 返回 值 


D a a a a 








f TEoptstring H 











程序 示例 


程序 清单 B-1 中 的 程序 说 明了 应 该 如 何 使 用 getopt0 来 解析 带 有 两 个 
选项 的 命令 行 : 不 带 参数 的 -x 选项 ， 以 及 需要 一 个 参数 的 -p 选 项 。 这 个 
程序 通过 在 参数 optstring 中 将 : 设 为 第 一 个 字符 从 而 禁止 显示 错误 消息 


为 了 计 我 们 能 观察 getopt0 的 操作 ， 我 们 在 代码 中 包 信 一些 
printfO 调 用 来 打印 出 每 次 getoptO 调 用 返回 的 信息 。 解 析 完 成 后 ， 程 序 会 
打印 出 一 些 关于 指定 选项 的 概要 信息 。 如 果 命令 行 上 还 有 非 选 项 的 音 
字 ， 程 序 也 会 将 它们 显示 出 来 。 下 面 的 shell 会 话 展示 了 当 我 们 以 不 同 的 

命令 行 参数 运行 该 程序 时 显示 的 结果 。 


$ ./t_getopt -x -p hello world 

opt =120 (x); optind = 2 

opt =112 (p); optind = 4 

-x was specified (count=1) 

-p was specified with the value "hello" 
First nonoption argument is "world" at argv[4] 
$ ./t_getopt -p 

opt = 58 (:); optind = 2; optopt =112 (p) 
Missing argument (-p) 

Usage: ./t_getopt [-p arg] [-x] 

$ ./t_getopt -a 

opt = 63 (?); optind = 2; optopt = 97 (a) 
Unrecognized option (-a) 

Usage: ./t_getopt [-p arg] [-x] 

$ ./t_getopt -p str -- -x 

opt =112 (p); optind = 3 

-p was specified with the value “str” 
First nonoption argument is "-x" at argv[4] 
$ ./t_getopt -p -x 

opt =112 (p); optind = 3 

-p was specified with the value "-x" 


注意 上 面 最 后 一 个 例子 ， 字 符 串 -x 被 解释 为 -p 选 项 的 参数 了 ， 而 不 
古 单独 作为 选项 。 














程序 清单 B-1: 使 用 getopt() 


getopt/t getopt.c 


#include <ctype.h> 
#include "tlpi_hdr.h" 


#define printable(ch) (isprint((unsigned char) ch) ? ch : ‘#') 


static void /* Print "usage" message and exit */ 
usageError(char *progName, char *msg, int opt) 


if (msg != NULL && opt != 0) 

fprintf(stderr, "%s (-%c)\n", msg, printable(opt)); 
fprintf(stderr, "Usage: %s [-p arg] [-x]\n", progName); 
exit(EXIT FAILURE); 


int 
main(int argc, char *argv[]) 


int opt, xfnd; 
char *pstr; 


xfnd = 0; 
pstr = NULL; 


while ((opt = getopt(argc, argv, “:p:x")) != -1) { 
printf("opt =%3d (%c); optind = %d", opt, printable(opt), optind); 
if (opt == "V" [| opt == %3 
printf("; optopt =%3d (%c)", optopt, printable(optopt)); 
printf("\n"); 


switch (opt) { 


case 'p': pstr = optarg; break; 
case 'x': xfnd++; break; 
case ':': usageError(argv[0], "Missing argument", optopt); 


case '?': usageError(argv[0], "Unrecognized option", optopt); 
default: fatal("Unexpected case in switch()"); 
} 

} 


if (xfnd != 0) 
printf("-x was specified (count=4%d)\n", xfnd); 
if (pstr != NULL) 
printf("-p was specified with the value \"%s\"\n", pstr); 
if (optind < argc) 
printf("First nonoption argument is \"%s\" at argv[%d]\n", 
argv[optind], optind); 
exit(EXIT_ SUCCESS); 


getopt/t_getopt.c 
特定 于 GNU 的 行为 


默认 情况 下 ，8glibc 版 的 getoptO 实 现 还 有 一 个 非 标准 的 功能 : 允许 选 
项 和 非 选项 混在 一 起 。 因 此 ， 比 如 说 下 面 这 两 种 写法 就 是 相同 的 。 


$ 1s -1 file 
$ 1s file -1 


处 理 第 二 种 形式 的 命令 行 时 ，getoptO 会 将 argv 中 的 内 容重 排列 ， 这 
样 所 有 的 选项 会 排列 到 数组 的 开始 处 ， 而 所 有 的 非 选 项 会 排列 到 数组 的 
尾 端 。 如 果 argv 中 包含 有 一 个 元 素 指 问 --， 那 么 只 有 位 于 -- 前 面 的 元 素 
会 参与 排列 ， 并 和 被 解释 为 选项 。) 换 句 话说 ， 前 面 给 出 的 getoptO 的 函数 























原型 中 ， 参 数 argv 前 的 const 声 明 实 际 上 在 glibc 中 并 没有 得 到 遵守 。 


对 argv 的 内 容 进行 重 排列 ， 这 在 SUSv3 (或 者 SUSv4) 中 是 不 允许 
的 。 我 们 可 以 强制 getoptO 提 供与 标准 一 致 的 行为 〈 即 ， 道 守 前 面 提 到 的 
判断 选项 列表 是 否 到 达 结 尾 的 规则 ) ， 把 环境 变量 
POSIXLY_CORRECT 设 为 任意 值 束 能 做 到 这 点 。 这 可 以 通过 下 面 两 种 
方法 来 实现 。 


。 在 程序 中 ， 我 们 可 以 调用 putenv0 或 setenv()。 这 么 做 的 优点 是 不 雷 
要 用 户 做 任何 事 。 缺 点 是 需要 修改 程序 的 源 代码 ， 而 且 只 能 修改 那 
一 个 程序 的 行为 。 

。 我们 可 以 在 执行 程序 前 ， 在 shell 中 定义 条 件 变 量 。 


$ export POSIXLY CORRECT=y 


这 种 方法 的 优点 是 可 以 影响 所 有 使 用 到 getoptO 的 程序 。 但 是 ， 它 
也 有 一 些 缺 点 。POSIXLY_CORRECT 会 导致 很 多 Linux 下 的 工具 行为 发 
生 改 变 。 此 外 ， 设 定 这 个 环境 变量 需要 用 户 显 式 进行 操作 (很 可 能 在 
shell 局 动 文件 中 设 定 这 个 变量 ) 。 


另 一 种 防止 getoptO 重 排列 命令 行 参数 的 方法 是 在 参数 optstring 中 在 
第 一 个 字符 前 增加 一 个 加 号 (+) 。“ 如 果 我 们 也 希望 像 前 面 描述 过 的 
那样 禁止 getopt0 打 印 错误 消息 ， 那 么 optstring 的 前 两 个 字符 束 应 该 是 
+:， 顺 序 不 能 改变 。) 由 于 会 用 到 putenvO0 和 setenvO0， 这 种 方法 的 缺点 
在 于 需要 修改 程序 代码 。 请 参阅 getopt(3) 用 户 手册 页 以 获得 更 多 细节 。 











未 来 对 SUSv4 的 技术 勘误 中 很 可 能 会 增加 关于 在 
optstring 中 使 用 加 号 来 阻止 对 命令 行 参 数 进行 重 排列 的 规 


我 们 需要 注意 glibc 版 的 getopt0) 对 参数 进行 重 排 列 的 行为 是 如 何 影响 
到 shell 脚 本 的 编写 的 。 (这 会 对 将 shell 脚 本 从 其 他 系统 移植 到 Linux 上 的 
开发 者 产生 影响 。) 假设 我 们 有 一 个 shell 脚 本 ， 能 对 目录 下 所 有 的 文件 


执行 操作 : 
chmod 644 * 


如 果 这 些 文件 名 中 有 一 个 是 以 连 字 符 开 头 的 ， 那 么 glibc 版 的 getoptO 
的 重 排列 行为 会 导致 将 这 个 文件 名 解释 成 命令 chmod 的 一 个 选项 。 在 其 
他 的 UNIX 实 现 中 是 不 会 出 现 这 个 问题 的 ， 因 为 第 一 个 出 现 的 非 选项 
(644) 就 能 确保 getoptO 不 会 在 剩 下 的 命令 行 中 继续 寻找 选项 了 。 对 于 
大 部 分 的 命令 ，“ 如 果 我 们 不 设 定 POSIXLY_CORRECT) 要 处 理 这 种 
需要 运行 在 Linux 上 的 shell 脚 本 ， 方 法 是 在 第 一 个 非 选项 参数 前 加 上 --。 
因此 ， 我 们 应 该 将 上 面 的 脚本 重 写 为 : 


chmod -- 644 * 


ie 在 这 个 特殊 的 例子 中 ， 因 为 涉及 到 文件 名 的 生成 ， 我 们 可 以 改写 








chmod 644 ./* 


尽管 在 上 面 的 例子 中 我 们 用 到 了 文件 名 模式 匹配 〈globbing) , X 
似 的 情况 也 可 以 出 现在 其 他 的 shell 处 理 中 《〈 例 如， 命令 替换 和 参数 扩 
Fe) ， 此 时 也 可 以 用 相似 的 方法 ， 采 用 -- 将 选项 和 参数 分 隔 开 来 处 理 。 


GNU 扩 展 


GNU C 函 数 库 对 getopt() 提 供 了 一 些 扩展 ， 需 要 我 们 人 简单 注意 以 下 
点 。 


© SUSv3 规 范 允许 只 带 有 强制 性 参数 的 选项 。 在 GNU 版 的 getopt0 中 ， 
我 们 可 以 在 选项 字符 后 放置 两 个 冒号 ， 以 此 表示 这 个 参数 是 可 选 
的 。 对 于 这 样 的 选项 ， 其 参数 必须 出 现在 同 选 项 一 起 的 单字 中 
( 即 ， 在 选项 和 参数 之 间 不 能 有 空格 ) 。 如 果 参 数 不 存在 ， 那 么 
getopt() 返 回 后 ，optarg 会 被 设 为 NULL。 


° 许多 GNU 命 令 都 多 许 出 现 长 选项 语法 。 长 选项 以 两 个 连 字 符 开 
人 而 不 是 用 单个 字符 来 表示 。 如 下 
IPI: 


gcc --versio 


$ n 
glibc 中 的 函数 getopt_longO 可 以 用 来 解析 这 样 的 选项 。 











° GNU C 函 数 库 甚至 提供 了 更 为 复杂 (但 不 可 移植 》 的 API 用 来 
解析 命令 行 ， 称 为 argp。 这 个 API 在 glibc 的 手册 中 有 描述 。 


附录 C 对 NULEL 指针 做 转型 


考虑 如 下 对 变 参 型 函数 execl(0 的 调用 : 


execl("Is", "Is", "-1", (char *) NULL); 


” 变 参 型 函数 是 指 可 接收 的 参数 数量 可 变 ， 或 者 参数 类 型 可 变 的 函 


是 否 需 要 像 上 面 这 样 对 NULL 做 转型 ,常常 会 引起 一 些 混乱 。 通 党 
我 们 可 以 不 做 转型 ， 但 C 标 准 却 要 求 我 们 这 么 做 。 不 做 转型 的 话 ， 会 寻 
致 应 用 程序 在 茶 些 系统 上 册 尝 。 


一 般 来 说 ，NULL 被 定义 为 0 或 者 (void *)0。〔C 标 准 允 许 其 他 的 定 
义 方式 ， 但 实质 上 都 等 同 于 这 两 种 定义 的 其 中 之 一 。) 需要 做 转型 的 主 
要 原因 在 于 NULL 可 以 被 定义 为 0， 因 此 这 是 我 们 首先 需要 考虑 的 情况 。 


在 将 源码 交 给 编译 器 处 理 之 前 ，C 预 处 理 器 会 先 将 NULL 蔡 换 为 0。 
C 标 准 规定 第 数 0 可 以 用 在 任何 需要 用 到 指针 的 上 下 文中 ， 而 编译 器 会 确 
保 将 这 个 值 看 做 是 一 个 NULL 指 针 。 大 多 数 情 况 下 这 都 不 会 有 问题 ， 而 
且 我 们 也 没 必要 去 担心 转型 的 问题 。 比 如 ， 我 们 可 以 像 这 样 编写 代码 : 


int *p; 








pi ="03 /* Assign null pointer to 'p' */ 
p = NULL; /* Same as “p= 0' 47 

上 面 的 赋值 语句 可 以 正常 工作 ， 因 为 编译 需 能 判断 赋值 语句 的 右 侧 
古 否 需要 一 个 指针 ， 并 且 可 以 将 0 转换 为 一 个 null 指 针 。 


同样 的 ， 对 于 指定 了 定 长 参数 列表 的 函数 原型 ， 我 们 可 以 将 指针 参 
数 指定 为 0 或 者 NULL， 以 此 表明 应 该 给 这 个 函数 传递 一 个 null 指 针 。 


sigaction(SIGINT, &sa, 0); 
sigaction(SIGINT, &sa, NULL); /* Equivalent to the preceding */ 














如 果 我 们 将 null 指 针 传 递 给 一 个 老式 的 、 没 有 函数 原型 
的 C 函 数 ， 那 么 不 管 参数 是 否 属于 变 长 参数 列表 的 一 部 分 ， 
所 有 这 里 需要 转型 为 0 的 参数 ，NULL 同 样 也 能 适用 。 





因为 在 上 述 例子 中 都 不 需要 转型 ， 有 人 可 能 会 得 出 永远 都 不 需要 做 
转型 的 结论 。 但 这 是 错误 的 。 当 在 类 似 execl(0 这 样 的 变 参 函数 中 ， 将 
null 指 针 指 定 为 可 变 参 数 之 一 时 ， 就 需要 做 转型 操作 了 。 要 认识 到 为 什 
么 这 么 做 是 必需 的 ， 我 们 需要 知道 以 下 几 点 。 


。 编译 器 无 法 判断 变 参 函 数 所 期 望 得 到 的 可 变 参 数 类 型 是 什么 。 

。 CC 标准 并 不 要 求 null 指 针 实际 上 以 常 整数 0 来 代表 。 HWE, null 
间 针 可 以 以 任意 的 位 序列 来 表示 ， 只 要 不 代表 合法 指针 就 可 以 
了 。) 甚至 标准 中 也 没有 要 求 一 个 null 指 针 所 占 的 空间 大 小 和 常 整 
数 0 一 样 。 标 准 中 规定 的 是 当 在 需要 一 个 指针 的 上 下 文中 发 现 了 御 
数 0， 那 么 0 应 该 被 解 释 为 一 个 null 指 针 。 


因此 ， 下 面 的 写法 是 错误 的 。 


execl(prog, arg, 0); 
execl(prog, arg, NULL); 











这 种 写法 是 错误 的 ， 因 为 编译 圳 会 将 常 整数 0 传递 给 execl()， 而 这 
里 无 法 保证 0 和 null 指 针 是 等 同 的 。 





在 实践 中 我 们 常 不 做 转型 ， 因 为 在 许多 C 实 现 中 例如 Linux/x86- 
32) ， 常 整数 (int〉 0 和 null 指 针 是 等 同 的 。 但 是 ， 还 有 一 些 实现 中 它们 
却 并 非 如 此 。 比 如 ，null 指 针 所 占 的 空间 大 小 比 第 整数 0 要 大 ， 因 而 在 上 
面 的 例子 中 ，execl0 很 可 能 会 在 整数 0 的 附近 接收 到 一 些 随 机 的 比特 
位 ， 从 而 使 得 这 个 结果 被 解释 为 一 个 随机 的 指针 《〈 非 aul) 。 当 把 程序 
移植 到 这 种 实现 的 环境 中 时 ， 忽 略 转 型 束 会 导致 程序 朋 尝 。 (在 一 些 上 
述 提 到 的 实现 中 ，NULL 被 定义 为 长 整 型 常量 0L。 由 于 long 和 void * 有 着 
相同 的 大 小 ， 茶 些 采 用 了 上 述 第 二 种 调用 方式 的 程序 就 不 会 出 错 了 。 ) 
因此 ， 我 们 应 该 将 上 述 execl0 调 用 重 写 为 以 下 形式 。 


execl(prog, arg, (char *) 0); 
exec] (prog, arg, (char *) NULL); 


RH, BON te BO Elia TPS NULL ae, 
是 在 NULL 定 义 为 (void *)0 的 实现 环境 中 也 是 如 此 。 这 是 因为 ， 尽 管 C 标 
准 要 求 不 同类 型 的 null 指 针 在 比较 等 同性 时 结果 应 该 为 真 ， 但 并 不 要 求 
不 同类 型 的 指针 有 着 同样 的 内 部 表示 (尽管 在 大 部 分 实现 中 都 是 如 
此 ) 。 而 且 如 前 所 述 ， 在 一 个 可 变 参 函数 中 ， 编 译 器 不 能 将 (void *)0 转 
型 为 合适 类 型 的 null 指 针 。 














C 标 准 对 于 不 同类 型 的 指针 不 需要 有 者 相 同 的 内 部 表示 
这 一 规则 有 一 个 例外 : char * 型 指针 和 void * 型 指针 要 求 有 
看 相同 的 内 部 表示 。 这 意味 看 在 execl() 的 例子 中 ， 将 (char 
*)0 蔡 换 为 (void *)0 古 不 会 有 问题 的 。 但 是 一 般 情 况 下 还 是 
需要 做 转型 处 理 的 。 


附录 D 内 核 配置 


Linux 内 核 的 很 多 特性 是 可 以 通过 组 件 来 配置 的 。 在 编译 内 核 之 前 
可 以 禁用 或 局 用 这 些 组 件 ， 或 者 在 很 多 情况 下 也 可 以 局 用 成 可 加 载 的 内 
核 模块 。 茶 用 不 需要 的 组 件 的 一 个 原因 是 可 以 减 小 内 核 二 进 制 文件 的 大 
小 ， 从 而 市 省 内 存 。 将 一 个 组 件 局 用 成 可 加 载 的 模块 意味 大 只 有 在 运行 
ee 到 该 组 件 时 才 会 将 其 加 载 到 内 存 中 。 这 种 做 法 也 能 够 节省 内 
子 。 




















内 核 配 置 是 通过 在 内 核 源 代码 树 的 根 目录 下 执行 一 些 不 同 的 make 
命令 来 完成 的 ， 如 make menuconfig 提 供 了 一 个 易 用 性 较 差 的 配置 菜单 ， 
而 make xconfig 则 提供 了 一 个 易 用 性 较 好 的 图 形 配置 荣 单 。 这 些 命 令 会 
在 内 核 源 代码 树 的 根 目 录 下 产生 一 个 .config 文 件 ， 在 内 核 编 译 阶段 会 用 
到 这 个 文件 。 这 个 文件 包含 了 所 有 配置 选项 的 设置 。 


每 一 个 被 局 用 的 选项 值 在 .config 文 件 中 占用 一 行 ， 其 形式 如 下 。 
CONFIG NAME=value 


如 果 一 个 选项 没有 被 设置 ， 那 么 文件 中 会 包含 形 如 下 面 这 样 的 一 
行 。 





# CONFIG NAME is not set 
在 .config 文 件 中 以 # 写 打头 的 行 是 注释 。 


在 本 书 中 介绍 内 核 选 项 时 并 没有 精确 地 描述 在 menuconfig 或 xconfig 
这 单 的 哪个 地 方 可 以 找到 这 些 选 项 。 之 所 以 这 样 做 有 几 个 原因 。 


。 通过 浏览 菜单 层级 通常 可 以 很 直观 地 确定 选项 所 处 的 位 置 。 

。 配置 选项 所 处 的 位 置 会 随 着 时 间 的 流逝 而 改变 ， 就 像 不 同 版 本 的 内 
核 会 对 菜单 层级 进行 重 构 一 样 。 

。 当 无 法 在 菜单 层级 中 找到 某 一 个 特定 的 选项 时 ， 还 可 以 使 用 make 
menuconfig 和 make xconfig 提 供 的 搜索 工具 。 如 可 以 通过 搜索 字符 
串 CONFIG_INOTIFY 来 找 出 配置 inotify API 文 持 的 选项 。 


用 于 构建 当前 运行 的 内 核 的 配置 选项 可 以 通过 /proc/config.gz 虚 拟 文 











件 查 看 ， 该 文件 是 一 个 压缩 文件 ， 其 内 容 与 用 于 构建 内 核 的 .config 文 件 
中 的 内 容 是 一 样 的 。 使 用 zcat(1) 可 以 查看 这 个 文件 ， 使 用 zgrep(1) 则 可 以 
搜索 这 个 文件 中 的 内 容 。 





附 隶 E 更 多 信息 产 

除了 本 书 提供 的 材料 之 外 ， 有 关 Linux 系统 程序 设计 的 信息 源 还 有 
很 多 。 本 附录 对 其 中 一 些 进行 了 简介 。 
手册 

通过 man 命 令 可 以 访问 手册 。 《命令 man man 描 述 了 如 何 使 用 man 来 
读 取 手册 。) 手册 被 划分 成 了 用 数字 标记 的 小 节 ， 这 些小 节 将 信息 分 成 
如 下 几 类 。 

1， 程 序 和 shell 命 令 : 由 用 户 在 shell 提 示 符 中 执行 的 命令 。 

2. 系统 调用 : Linux 系统 调用 。 

3. ÆRA: 标准 C 库 函数 (以 及 很 多 其 他 库 函 数 ) 。 

4. 特殊 文件 ， 特殊 文件 ， 如 设备 文件 。 


5. 文件 格式 : 诸如 系统 密码 (etc/passwd) 和 组 (/etc/group) X 
件 的 格式 。 

6. 游戏 : 游戏。 

7. 概述 、 规 则 、 协 议 以 及 其 他 : 各 种 主题 的 概述 、 以 及 有 关 网 络 
协议 和 socket 程 序 设计 的 各 种 页 面 。 

8. 系统 管理 命令 : 主要 由 超级 用 户 使 用 的 命令 。 

在 一 些 情况 下 ， 不 同 小 结 中 的 手册 页 面 的 名 字 是 一 样 的 。 如 chmod 
命令 位 于 手册 页 的 第 一 小 节 ， 而 chmod0 系 统 调 用 则 位 于 手册 页 的 第 二 
小 节 。 为 区 分 名 字 相 同 的 手册 页 需要 在 名 字 后 面 的 括号 中 加 上 小 节 编 号 
如 chmod(1) 和 chmod(2)。 要 显示 具体 某 一 个 小 节 的 手册 页 则 可 以 
在 man 命 令 中 插入 小 市 编写 。 


$ man 2 chmod 








系统 调用 和 库 函 数 的 手册 页 被 分 成 了 几 个 部 分 ， 通常 包括 下 列 几 


AF: 函数 的 名 字 ， 随 带 一 行 描述 。 下 面 的 命令 可 以 用 来 获取 那 一 
行 描述 中 包含 指定 字符 串 的 所 有 手册 页 列表 : 

$ man -k string 

这 在 无 法 记 住 或 不 知道 到 底 要 但 找 哪个 手册 页 时 是 有 用 的 。 

KA: 函数 的 C 原 型 ， 它 标识 了 函数 的 参数 的 类 型 和 顺序 以 及 函数 
的 返回 类 型 。 在 大 多 数 情况 下 ， 在 函数 原型 前 面 会 由 一 个 头 文件 列 
表 。 这 些 头 文件 定义 了 函数 所 使 用 的 宏和 C 类 型 以 及 函数 原型 本 
号 ， 使 用 这 个 函数 的 程序 应 该 包 舍 这 些 头 文件 。 

描述 : 描述 函数 的 功能 。 

a 
站 错误。 

错误 : 及 生 错 误 时 可 能 返回 的 ermo 值 列表 。 

符合 : 描述 了 这 个 函数 符合 哪些 UNIX 标 准 。 这 样 就 能 够 了 解 到 这 
个 在 其 他 UNIX 实 现 上 的 移植 性 如 何 ， 同 时 也 标识 出 了 这 个 函数 中 
特定 于 Linux 的 方面 。 

Bug: 描述 了 函数 无 法 正 负 工作 或 无 法 按照 预期 工作 的 地 方 。 








尽管 随后 的 一 些 商 用 UNIX 实 现 倾向 于 采用 更 适合 市 场 
的 较为 委婉 的 说 法 ， 但 UNIX 手 册页 在 早期 将 一 个 bug 就 称 
为 bug。Linux 延 续 了 这 种 传统 。 有 了 时候 这 些 “bug” 是 哲学 意 
义 上 的 ， 它 们 只 是 摘 述 了 哪些 方面 有 待 优化 或 对 有 关 特 殊 
或 非 预期 的 〈 但 在 其 他 场景 下 可 能 是 预期 的 ) 行为 发 出 警 


AR 
Eko 


。 TERE: 其 他 有 关 这 个 函数 的 注释 。 
。 参见 ， 揪 述 相 关 函 数 和 命令 的 手册 页 列表 。 


描述 内 核 和 glibc API 的 在 线 手 册页 位 于 


http://www.kernel.org/doc/man-pages/. 
GNU info 文 档 
GNU 项 目 没 有 使 用 传统 的 手册 页 格式 ， 相 反 ， 它 使 用 了 info 文 档 来 
记录 其 大 多 数 软件 的 文档 ，info 文 档 是 能 够 使 用 info 命 令 浏 览 的 一 种 超 
链接 文档 。 使 用 命令 info info 能 够 获取 如 何 使 用 info 的 入 门 指南 。 
尽管 在 很 多 情况 下 手册 页 中 的 信息 与 对 应 的 info 文 档 中 的 信息 是 


样 的 ， 但 有 些 时 候 C 库 的 info 文 档 包含 了 额外 的 在 手册 页 中 无 法 找到 的 
A, RIK. 














尽管 手册 页 和 info 文 档 包含 的 信息 可 能 是 相同 的 ， 但 它 
们 仍然 同时 存在 ， 其 原因 与 其 习惯 稍微 有 点 关系 。GNU 项 
目 倾 癌 于 使 用 info 用 户 界 面 ， 因 此 通过 info 来 提供 所 有 的 文 
档 。 但 UNIX 系 统 的 用 户 和 程序 员 使 用 手册 页 已 经 有 很 长 的 
历史 了 《并 且 在 很 多 情况 下 倾 问 于 使 用 手册 页 ) 。 手 册页 
往往 也 比 info 文 档 包 含 更 多 历史 信息 (如 有 关 行 为 在 版 本 之 
间 的 变更 的 信息 〉。 














GNU Ci (glibc) 手册 

GNU C 库 包含 了 一 个 摘 述 如 何 使 用 库 中 的 大 多 数 函 数 的 手册 。 这 个 
手册 位 于 http://www.gnu.org/。 同 时 ， 在 大 多 数 发 行 版 中 也 提供 HTML 
格式 和 info 格 式 〈 通 过 命令 info libe) 的 手册 。 
书籍 

本 书 最 后 列 出 了 大 量 参 考 书 籍 ， 其 中 一 些 特别 值得 说 一 下 。 


参考 书籍 列表 中 的 前 面 几 本 是 由 W. Richard Stevens 撰 写 
的 。“Advanced Programming in the UNIX Environment”([Stevens, 1992]) 


详细 描述 了 UNIX 系统 程序 设计 ， 它 所 关注 的 是 POSIX、System V 以 及 
BSD。 最 新 的 修订 工作 是 由 Stephen Rago 完 成 的 ，[Stevens & Rago, 2005] 
更 新 了 对 现代 标准 和 实现 的 描述 ， 并 增加 了 对 线程 的 描述 和 有 关 网 络 程 
序 设计 的 一 个 章节。 这 本 书 很 好 地 从 另外 一 个 视角 介绍 了 本 书 所 涉及 的 
很 多 种 主题 。 两 卷 “UNIX Network Programming” ([Stevens et al., 2004], 
hag 1999]) 极其 详细 地 描述 了 网 络 程序 设计 和 UNIX 系 统 上 的 进程 
间 通 信 。 








[Stevens et al., 2004] 是 Bill Fenner 和 Andrew Rudoff 在 
上 一 版 的 “UNIX Network Programming” 第 1 卷 [Stevens, 1998] 
的 基础 上 修订 而 来 的 。 尽 管 这 个 修订 版 介绍 了 几 个 新 领 
域 ， 但 在 大 多 数 需要 参考 [Stevens et al., 2004] 的 情况 下 都 可 
以 在 [Stevens, 1998] 找 到 同样 的 材料 ， 仅 有 的 差别 仅仅 是 所 
EA L 











“Advanced UNIX Programming” ([Rochkind, 1985) KA SRK VE HEX} 
UNIX (System V) 程序 设计 进行 了 介绍 。 这 本 书 现 在 已 经 进行 了 更 新 
和 扩展 并 出 到 第 二 版 了 〈[Rochkind, 2004]) 。 


“Programming with POSIX Threads”([Butenhof, 1996]) 详 尽 地 描述 了 
POSIX 线 程 API。 





“Linux and the Unix Philosophy”([Gancarz, 2003]) 对 Linux 和 UNIX 系 
统 上 应 用 程序 的 设计 哲学 进行 了 简介 。 


介绍 如 何 阅读 和 修改 Linux 内 和 源 代码 的 书籍 有 很 多 ， 包 括 “Linux 
Kernel Development”([Love, 2010])# “Understanding the Linux 
Kernel”([Bovet & Cesati, 2005]). 


对 于 UNIX 内 核 的 更 一 般 的 背景 来 讲 ，“The Design of the UNIX 
Operating System”([Bach, 1986]) 仍 然 是 一 本 非常 值得 一 读 的 书 ， 其 中 还 
包含 了 与 Linux 有 关 的 材料 。“UNIX Internals: The New 








Frontiers”([Vahalia, 1996]) 则 对 更 现代 的 UNIX 实 现 的 内 核 内 秦 进 行 了 介 
绍 。 


对 于 编写 Linux 设 备 驱 动 来 讲 ， 最 根本 的 参考 书籍 是 “Linux Device 
Drivers” ([Corbet et al., 2005])。 


“Operating Systems: Design and Implementation” ([Tanenbaum & 
Woodhull, 2006]) 使 用 Minix 摘 述 了 操作 系统 实现 。〈 人 参见 
http:/www.minix3.org/。 ) 


既 有 应 用 程序 的 源 代码 
阅读 既 有 应 用 程序 的 源 代码 通常 能 够 较 好 地 理解 如 何 使 用 特定 的 系 


统 调用 和 库 函 数 。 在 使 用 RPM 包 管 理 器 的 Linux 发 行 版 中 可 以 像 下 面 这 
样 找 出 包含 茶 个 特定 程序 〈 如 ls$) 的 包 。 


$ which ls Find pathname of ls program 
/bin/1s 
$ rpm -qf /bin/ls Find out which package created the pathname /bin/1s 


coreutils-5.0.75 


对 应 的 源 代码 包 的 名 字 与 上 面 的 类 似 ， 但 后 级 是 .src.rpm。 在 发 行 
版 的 安装 媒介 上 可 以 找到 这 个 包 或 者 在 发 行者 的 网 站 上 也 可 以 下 载 到 这 
个 包 。 一旦 获取 了 包 之 后 可 以 使 用 pm 命令 安装 ， 然 后 就 可 以 研究 源 代 
人 码 了 ， 它 通常 位 于 /usr/src 下 的 某 个 目录 中 。 


在 使 用 Debian 包 管理 器 的 系统 上 全 找 源 代码 的 过 程 是 类 似 的 。 使 用 
下 面 的 命令 可 以 确定 创建 了 一 个 路 径 名 的 包 《 本 例 中 是 ls 程序 ) 。 


$ dpkg -S /bin/1s 
coreutils: /bin/ls 


Linux 文 档 项 目 











Linux 文档 项 目 〈http:/www.tldp.org/) 生产 Linux 上 免费 可 用 的 文 
档 ， 包 括 系统 管理 和 程序 设计 主题 方面 的 HOWTO 指 南 和 FAQ C J i 
题 及 答案 ) 。 这 个 站 点 还 提供 了 有 关 各 种 主题 的 大 量 电子 书 。 
GNU 项 目 


GNU 项 目 Chttp://www.gnu.org/) 提供 了 海量 的 软件 源 代 码 及 相关 


文档 。 
新 闻 组 


Usenet 新 闻 组 通常 是 奏 找 特定 的 程序 设计 问题 的 答案 的 较 佳 场所 。 
下 面 几 个 新 闻 组 特别 有 帮助 。 


e comp.unix.programmer 解 决 常规 的 UNIX 程 序 设计 问题 。 

e comp.0s.linux.development.apps 解 决 与 Linux 上 应 用 程序 开发 相关 的 
问题 。 

e comp.0s.linux.development.system 是 Linux 系 统 开发 新 闻 组 ， 它 关注 
的 是 修改 内 核 以 及 开发 设备 驱动 和 可 加 载 模 块 方 面 的 问题 。 

。 comp.programming.threads 讨 论 与 线程 、 特 别 是 POSIX 线 程 程 序 设 计 
相关 的 问题 。 

e comp.protocols.tcp-ip 讨 论 TCP/IP 联 网 协议 套件 。 


很 多 Usenet 新 闻 组 的 FAQ 可 以 在 http:/www.faqs.org/ 处 找到 。 


在 向 新 闻 组 提交 问题 时 先 得 看 一 下 该 组 的 FAQ (通常 
在 一 个 组 中 经 各 被 提 及 的 问题 ) 并 答 试 在 网 上 搜索 出 该 问 
题 的 解决 方案 。http:/groups.google.comy/ 网 站 为 搜索 较 早 发 
表 的 Usenet 文 章 提供 了 一 个 基于 浏览 器 的 界面 。 








Linux 内 核 邮 件 列表 


Linux 内 核 邮件 列表 (LKML) 是 Linux 内 核 开 发 人 员 主 要 的 广播 通 
信 媒 介 。 它 提供 了 内 核 开 发 的 现状 ， 并 且 也 是 一 个 提交 内 核 bug 报 告 和 
补丁 的 论坛 。 CLKML 不 是 一 个 提出 系统 程序 设计 问题 的 论坛 。) 要 订 
阅 LKML 需 要 向 majordomo@vger.kernel.org 发 送 一 封 消息 正文 为 下 面 这 
行文 字 的 电子 邮件 。 


subscribe linux-kernel 





有 关 列 表 服 务 右 的 工作 方式 方面 的 信息 可 以 通过 同 同 一 个 地 址 发 送 
一 份 消 明正 文 为 单词 “help” 的 邮件 来 完成 。 


要 问 LKML 发 送 一 条 消息 需要 使 用 地 址 linux- 
kernel@vger.kernel.org。FAQ 和 指 问 这 个 邮件 列表 的 一 些 可 搜索 的 归档 
的 链接 可 以 在 http:/www.kemel.org/ 上 找到 。 


网 站 
下 面 的 网 站 值得 特别 关注 。 


http://www.kernel.org/, The Linux Kernel Archives， 包 含 了 过 去 以 及 
现在 的 所 有 版 本 的 Linux 内 核 的 源 代 码 。 

http://www.lwn.net/, Linux Weekly News， 提 供 了 有 关 各 种 Linux 相 
关 的 主题 方面 的 每 日 和 每 周 专 栏 。 每 周 的 内 核 开 发 专栏 会 对 LKML 
中 发 生 的 事情 进行 总 结 。 

e http://www.kernelnewbies.org/, Linux Kernel Newbies， 是 那些 想 要 
学 习 和 修改 Linux 内 核 的 程序 员 的 起 点 。 

http://Ixr.linux.no/linux/, Linux Cross-reference， 提 供 了 通过 浏览 器 
访问 各 个 版 本 的 Linux 内 核 的 源 代码 的 方式 。 源 文件 中 的 每 个 标识 
从 都 是 加 上 超 链接 的 ， 这 样 束 能 够 很 容易 地 找 出 其 定义 和 使 用 该 标 
识 符 的 地 方 。 


内 核 源 代码 


如 果 前 面 列 出 的 信息 源 都 无 法 回答 所 涉及 到 的 问题 或 者 想 要 确认 文 
档 记 录 的 信息 是 否 正 确 ， 那 么 可 以 阅读 内 核 源 代 码 。 尽 管 部 分 源 代码 可 
能 难以 理解 ， 但 阅读 Linux 内 核 源 代码 中 一 个 具体 的 系统 调用 (或 GNU 
ae 的 代码 通常 是 找到 一 个 问题 的 答案 的 
最 快 方式 。 


如 果 已 经 将 Linux 内 核 源 代码 安装 在 了 系统 上 ， 那 么 通 和 可 以 
在 /usr/src/linux 目录 中 找到 它 。 表 E-1 对 这 个 目录 中 的 一 些 子 目录 进行 了 
4 ot 


sD =H o 

















表 E-1: Linux 源 代码 树 中 的 子 目录 


HE Xx 内 容 














内 核 的 各 个 方面 的 文档 


-E & 构 的 代码 ， 组 织 成 了 子 目录 如 alpha、arm、ia64、sparc 
以 及 x86 
EEIN 


fs 特定 于 文件 系统 的 代码 ， 组 织 成 了 子 目录 一 一 如 btrfs、ext4、proc 
(/proc 文件 系统 ) 以 及 vfat 
内 核 代 码 所 需 的 头 文件 
内 核 的 初始 化 代码 








= System V IPC 和 POSIX 消 息 队 列 的 代码 


、 程 序 执行 、 内 核 模块 、 信 号 、 时 间 以 及 定时 器 相关 的 代码 



































内 核 的 各 个 部 分 用 


联网 代码 (TCP/IP、UNIX 和 Internet domain socket) 
配置 和 构建 内 核 的 脚本 





























SE 部 分 习题 解 合 
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5-3. 随 本 书 一 同 发 布 的 源 代 码 fileio/atomic_append.c 文 件 提供 了 一 
种 答案 ， 此 处 是 程序 运行 结果 的 例子 之 一 : 


2000000 Jan 9 11:14 f1 


$ ls -1 f1 f2 
1999962 Jan 9 11:14 f2 


1 mtk users 
1 mtk users 


为 lseek0 和 writeO 的 组 合 操作 不 具有 原子 性 ， 所 以 程序 的 一 个 实 
例 有 时 会 履 冀 为 一 实例 写 入 的 字 节 。 最 终 ， 人 2 所 包括 的 字 市 数 少 于 
2MB.» 


5-4. 可 以 将 对 dup0 的 调用 改写 为 ; 





fd = fcntl(oldfd，F_DUPFD，0); 


对 dup20 的 调用 可 以 改写 为 : 


if (oldfd == newfd) { /* oldfd == newfd is a special case */ 
if (fcntl(oldfd, F_GETFL) == -1) { /* Is oldfd valid? */ 


errno = EBADF; 


fd = -1; 
} else { 
fd = oldfd; 
} 
} else { 


close(newfd) ; 
fd = fcntl(oldfd, F_DUPFD, newfd); 


} 
5-6. 首先 要 意识 到 这 一 点 : HP fd td Ny 2 il, Eases 


了 一 个 打开 文件 描述 ， 因 此 也 共享 了 同一 文件 偏 移 量 。 然 而 ， 因 为 fd3 
是 通过 单独 的 openO 调 用 而 创建 的 ， 所 以 它 具 有 单独 的 文件 偏 移 量 。 


。 第 一 次 write0) 调 用 后 ， 文 件 内 容 为 Hello,。 
e 由 于 fd2 与 fd1 共 享 一 个 文件 偏 移 量 ， 所 以 第 二 次 write() 调 用 会 追加 


到 已 有 文本 的 后 面 ， 生 成 Hello, world. 


。 lseek() 调 用 将 fd1 和 fd2 共 享 的 文件 偏 移 量 调整 到 文件 起 点 ， 因 此 第 

三 次 writeO 调 用 履 羡 了 部 分 已 有 文本 ， 产 生 了 HELLO, world. 

fd3 的 文件 偏 移 量 到 目前 为 止 一 直 未 变 ， 指 加 文件 的 起 点 。 因 此 ， 

最 后 一 次 write() 调 用 将 文件 内 容 改 为 Gidday world. 

运行 随 本 书 发 布 源码 中 的 fleio/multi_descriptors.c 程 序 ， 并 观察 输出 
结果 。 


第 6 章 


6-1. 因为 未 对 数组 mbuf 进 行 初始 化 ， 所 以 它 属于 未 初始 化 数据 
段 。 因 此 ， 存 放 该 变量 无 需 磁 盘 空 间 。 相 反 ， 会 在 加 载 程序 时 为 其 分 配 
存储 空间 《并 初始 化 为 0) 。 


6-2. 随 本 书 发 布 的 源 文件 proc/bad_longjmp.c 提 供 了 使 用 longjmp0 
不 当 的 范例 之 一 。 


6-3. 随 本 书 发 布 的 源 文 件 proc setenv.c 提供 了 setenv() 和 unsetenv0) 
的 实现 范例 。 




















第 8 章 

8-1. 二 次 对 getpwuid 0 的 调用 在 printfO) 函 数 的 输出 字符 串 构 建 之 前 
一 一 因为 getpwuid 0) 调用 返回 的 pw_name 存 放 于 静态 分 配 的 缓冲 区 中 
一 一 第 二 次 调用 将 履 盖 第 一 次 调用 返回 的 结果 。 
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9-1. 思考 以 下 情况 的 同时 ， 请 记 住 ， 对 有 效用 户 ID 的 修改 总 是 会 
修改 文件 系统 用 户 ID。 

9-2. 严格 说 来 ， 进 程 的 有 效用 户 ID 为 非 0 值 ， 进 程 束 属于 一 个 无 特 
权 进 程 。 然 而 ， 无 特权 进程 可 以 使 用 setuid()、setreuid()、 seteuid() 或 者 


setresuid0 调 用 将 进程 有 效用 户 ID 设置 为 与 其 实际 用 户 ID 或 保存 set-user- 
ID 相同 。 因 此 ， 访 进程 能 够 使 用 此 类 调用 之 一 来 重新 获得 特权 。 


9-4, 以 下 代码 显示 了 每 个 系统 调用 的 步骤 。 











e = geteuid(); /* Save initial value of effective user ID */ 


setuid(getuid({)); /* Suspend privileges */ 
setuid(e); /* Resume privileges */ 
/* Can't permanently drop the set-user-ID identity with setuid({) */ 


seteuid(getuid()); /* Suspend privileges */ 
seteuid(e); /* Resume privileges */ 
/* Can't permanently drop the set-user-ID identity with seteuid() */ 


setreuid(-1, getuid()); /* Temporarily drop privileges */ 
setreuid(-1, e); /* Resume privileges */ 
setreuid(getuid(), getuid()); /* Permanently drop privileges */ 
setresuid(-1, getuid(), -1); /* Temporarily drop privileges */ 
setresuid(-1, e, -1); /* Resume privileges */ 


setresuid(getuid(), getuid(), getuid()); /* Permanently drop privileges */ 


9-5. 除去 setuid0 的 异常 情况 之 外 ， 答 案 与 前 一 练习 相同 ， 除 了 要 
将 变量 e 蔡 换 成 0(。 对 于 setuid0， 以 下 操作 是 成 立 的 。 


/* (a) Can't suspend and resume privileges with setuid() */ 





setuid(getuid()); /* (b) Permanently drop privileges */ 





10-1. 最 大 的 32 位 无 符号 整 型 值 是 4294967295。 将 该 数 除 以 每 秒 
100 次 滴答 声 ， 则 相当 于 497 天 多 一 点 。 将 该 数 除 以 100 万 
(CLOCKS_PER_SEC)， 则 相当 于 71 分 35 秒 。 





za ze. 
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12-1. 随 本 书 一 同 发 布 的 源 文件 sysinfo/procfs_user_exe.c 提 供 了 一 
种 解决 方案 。 


A 
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13-3. 语句 的 顺序 确保 了 将 写 入 stdio 绥 冲 区 的 数据 刷新 到 磁盘 上 。 
fflush() 调 用 将 分 指 癌 的 stdio 绥 冲 区 内 容 刷 新 到 内 核 缓冲 区 高 速 缓存 中 。 
随后 赋 给 fsyncO 调 用 的 参数 是 名 底层 的 文件 描述 符 。 因 此 ， 调 用 将 此 文 
件 描述 符 所 指向 的 〈 刚 填充 的 ) 内 核 缓冲 区 刷新 到 了 磁盘 。 


13-4. 当 标 准 输出 发 往 终 问 时 ， 属 于 行 缓冲 ， 所 以 printfO 调 用 的 输 











出 立刻 显示 ， 并 尾随 write() 调 用 的 输出 。 当 标准 输出 肥 送 到 磁盘 文件 
时 ， 则 属于 块 缓冲 。 因 此 ，printfO 的 输出 将 存放 在 stdio 绥 冲 区 中 ， 仅 当 
程序 退出 时 才 进 行 刷 新 〈 即 在 write() 函数 调用 后 ) 〈 和 包含 练习 代码 的 完 
整 程序 可 参考 与 本 书 一 同 发 布 的 源 文件 flebuff/mix23_linebuff.c〉。 
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15-2. statO 系 统 调用 不 会 改变 任何 文件 时 间 戳 ， 因 为 其 所 作 所 为 仅 
仅 是 从 文件 inode 中 获取 信息 〈 并 且 并 没有 最 后 inode 访 问 时 间 惟 的 概 


R) 0 











Y 


15-4. GNU C 函数 库 提 供 了 以 euidaccessO 命 名 的 一 个 函数 ， 请 多 
考 函 数 库 源 文件 sysdeps/ posix/euidaccess.c。 

15-5. 为 了 实现 这 一 点 ， 必 须 二 次 调用 umask()， 如 下 所 示 。 
mode t currUmask; 


currUmask = umask(0); /* Retrieve current umask, set umask to 0 */ 
umask{currUmask) ; /* Restore umask to previous value */ 


但 是 请 注意 ， 由 于 线程 共享 了 进程 的 umask 设 置 ， 所 以 该 方案 不 是 
线程 安全 的 。 


15-7. 随 本 书 一 同 发 布 的 源 文件 files/chiflag.c 提 供 了 一 种 解决 方 





AR o 
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18-1. 使 用 ls -li 命令 可 以 看 到 : 可 执行 文件 在 每 次 编译 后 都 具有 不 
同 的 inode 编 号 。 这 是 因为 编译 器 移 除 了 《〈 解 除 链接 ) 任何 与 目标 可 执 
行文 件 同 名 的 文件 ， 然 后 再 创建 一 个 同名 的 新 文件 。 解 除 对 可 执行 文件 
的 链接 是 允许 的 。 虽 然 其 名 称 被 即刻 移 除了 ， 但 是 文件 本 身 仍然 会 保持 
存在 ， 直 至 执行 它 的 进程 终止 。 


18-2. myfile 文 件 创建 于 子 目录 test 中 。symlinkO 调 用 在 父 目 录 中 创 
建 了 一 个 相对 链接 。 尽 管 有 链接 文件 ， 但 是 因为 对 链接 的 解释 是 相对 于 
链接 文件 的 位 置 而 言 的 ， 所 以 这 是 一 个 悬空 链接 。 因 此 ， 链 接 指 癌 父 目 
录 中 一 个 不 存在 的 文件 。 结 果 ，chmod0 调 用 失败 ， 错 误 号 为 
ENOENT (“没有 这 样 的 文件 或 者 目录 ”) 。 (包含 练习 代码 的 完整 程序 











可 参考 与 本 书 一 同 发 布 的 源 文件 dirs_links/bad_symlink.c。) 


18-4. 随 本 书 一 同 发 布 的 源 文件 dirs_links/list_files_readdir_r.c 提 供 
了 一 种 解决 方案 。 


18-7. 随 本 书 一 同 发 布 的 源 文件 dirs_links/file_type_stats.c 提 供 了 一 
种 解决 方案 


18-9. 使 用 fchdirO 调 用 更 为 高 效 。 如 果 在 循环 中 反复 执行 操作 ， 那 

么 当 调 用 fchdir0 时 ， 可 以 在 运行 循环 前 调用 一 次 open0; 而 当 调 用 
chdirO0 时 ， 可 以 将 getcwdO 调 用 置 于 循环 之 外 。 随 后 可 以 比较 重复 调用 
fchdir(fd) 和 chdir(buf) 之 间 的 差异 。 调 用 chdir0 之 所 以 代价 高 晶 ， 有 两 点 
原因 : 传递 buf 参 数 到 内 核 需 要 在 用 户 空 间 和 内 核 空间 之 间 进 行 大 数据 
量 传输 ， 每 次 调用 时 必须 将 buf 中 的 路 径 名 解析 到 相应 目录 的 i-node 上 。 

《内 核对 目录 条 目 信 息 的 高 速 缓存 减少 了 第 二 个 原因 的 开销 ， 但 总 有 些 
工作 是 省 不 了 的 。) 


AAA 
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20-2. 随 本 书 一 同 发 布 的 源 文件 signalsignore_pending_sig.c 提 供 了 
一 种 解决 方案 。 

20-4. 随 本 书 一 同 发 布 的 源 文件 signals/siginterrupt.c 提 供 了 一 种 解 
第 22 章 


22-2. 与 大 多 数 UNIX 实 现 一 样 ，Linux 在 实时 信号 之 前 传递 标准 信 
号 《SUSv3 并 不 要 求 如 此 ) 。 这 是 合理 的 ， 因 为 有 些 标准 信号 所 指示 的 
临界 状态 〈 例 如 ， 便 件 异 第 ) 需要 程序 尽快 处 理 。 


22-3. 将 sigsuspend() 外 加 信号 处 理 器 的 方法 用 sigwaitinfo() 蔡 换 ， 
这 将 融 来 25% 到 40% 的 速度 提升 。 确 切 数 据 随 内 核 版 本 不 同 而 略 有 不 
同 。) 


Pavan 
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23-2. 随 本 书 一 同 发 布 的 源 文件 timers/t_clock_nanosleep.c 提供 了 
一 种 使 用 了 clock_nanosleepO 的 改进 程序 。 





















































23-3. 随 本 书 一 同 发 布 的 源 文件 timers/ptmr_null_evp.c 提 供 了 一 种 
解决 方案 。 
第 24 章 

24-1. 首次 forkO 调 用 创建 了 一 个 新 的 子 进 程 。 然 后 父 、 子 进程 继 
续 执 行 第 二 个 fork0 调 用 ， 这 样 每 个 进程 又 创建 了 一 个 子 进程 ， 总 共有 4 
个 进程 。 所 有 这 4 个 进程 继续 执行 下 一 个 fork() 调 用 ， 每 个 进程 又 分 别 创 
建 了 一 个 子 进程 ， 最 终 ， 一 共 创 建 了 7 个 新 进程 。 


24-2. 随 本 书 一 同 发 布 的 源 文件 procexec/vfork_fd_test.c 提 供 了 一 种 
解决 方案 。 

24-3. 如 果 调 用 fork()， 然 后 令 其 子 进程 调用 raise()， 辣 自己 及 送 诸 
如 SIGABRT 之 类 的 信号 ， 那 么 将 产生 一 个 核心 转 储 文件 ， 访 文件 将 密 
切 反映 forkO 调 用 时 父 进 程 的 状态 。gdb gcore 命 令 为 程序 执行 类 似 任 
务 ， 且 不 需要 修改 源码 。 


24-5. 在 父 进程 中 添加 一 个 逆 癌 的 kill0 调 用 。 


if (kill(childPid, SIGUSR1) == -1) 
errExit("kill") 








E TAEPA 0 [a] sigsuspend() iil H « 
sigsuspend(&origMask) ; /* Unblock SIGUSR1, wait for signal */ 
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25-1. 假设 采用 了 二 进 制 补 码 结构 ， 将 所 有 比特 位 置 1 来 表示 -1， 
父 进 程 将 得 到 退出 码 255。 (最 低 八 个 有 效 比特 位 全 为 1， 这 就 是 当 父 进 
程 调用 wait0 时 返回 给 它 的 结果 ) 。〔 在 程序 中 调用 exit(-1)〉 是 一 种 程 
序 员 第 犯 的 错误 ， 主 要 是 因为 将 程序 的 返回 码 -1 与 通 闻 用 于 表明 系统 调 
用 失败 的 返回 码 -1 混淆 了 起 来 。) 
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26-1. 随 本 书 一 同 发 布 的 源 文件 procexec/orphan.c 提 供 了 一 种 解决 
方案 。 


Pavan 
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27-1. execvp0 函 数 首先 不 能 执行 dirl 目 录 中 的 文件 xyz， 因 为 该 目 
录 的 执行 权限 遭 禁 。 


因此 会 继续 搜索 目录 dir2， 并 成 功 执行 文件 xyz。 


ao 随 本 书 一 同 发 布 的 源 文件 procexec/execlp.c 提 供 了 一 种 解决 
方案 。 


27-3. 脚本 指定 cat 程 序 作 为 其 解释 器 。cat 程 序 对 文件 的 “解释 ? 残 
是 打印 文件 内 容 ， 在 启用 -n《〈 行 编号 ) 选项 的 情况 下 《就 像 输 入 命令 cat 
-n ourscript 一 样 ) 。 因 此 将 看 到 如 下 输出 。 


1 #!/bin/cat -n 
2 Hello world 


27-4. 连续 两 次 fork0 将 产生 三 个 进程 ， 形 成 父 进程 、 子 进程 和 孙 
进程 的 关系 。 创 建 孙 进程 后 ， 子 进程 将 立即 退出 ， 然 后 由 父 进程 的 
waitpidO 调 用 获得 。 因 为 成 为 孤儿 进程 ， 所 以 孙 进 程 为 init 进 程 (进程 ID 
为 1) 所 收养 。 程 序 不 需要 执行 第 二 次 wait0 调 用 ， 因 为 当 孙 进程 终止 
时 ，init 进 程 自动 完成 僵尸 进程 的 收集 工作 。 使 用 这 一 代码 序列 可 能 存 
在 这 种 用 途 : 如 果 需 要 创建 子 进程 ， 而 稍 后 又 无 法 等 待 它 ， 那 么 使 用 这 
一 代码 序列 可 以 保证 不 会 产生 僵尸 进程 。 此 类 需求 的 例子 之 一 是 : 父 进 
程 执 行 了 一 些 程序 ， 又 无 法 保证 对 其 执行 wait (而 且 也 不 想 将 SIGCHLD 
的 信号 处 置 置 为 SIG_IGN， 因 为 对 于 exec0O 之 后 遭 包 视 的 SIGCHLD 的 信 
号 处 置 ，SUSv3 并 未 规范 。) 


27-5. 传递 给 printfO 调 用 的 字符 串 没 有 包括 一 个 换行 符 ， 因 此 ， 在 
调用 execlp0 之 前 也 不 会 刷新 输出 。execlpO 调 用 会 覆盖 程序 已 存在 的 数 
as GAA HERI) ， 其 中 就 包括 stdio 组 冲 区 ， 因 此 未 刷新 的 输出 就 会 
ER. 





























27-6. 传递 SIGCHLD 信 号 给 父 进 程 。 如 果 SIGCHLD 处 理 右 函数 试 
图 调用 wait0， 那 么 调用 将 返回 错误 〈 错 误 号 为 ECHILD ) ， 表 示 没 有 可 
返回 状态 的 子 进程 。〈( 这 里 假设 父 进程 没有 其 他 遭 到 终止 的 子 进程 。 如 
果 有 ， 那 么 wait0 调 用 将 阻 寨 ,， 或 者 如 果 使 用 了 WNOHANG 标志 来 调用 
waitpid()， 那 么 waitpid() 将 返回 0〉 如 果 程 序 在 调用 system() 之 前 为 
SIGCHLD 信 号 建立 了 一 个 处 理 嚣 函数， 那么 这 种 情况 就 完全 有 可 能 出 
现 。 
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29-1. 可 能 会 有 两 种 结果 (都 获得 了 SUSv3 的 支持 ) : 线程 死 锁 ， 
当 试 图 加 入 自己 时 遭 到 阻塞 ， 或 者 调用 pthread_join0 失 败 ， 返 回 错 误 为 
EDEADLK。 在 Linux 中 ， 会 发 生 后 一 种 行为 。 在 tid 中 给 定 一 个 线程 
ID， 可 使 用 如 下 代码 来 阻止 这 种 不 测 事件 。 


if (pthread equal(tid, pthread self())) 
pthread_join(tid, NULL); 








29-2. 主线 程 终止 后 ，threadFuncO 函 数 继续 对 主线 程 堆栈 中 的 数 
据 进 行 操 作 ， 结 果 难 以 预测 。 


AAA 
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31-1. 随 本 书 一 同 发 布 的 源 文件 threads/one_time_init.c 提 供 了 一 种 
解决 方案 。 


Varad 
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33-2. SIGCHLD 信和 号 是 面向 进程 的 ， 产 生 于 子 进程 终止 时 。 可 以 
将 其 传递 给 未 阻塞 该 信号 的 任何 线程 〈 不 必 非 要 是 发 起 forkO 调 用 的 那 


条 线程 ) 。 
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34-1. 假设 程序 是 一 个 shell 管 道 的 一 部 分 。 
$ ./ourprog | grep ‘some string’ 


这 里 存在 的 问题 是 grep 与 ourprog 同 属 一 个 进程 组 ， 因 此 killpgO 调 用 
也 会 终止 grep 进 程 。 这 种 行为 可 能 并 不 是 期 望 的 行为 ， 并 且 可 能 会 误导 
用 户 。 这 个 问题 的 解决 方案 是 使 用 setpgid0 确 保 子 进程 会 被 放置 在 自己 
的 新 组 中 《第 一 个 子 进程 的 进程 ID 可 以 用 作 组 的 进程 组 ID) ， 然 后 回访 
进程 组 发 送信 号 。 这 样 就 没有 必要 让 父 进程 不 啊 应 这 个 信号 了 。 


34-5. 如 果 在 再 次 产生 SIGTSTP 信 和 号 之 前 该 信号 被 解除 了 阻塞 ， 那 
么 就 存在 一 小 段 时 间 窗 口 ( 在 sigprocmask() 调 用 和 raise() 之 则 〉 ， 在 这 
段 期 间 内 如 果 用 户 输入 了 第 二 个 挂 起 字符 〈Control-Z) , AAR HH 
进程 还 处 于 处 理 器 中 时 被 停止 的 情况 ， 其 结果 是 需要 使 用 两 个 
SIGCONT 信 号 才能 够 恢复 该 进程 。 
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35-3. 在 本 书 随 带 的 源 代码 的 procpri/demo_sched_fifo.c 文 件 中 提供 
了 一 个 解决 方案 。 


Pavan 
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36-1. 在 本 书 随 带 的 源 代码 的 procres/rusage_wait.c 文 件 中 提供 了 一 
个 解决 方案 。 


36-2. 在 本 书 随 带 的 源 代码 的 procres 子 目录 下 的 rusage.c 和 
print_rusage.c 文 件 中 提供 了 一 个 解决 方案 。 


Parag 
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37-1. 在 本 书 随 带 的 源 代码 的 daemons/t_syslog.c 文 件 中 提供 了 一 个 
解决 方案 。 
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38-1. 当 一 个 文件 被 一 个 非特 权 用 户 修改 之 后 ， 内 核 会 清除 文件 上 
的 set-user-ID 权 限 位 。 类 似 地 ， 如 果 启 用 了 组 执行 权限 的 话 也 会 清除 set- 
group-ID 权 限 位 。〔 正 如 55.4 节 中 所 细 述 的 那样 ， 在 启用 set-group-ID 位 
的 同时 禁用 组 执行 位 对 set-group-ID 程 序 没有 任何 影响 ， 相 反 ， 它 用 于 启 
用 强制 式 加 锁 ， 并 且 正 因为 这 个 原因 ， 对 此 类 文件 的 修改 不 会 禁用 set- 
group-ID 位 。) 清除 这 些 位 能 够 保证 计算 程序 文件 可 被 任意 用 户 写 入 也 
无 法 修改 这 个 文件 ， 并 且 仍 然 保留 其 回执 行 这 个 文件 的 用 户 赋 予 特权 的 
A 
些 权 限 位 。 


Varad 
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44-1. 在 本 书 随 带 的 源 代码 的 pipes/change_case.c 文 件 中 提供 了 一 
个 解决 方案 。 


44-5. 它 创 建 了 一 个 竞争 条 件 。 假 设 在 服务 器 看 到 文件 结束 的 时 刻 
与 它 关 闭 文件 读 取 描述 符 时 刻 之 间 ， 一 个 客户 端 打 开 了 这 个 FIFO 以 便 写 
入 (这 将 会 立即 成 功 而 不 会 发 生 阻塞 )》， 然 后 在 服务 器 关闭 了 读 取 描述 
符 之 后 同 该 FIFO 写 入 数据 。 此 刻 ， 客 户 端 会 收 到 一 个 SIGPIPE 信 号 ， 因 
为 没有 进程 打开 该 FIFO 来 读 取 数 据 。 或 者 客户 端 在 服务 器 关闭 读 取 摘 























述 符 之 前 可 能 能 够 打开 这 个 FIFO 并 同 其 写 入 数据 。 在 这 种 情况 下 ， 客 
户 问 的 数据 可 能 会 丢失 ， 并 且 它 不 会 接收 到 来 自 服务 器 的 啊 应 。 作 为 一 
个 深入 练习 ， 读 者 可 以 尝试 模拟 这 种 行为 ， 即 按照 建议 修改 服务 占 并 创 
建 一 个 特殊 的 客户 端 ， 该 客户 端 重复 不 断 地 打开 服务 器 的 FIFO， 回 服务 
-条 消息 ， 关 闭 服 务 器 的 FIFO， 以 及 读 取 服务 器 的 啊 应 《如果 存 
TENT) 。 


44-6. 一 个 可 能 的 解决 方案 像 23.3 节 中 描述 的 那样 使 用 alarm() 为 客 
户 端 的 FIFO 上 的 open0 调 用 设置 一 个 定时 器 。 这 个 解雇 方案 的 一 个 缺点 
是 服务 器 仍然 会 延迟 超时 时 间 间 隔 。 另 一 个 可 能 的 解决 方案 是 使 用 
O_NONBLOCK 标记 打开 客户 端 FIFO。 如 果 这 个 操作 失败 了 ， 那 么 服务 
器 可 以 认为 客户 端的 行为 异常 。 后 一 种 解决 方案 还 需要 修改 客户 端 使 其 
确保 在 回 服务 器 发 送 请 求 之 前 打开 上 自己 的 FIFO〈 也 使 用 O_NONBLOCK 
标记 ) 。 为 方便 起 见 ， 客 户 端 接着 应 该 关闭 FIFO 文 件 描述 符 的 
O_NONBLOCK 标 记 ， 这 样 后续 的 read0) 调 用 就 会 阻塞 。 最 后 ， 也 可 以 为 
这 个 应 用 程序 采用 并 发 服务 器 解决 方案 ， 其 中 主 服务 器 进程 创建 子 进程 
来 向 各 个 客户 端 发 送 响 应 消息 。 (对 于 这 个 简单 的 应 用 程序 来 讲 ， 这 种 
解决 方案 所 消耗 的 资源 是 比较 大 的 。) 


服务 器 没有 处 理 的 情况 仍然 存在 。 如 它 并 没有 处 理 序 号 游 出 或 行为 
不 轨 的 客户 端 请 求 大 量 序号 以 制造 溢出 的 情况 。 这 个 服务 器 也 没有 处 理 
客户 端 请 求 负 的 序号 长 度 的 情况 。 此 外 ， 恶 意 的 客户 端 可 以 创建 自己 的 
回复 FIFO， 然 后 打开 这 个 FIFP 来 读 取 和 写 入 ， 并 在 回 服 务 喜 发 送 请 求 之 
前 填充 数据 ， 但 当 其 尝试 写 入 回复 时 就 会 发 生 阻 塞 。 作 为 一 个 深入 练 
习 ， 读 者 可 以 尝试 设计 一 些 策略 来 处 理 这 些 情 况 。 


在 44.8 节 中 还 指出 了 程序 清单 44-7 中 给 出 的 服务 器 存在 的 另 一 个 限 
制 : 如 宁 一 个 客户 端 发 送 了 一 条 包含 错误 的 字 市 数 的 消 妃 ， 那 么 服务 器 
在 读 取 所 有 后 续 的 客户 端 消 轧 时 束 会 发 生 错乱 。 解 决 这 个 问题 的 一 个 简 
单方 法 是 不 使 用 固定 长 度 的 消息 ， 转 而 使 用 分 隅 字符 。 


























第 45 章 
Po 在 本 书 随 带 的 源 代码 的 svipc/t_ftok.c 文 件 中 提供 了 一 个 解决 
Bi 


第 46 章 


46-3. 值 0 是 一 个 有 效 的 消 轧 队列 标识 符 ， 但 0 无 法 用 作 消 息 类 型 。 





AAA 


第 47 章 


47-5. 在 本 书 随 带 的 源 代码 的 svsem/event_flags.c 文 件 中 提供 了 一 个 
解决 方案 。 


47-6. 一 个 预 留 操作 可 以 实现 成 从 FIFO 中 读 取 一 个 字 节 。 与 之 相 
反 的 是 ， 一 个 释放 操作 可 以 实现 成 同 这 个 FIFO 写 入 一 个 字 节 。 一 个 条 件 
预 留 操作 可 以 实现 成 从 FIFO 中 非 阻塞 地 读 取 一 个 字 节 。 


AAA 


第 48 章 

48-2. 因为 在 for 循 环 中 递增 步骤 中 对 shmp->cnt 值 的 访问 没有 受到 
信号 量 的 保护， 因此 在 写 者 下 一 次 更 新 这 个 值 与 读者 获取 这 个 值 之 间 存 
在 一 个 竞争 条 件 。 


48-4. 在 本 书 随 带 的 源 代 码 的 svshm/svshm_mon.c 文 件 中 提供 了 一 
个 解决 方案 。 














第 49 章 
49-1. 在 本 书 随 带 的 源 代码 的 mmap/mmcopy.c 文 件 中 提供 了 一 个 解 
第 50 章 





50-2. 在 本 书 随 带 的 源 代码 的 vmem/madvise_dontneed.c 文 件 中 提供 
了 一 个 解决 方案 。 
第 52 章 

52-6. 在 本 书 随 带 的 源 代码 的 pmsg/mq_notify_sigwaitinfo.c 文件 中 
提供 了 一 个 解决 方案 。 


52-7. 将 buffer 变 成 全 局 是 不 安全 的 。 一 旦 在 threadFunc() 中 重新 启 
用 了 消息 通知 ， 那 么 就 可 能 出 现在 threadFuncO 执 行 期 间 产 生 第 二 个 通知 
的 情况 。 这 第 二 个 通知 会 启动 第 二 个 线程 来 执行 threadFunc()， 与 此 同 
时 第 一 个 线程 也 在 执行 thread Func()。 这 两 个 线程 会 使 用 同一 个 全 局 的 
buffer， 从 而 导致 不 可 预知 的 结果 。 注 意 这 种 行为 是 依赖 于 实现 的 。 
SUSv3 允许 一 个 实现 顺序 地 同 同 一 个 进程 分 发 通知 ， 但 它 也 允许 问 并 发 














执行 的 不 同 线程 分 发 通知 ，Linux 就 是 这 样 做 的 。 
第 53 章 


53-2. 在 本 书 随 带 的 源 代码 的 psem/psem_timedwait.c 文 件 中 提供 了 
一 个 解决 方案 。 
第 55 章 

55-1. Linux 上 的 flock() 具 有 下 列 特 点 。 

a) 一 系列 共享 锁 可 以 使 等 待 放置 一 把 互 斥 锁 的 进程 饿 死 。 

b) 没有 规则 确定 哪个 进程 会 得 到 锁 。 本 质 上 来 讲 ， 锁 会 被 分 配给 
下 一 个 被 调度 的 进程 。 如 果 该 进程 恰好 获取 了 一 把 共享 锁 ， 那 么 所 有 其 
他 请 求 共享 锁 的 进程 的 请 求 也 将 同时 得 到 满足 。 


55-2. fockO 系 统 调用 没 回 检测 死 锁 。 这 一 点 适用 于 大 多 数 flock0) 
实现 ， 但 使 用 fcntl0 实 现 flockO 的 除外 。 


55-4. 在 除 早期 (1.2 以 及 以 前 ) 之 外 的 Linux 内 核 中 存在 两 种 独立 
运行 的 加 锁 机 制 ， 并 且 两 个 互 不 影响 。 


第 57 章 


57-4. 在 Linux 上 ，sendto0 调 用 会 失败 并 返回 EPERM 错 误 。 在 其 他 
一 些 UNIX 系 统 上 会 产生 一 个 不 同 的 错误 。 一 些 UNIX 实 现 并 不 要 求 这 一 
限制 ， 而 是 会 让 一 个 已 连接 的 UNIX domain 数 据 报 socket 从 其 发 送 者 处 
接收 一 个 数据 报 ， 而 不 是 从 其 对 等 处 接收 一 个 数据 报 。 


AAA 


第 59 章 


59-1. 在 本 书 随 带 的 源 代码 的 sockets 子 目 录 的 read_line_buf.h 和 
read_line_buf.c 文 件 中 提供 了 一 个 解决 方案 。 


59-2. 在 本 书 随 带 的 源 代码 的 sockets 子 目录 的 is_seqnum _ v2_sv.c、 
is_seqnum_v2_cl.c 以 及 is_seqnum_v2.h 文 件 中 提供 了 一 个 解决 方案 。 


59-3. 在 本 书 随 带 的 源 代 人 码 的 sockets 子 目 录 的 unix_sockets.h、 
unix_sockets.cus_xfr v2.h、us_xfr v2_sv.c 以 及 us_xfr v2_cl.c 文 件 中 提供 




















了 一 个 解决 方案 。 
59-5. 在 Internet domain 中 ， 来 上 自 非 对 等 socket 的 数据 报 会 被 静默 地 


EF 


Bee 


第 60 章 


60-2. 在 本 书 随 带 的 源 代 人 码 的 sockets/is_echo_v2_sv.c 文 件 中 提供 了 
一 个 解决 方案 。 


AAA 


第 61 章 


61-1. 由 于 一 个 TCP socket 的 发 送 和 接收 缓冲 器 的 大 小 都 是 有 限 
的 ， 因 此 如 果 客 户 端 发 送 了 大 量 的 数据 ， 那 么 它 可 能 会 填 满 这 些 缓冲 
器 ， 此 时 后 续 的 write0) 就 会 (永久 地 ) 阻塞 客户 端 直到 它 读 取 了 服务 器 
的 响应 为 止 。 


61-3. 在 本 书 随 带 的 源 代 人 码 的 sockets/sendfile.c 文 件 中 提供 了 一 个 解 
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第 62 章 
62-1. 当 在 不 引用 终端 的 文件 摘 述 符 上 应 用 tcgetattrO0 时 会 失败 。 
62-2. 在 本 书 随 带 的 源 代码 的 tty/ttyname.c 文 件 中 提供 了 一 个 解决 
方案 。 
第 63 章 


ae 在 本 书 随 带 的 源 代码 的 altio/select_mq.c 文 件 中 提供 了 一 个 解 
决 方案 。 


63-4. 会 产生 一 个 竞争 条 件 。 假 设 按 序 发 生 了 下 列 事件 (a) 在 
selectO0 通 知 程序 自己 的 管道 中 有 数据 之 后 ， 它 执行 了 合适 的 动作 来 啊 应 
这 个 信号 ; (b)》 力 一 个 信号 到 达 了 ， 并 且 该 信 写 处 理 占 问 自己 的 管道 
中 写 入 了 一 个 字 节 并 返回 ，《〈c) 主 程序 读 取 了 管道 中 的 全 部 数据 。 其 
结果 是 程序 会 错过 在 步骤 Cb) 中 发 出 的 信和 号 。 


63-6. epoll_waitO) 调 用 会 阻 守 ， 即 使 当 所 关注 的 列表 为 空 时 。 这 在 
多 线程 程序 中 是 比较 有 用 的 ， 其 中 一 个 线程 可 能 会 向 epol 所 关注 的 列表 
































中 添加 一 个 描述 符 ， 而 另 一 个 线程 则 阻 豆 在 一 个 epoll_waitO 调 用 中 。 


63-7. 后 续 的 epoll_wait() 调 用 会 珊 历 列表 中 己 束 绪 的 文件 描述 符 。 
这 种 做 法 是 有 好 处 的 ， 它 避免 出 现 文件 描述 符 饿 死 的 情况 ， 因 为 当 
epoll_wait() 总 是 (假设 ) 返回 数值 最 小 的 驶 绪 文 件 摘 述 符 并 且 该 文件 摘 
述 符 总 是 有 一 些 可 用 输入 的 话 就 可 能 会 发 生 这 种 情况 。 


AAA 


第 64 章 


64-1. 首先 ， 子 shell 进 程 终止 ， 然 后 是 script 父 进程 终止 。 由 于 终端 
是 运行 于 raw 模 式 下 的 ， 因 此 终端 驱动 器 不 会 对 Control-D 字 符 进 行 解 
释 ， 它 会 将 其 作为 一 个 字面 字符 传递 给 script 父 进程 ， 而 该 进程 会 将 该 
字符 写 入 到 伪 终 端 主 设备 中 。 伪 终端 从 设备 运行 于 canonical 模 式 下 ， 
此 这 个 Control-D 字符 会 被 当成 文件 结束 处 理 ， 这 将 会 导致 子 shell 进 程 
的 下 一 个 read0 调 用 返回 0， 从 而 导致 shell 终 止 。shell 的 终止 会 关闭 唯一 
一 个 引用 着 伪 终 端 从 设备 的 文件 描述 符 ， 其 结果 是 父 script 进程 的 下 一 
个 read0 调 用 会 返回 EIO 错 误 〈 在 其 他 一 些 UNIX 实 现 上 可 能 是 文件 结 
束 ) ， 然 后 这 个 进程 会 终止 。 


sere 在 本 书 随 带 的 源 代码 的 pty/unbuffer.c 文 件 中 提供 了 一 个 解决 
Ti Fo 





欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗 下 IT 专业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 IT 专业 优质 出 版 资源 和 编 
得 策划 团队 ， 打 造 传统 出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印刷 与 POD 按 需 印刷 结合 的 出 版 平台 ， 提 供 最 新 技术 资讯 
为 作者 和 读者 打造 交流 互动 的 平台 。 
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异步 社区 成 立 一 周年 大 型 焰 书 活动 开启 ! 
异步 社区 的 来 历 异步 社区 是 人 民 邮 思 出 版 社 旗下 
TS, 业 图 书 齐 舰 社区， 于 2015 年 8 月 上 线 运 
营 ， 异 步 社区 依托 于 人 民 闻 电 出 版 社 20 年 的 IT 
专业 -. 
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Python 游戏 坊 程 快速 上 ”机 医学 习 项 目 开 发 实战 。 衬 幕 派 Python 编 程 入 门 。 从 计算 机 科学 家 一 标号 
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社区 里 都 有 什么 ? 
购买 图 书 

我 们 出 版 的 图 书 涵盖 主流 IT 技 术 ， 在 编程 语言 、Web 搁 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅 销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实 现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 
下 载 资源 

社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 


另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 
可 以 免费 下 载 。 


与 作 译 者 互动 


很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 
题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 趣 
的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 关注 的 作者 提出 采访 题 
目 。 











灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 
邮电 出 版 社 书 库 发 货 ， 电 子 书 提 供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 间 
买 到 心仪 的 新 书 。 


用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 





时 ， 在 ”RE 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 

















购买 本 电子 书 的 读者 专 享 异 步 社 区 优惠 券 。 使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购 书 
时 输入 “57AWG”， 然后 点 击 “ 使 用 优惠 码 ”， 即 可 享受 电子 书 8 折 优 惠 〈 本 优惠 券 只 可 使 用 一 
R) o 


纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 购 
买 ， 多 种 阅读 选择 。 





























软 技能 : 代码 之 外 的 生存 指南 

[Š] Z. FBS (John Z Sonmez ) (作者 ) 王 小 刚 ( 译 者 ) hiss Sew) 
G 6 # | 9.0K 
JF EPF Wz 阅读 


这 星 一 本 真正 从 “人 ”【( 而 非 按 术 也 非 管 理 ) 的 角度 关注 软件 开发 人 员 已 身 发 展 的 蔬 。 书 中 论述 的 
内 容 茎 涉及 生活 习 悍 ,又 包括 导 维 方式 ,总 显 技术 中 “人 ”的 因素 ， 全面 洪 解 软 件 行业 从 业 人 员 所 
需 知 道 的 所 有 “ 软 技能 ”。 

本 书 暴 焦 于 软件 开发 人 员 生 活 的 方方面面 , 从 更 秘 画 试 的 流程 到 精 耕 绍 作出 一 份 杀手 级 简历 , Me! 
建 大 过 欢迎 的 博客 到 打 和 址 你 的 个 人 品牌 ， 从 提高 号 己 工 作 效 至 到 与 如 何 与 “ 疮 延 首 ”做 斗争 ， 基 至 
包括 如 何 投资 不 动产 ， 如何 关注 富 己 的 健康 ， 

本 书 共 分 为 职业 简 、 生 我 营销 简 、 学 习 简 、 生 产 力 简 、 理 财 简 、 健 身 简 、 精 神 簿 等 七 简 ， 概括 了 软 


® 纸 质 版 ” 闻 S9.69 着 46.02(78 折 ) 


s aza vso ED 


© 电子 版 + 纸 质 版 ¥59.00 


社区 里 还 可 以 做 什么 ? 
提交 勘误 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勘 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 

社区 提供 基于 Markdown 的 写作 环境 ， 台 欢 写作 的 您 可 以 在 此 一 试 
身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 上 自 出 版 的 乐 
趣 ， 轻 松 实现 出 版 的 梦想 。 


am A T E 





会 议 活 动 早 知 道 
您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 


加 入 异步 


扫描 任意 二 维 码 都 能 找到 我 们 : 








异步 社区 





微 信 订阅 号 

















QQ: 368449889 


社区 网 址 : www.epubit.com.cn 


官方 微 信 : 异步 社区 
官方 微 博 : @ 人 邮 寞 步 社 区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 
投稿 用 咨 询 : contact@epubit.com.cn 


